IdentifiHR:基于209基因表达谱的高级别浆液性卵巢癌同源重组缺陷预测模型

《Communications Medicine》:IdentifiHR predicts homologous recombination deficiency in high-grade serous ovarian carcinoma using gene expression

【字体: 时间:2026年01月16日 来源:Communications Medicine 6.3

编辑推荐:

  本研究针对高级别浆液性卵巢癌(HGSC)中同源重组缺陷(HRD)检测的临床需求,开发了基于基因表达谱的机器学习模型IdentifiHR。研究团队利用TCGA队列的转录组数据,通过弹性网络惩罚逻辑回归算法构建了包含209个基因的预测模型,在独立验证集中达到86%的准确率,显著优于现有方法。该模型首次实现了仅通过RNA测序数据即可精准识别HRD状态,为PARP抑制剂靶向治疗提供了新的生物标志物检测方案。

  
在卵巢癌的诸多亚型中,高级别浆液性卵巢癌(HGSC)以其侵袭性强、预后差的特点备受关注。令人欣慰的是,约半数HGSC患者存在同源重组(HR)DNA修复途径的缺陷,这一特征使得肿瘤细胞对PARP抑制剂(PARPi)治疗异常敏感。然而,如何精准识别这些可能从靶向治疗中获益的患者,成为临床实践中的关键难题。
目前,临床检测HRD的金标准主要依赖于基因组层面的"疤痕"分析,包括端粒等位基因失衡(TAI)、大片段转移(LST)和杂合性缺失(LOH)等指标。这些方法虽然可靠,但需要全基因组测序数据,成本高昂且无法反映肿瘤当前的功能状态。更棘手的是,部分最初HRD的肿瘤可能通过BRCA1/2突变逆转等机制恢复HR功能,导致基因组疤痕与真实功能状态不符。尽管RNA测序技术能更直接反映基因功能状态,且成本较低,但此前缺乏专门针对HGSC开发的基因表达预测工具。
针对这一技术空白,来自澳大利亚沃尔特与伊丽莎霍尔研究所的Ashley L. Weir团队在《Communications Medicine》发表了创新性研究成果。研究人员开发了名为IdentifiHR的机器学习模型,该模型仅需分析209个基因的表达谱,就能准确预测HGSC的HRD状态。
研究团队首先对TCGA数据库中361例HGSC样本进行系统分析,随机划分为训练集(288例)和测试集(73例)。通过差异表达分析筛选出2604个与HR状态显著相关的基因,进而采用弹性网络惩罚逻辑回归算法构建预测模型。令人印象深刻的是,最终模型仅保留209个具有非零权重的基因,却在多个独立验证队列中表现出色。
关键技术方法包括:利用TCGA和AOCS队列的RNA测序数据进行模型训练与验证;采用limma-voom进行差异表达分析;通过五折交叉验证优化弹性网络参数;使用单细胞RNA测序数据(MSKCC队列)进行伪批量分析验证模型鲁棒性。
模型特征揭示基因组疤痕信号
差异表达分析发现,HRD与HRP样本间存在2604个显著差异表达基因,其中1315个下调,1289个上调。值得注意的是,这些基因在染色体上的分布并非随机,而是富集于已知的HR相关拷贝数变异(CNV)区域。例如,8号染色体长臂末端(8q24.2-8q24.3)基因显著上调,而5号染色体(5q13.2)和19号染色体(19q12)区域基因则呈现下调趋势。这些区域此前已被证实与HR状态特异性CNV相关,表明IdentifiHR捕获的基因表达信号能够反映HRD导致的基因组疤痕。
模型在多个队列中验证性能
在TCGA测试集(73例)中,IdentifiHR的预测准确率达到85%(AUC=0.86),预测概率与HRD评分呈显著正相关(R=0.65)。在澳大利亚卵巢癌研究(AOCS)队列的99例样本中,模型准确率进一步提升至86%(AUC=0.91),其中包括原发肿瘤、腹水样本甚至尸检样本,显示出广泛的适用性。特别值得关注的是,模型对7例正常输卵管组织全部正确预测为HRP状态,表明其特异性良好。
单细胞测序数据验证细胞特异性
研究人员还利用MSKCC的106个单细胞RNA测序样本(来自37例患者)进行验证。将HGSC细胞伪批量分析后,IdentifiHR在患者水平预测准确率达到84%(AUC=0.92)。这一结果具有重要意义,表明模型所依赖的信号确实来源于肿瘤细胞本身,而非肿瘤微环境的干扰。即使样本中细胞数少于100个,模型仍能保持准确预测,展现了在稀疏数据条件下的鲁棒性。
比较研究显示显著优势
与现有的基因表达预测方法(BRCAness、MultiscaleHRD和expHRD)相比,IdentifiHR在TCGA测试集中表现最优,准确率(85%)显著高于其他方法(52-70%)。值得注意的是,expHRD虽然预测的HRD评分与真实值相关(R=0.69),但需要将判断阈值从42调整至84才能达到最佳准确率,且仍在AOCS队列中表现不佳(准确率50%),凸显了HGSC特异性模型的重要性。
临床转化潜力巨大
IdentifiHR的成功开发为HGSC的精准治疗提供了新思路。首先,该模型使仅拥有转录组数据的研究者和临床医生能够可靠地评估HR状态,扩大了PARPi受益人群的识别范围。其次,模型对单细胞数据的适应性为研究HR状态异质性奠定了基础,有望揭示治疗抵抗的机制。更重要的是,模型捕获的基因组疤痕信号为理解HRD的分子特征提供了新视角。
研究也存在一定局限性。由于训练数据的限制,模型主要反映的是HRD的历史状态,而非当前功能状态。对于发生HR功能恢复的肿瘤,预测准确性可能需要进一步验证。此外,模型在非HGSC肿瘤中的适用性尚未评估,其泛化能力有待更多研究证实。
该研究的结论部分强调,IdentifiHR是首个专门针对HGSC开发的基于基因表达的HRD预测工具,其卓越性能源于对HR特异性基因组特征的精准捕捉。研究人员已将模型打包为开源R包(https://github.com/DavidsonGroup/IdentifiHR),方便学界和临床使用。随着单细胞和空间转录组技术的普及,这种基于基因表达的预测方法有望在肿瘤异质性研究和精准医疗中发挥更大价值,为卵巢癌患者带来新的希望。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号