基于微小核糖核酸(miRNA)的高级浆液性卵巢癌预后模型的构建与验证:一项回顾性队列研究

《The Lancet Regional Health - Americas》:Development and validation of a miRNA-based prognostic model for high-grade serous ovarian cancer: a retrospective cohort study

【字体: 时间:2026年06月09日 来源:The Lancet Regional Health - Americas 7.6

编辑推荐:

  卵巢癌,尤其是高级浆液性卵巢癌(high-grade serous ovarian cancer, HGSOC),是最致命的妇科恶性肿瘤,主要归因于晚期诊断和有限的预后生物标志物。现有临床标志物如糖类抗原125(carbohydrate antigen 125

卵巢癌,尤其是高级浆液性卵巢癌(high-grade serous ovarian cancer, HGSOC),是最致命的妇科恶性肿瘤,主要归因于晚期诊断和有限的预后生物标志物。现有临床标志物如糖类抗原125(carbohydrate antigen 125, CA125)在风险分层方面的预后准确性有限。微小核糖核酸(microRNAs, miRNAs)因在肿瘤生物学中的作用及在生物体液中的稳定性而有望成为潜在生物标志物。本研究旨在识别并验证HGSOC中的预后miRNA生物标志物。研究人员采用机器学习(machine learning, ML)流程构建预后模型,通过特征选择和差异表达分析识别候选miRNA,利用递归特征消除(recursive feature elimination, RFE)确定miRNA与年龄、分期及MUC16联合的最优预测集。模型开发采用留出分割,在训练集内通过5折交叉验证进行超参数优化。性能采用受试者工作特征曲线下面积(area under the receiver operating characteristic curve, AUC)、召回率和平衡准确度评估。SHAP(SHapley Additive exPlanations)分析评估特征贡献,富集分析则用于表征miRNA-mRNA互作及通路。最终模型整合9种miRNA与临床变量,AUC达0.762 [95% CI: 0.621–0.903],超越既往报道的标志性模型。关键miRNA包括hsa-miR-205-5p和hsa-miR-150-5p,与血管生成、侵袭和化疗耐药通路相关。在实时定量聚合酶链式反应(real-time quantitative polymerase chain reaction, RT-qPCR)验证中,判别性能有所下降;然而,连续风险评分仍与生存独立相关,在多变量分析中C指数达0.85。本研究提出了一种整合分子特征的可解释miRNA预后模型用于HGSOC。尽管外部验证中基于ROC的判别能力有限,生存分析支持其独立预后价值,连续风险评分与生存显著相关。基于连续和分类的分层方法识别出生存差异组,支持该模型及识别出的miRNA标志物的临床相关性。
本研究旨在解决HGSOC预后评估这一重大临床难题。HGSOC作为最致命的妇科恶性肿瘤,2022年全球新增病例324,603例,死亡206,956例,五年生存率不足40%,主要归因于非特异性症状导致的晚期诊断。当前临床常用标志物CA125和人附睾蛋白4(human epididymis protein 4, HE4)虽辅助诊断与预后,但敏感性和特异性不足,尤其早期检测和可靠风险分层方面存在局限。除BRCA和同源重组修复缺陷(homologous recombination deficiency, HRD)检测外,尚无分子标志物常规用于预测长期结局或指导治疗。miRNA通过转录后调控基因表达,在增殖、凋亡、DNA修复和转移等关键致癌通路中发挥作用,且在生物体液中稳定性良好,是极具潜力的非侵入性生物标志物。机器学习(machine learning, ML)方法能够分析高维度生物学数据,揭示分子特征与临床结局间的复杂非线性关系,为开发准确、可重复、可扩展的患者分层和治疗指导工具提供框架。

研究人员利用TCGA-OV数据库的miRNA测序数据作为发现队列,经批次校正后纳入中位表达量>15 reads per million mapped reads (RPM)的标准miRNA(22核苷酸)。差异表达分析整合GEO数据库三个独立数据集:GSE103708(外泌体和细胞内miRNA谱)、GSE83693(8例原发HGSOC肿瘤和4例正常卵巢组织)及GSE47841(12例HGSOC肿瘤和9例正常样本)。筛选标准为:错误发现率(false discovery rate, FDR)校正后P<0.01且|log2fold change|≥1,且在至少两个数据集中差异表达。特征选择采用三种互补方法:快速相关滤波器(Fast Correlation-Based Filter, FCBF,最小对称不确定性=0.01)、单变量Cox回归(5年总生存期,P<0.05)和最小绝对收缩和选择算子(least absolute shrinkage and selection operator, LASSO)回归(50折交叉验证,非零系数),仅保留至少两种方法及差异表达分析共同识别的miRNA。

模型构建采用90%训练集和10%内部留出测试集的分割策略,训练集内使用5折分层交叉验证和AUC优化。评估的ML分类器包括:表格先验数据拟合网络(Tabular Prior-data Fitted Network, TabPFN)、逻辑回归(logistic regression, LR)、随机森林(random forest, RF)、极端随机树(Extra Trees)、极端梯度提升(XGBoost)、轻量级梯度提升机(LightGBM)、支持向量机(support vector machines, SVM)和多层感知器(multi-layer perceptron, MLP)。采用CalibratedClassifierCV校准预测概率,以最大化平衡准确度确定最优分类阈值。性能评估指标包括AUC、准确度、平衡准确度、召回率、特异性、F1分数、阴性预测值(negative predictive value, NPV)、Brier评分和期望校准误差(expected calibration error, ECE)。置信区间通过2000次迭代非参数重采样估计。RFE在训练流程中评估3-13个预测变量的模型子集,最终整合miRNA表达、MUC16基因表达和患者年龄确定最优预测子集。

为处理发现阶段RNA测序与外部验证RT-qPCR平台间的技术差异,模型训练时将数据预处理纳入ML流程。超参数优化(网格搜索)评估标准缩放(Z分数归一化)、稳健缩放和直通选项(无缩放),缩放参数仅从训练数据估计并应用于外部验证队列,确保预测依赖相对表达模式而非平台特异性信号强度。TabPFN模型因内部执行特征归一化,未外部应用特征缩放。

功能分析方面,通过miRTarBase和mirDIP数据库(置信度评分≥0.9)识别高置信度靶基因,要求两数据库共同预测且与miRNA表达呈显著负相关(Pearson r<0, P≤0.05),筛选HGSOC中差异表达的mRNA靶点。Reactome数据库功能富集分析采用超几何检验和Benjamini-Hochberg校正(校正后P≤0.05),冗余通路经Jaccard相似性过滤(≥0.80)。单细胞RNA测序(single-cell RNA sequencing, scRNA-seq)数据采用Seurat的AddModuleScore函数分析靶基因细胞类型富集。生存分析采用Kaplan-Meier法和log-rank检验,最优表达截断值由surv_cutpoint函数确定,Cox比例风险模型评估相对风险。

研究结果显示,TCGA-OV队列343例患者中,良好预后组(总生存期>3年,209例,60.9%)与不良预后组(总生存期≤3年且生存状态为死亡,134例,39.1%)的中位总生存期分别为4.7年和1.7年(P<0.0001)。三种特征选择方法分别从初始约1500个候选miRNA中筛选出6、15和80个候选,与差异表达分析整合后获得49个一致的预后相关miRNA。LR分类器表现最佳(AUC=0.718),SHAP分析揭示miR-200家族成员、miR-143和miR-106b为关键贡献因子。经迭代优化,10-miRNA面板达到最大预测准确度(AUC=0.704);整合年龄和MUC16后进一步提升(AUC=0.741);加入HRD状态无额外增益。通过RFE优化的TabPFN模型(Model 4)采用9-miRNA联合临床变量,达到最优性能(AUC=0.762 [95% CI: 0.621–0.903],平衡准确度=0.714,召回率=0.857)。校准曲线显示预测概率与观察结局良好一致(Brier评分=0.199,ECE=0.042)。Kaplan-Meier分析显示模型分类组别间总生存期差异显著(log-rank, P=0.013;风险比[hazard ratio, HR]=3.22 [95% CI: 1.23–8.43])。多变量Cox回归证实9-miRNA面板为独立预后因素(HR=2.38,P<0.001),校正年龄、肿瘤分期、MUC16水平、HRD状态和分子亚型后仍保持预测效能。

分子和临床相关性分析表明,10个miRNA与TP53突变状态(hsa-miR-150-5p、hsa-miR-23a-3p、hsa-miR-151a-3p)和HRD状态(hsa-miR-23a-3p、hsa-miR-200a-5p、hsa-miR-151a-3p、hsa-miR-143-3p)显著相关。在四种TCGA mRNA分子亚型中,hsa-miR-485-3p、hsa-miR-143-3p、hsa-miR-150-5p、hsa-miR-149-5p和hsa-miR-106b-3p在间充质型和增殖型(均与较差预后相关)中显著上调。功能富集分析显示hsa-miR-485-3p(182个靶点)富集于程序性死亡和干扰素α/β信号通路,hsa-miR-205-5p(207个靶点)关联细胞外基质组织和PI3K/AKT信号通路。血清样本分析显示8/10个miRNA在肿瘤样本中显著高表达,hsa-miR-150-5p外泌体表达显著升高(P=0.02),hsa-miR-205-5p呈相似趋势。单细胞分析揭示靶基因的细胞类型特异性:hsa-miR-187-3p、hsa-miR-205-5p、hsa-miR-200a-5p和hsa-miR-151a-3p靶点富集于基质和间充质细胞;hsa-miR-485-3p、hsa-miR-143-3p、hsa-miR-23a-3p和hsa-miR-150-5p靶点富集于恶性上皮细胞。深入分析显示hsa-miR-205-5p与静脉(P=0.022)和淋巴管侵袭(P=0.038)相关,其靶点PARD6B呈强负相关(r2=-0.23, P<0.0001);hsa-miR-150-5p与高肿瘤突变负荷(P=0.019)、TP53突变(P=0.028)及免疫反应型亚型相关,其靶点KCNF1呈负相关(r2=-0.25, P<0.0001),支持其通过抑制致癌靶点发挥抑瘤作用。

外部验证采用巴西国家癌症研究所(INCA)40例HGSOC患者回顾性队列(2017-2024年),经RT-qPCR检测。在辅助化疗亚组(n=31)中,二元分类模型总体准确度74.2%,特异性84%,敏感性33.3%,平衡准确度0.587,AUC=0.48。限制于III-IV期辅助化疗患者(n=23)时性能改善:准确度78.2%,平衡准确度0.671,AUC=0.58。新辅助化疗(neoadjuvant chemotherapy, NACT)亚组(n=9)性能进一步下降(准确度55.6%)。尽管二元分类框架性能有限,连续9-miRNA风险评分显示稳健预后价值:多变量Cox分析中,校正肿瘤分期、年龄和CA125后仍与总生存期独立相关(HR=2.62 [95% CI: 1.21–5.60],log-rank P=0.014;一致性指数C-index=0.85)。Kaplan-Meier分析基于连续风险评分预定义截断值分组显示显著生存差异(log-rank P=0.019;HR=10.31 [95% CI: 0.93–114.85]);二元分类分层提供更清晰的生存曲线分离(log-rank P=0.043;HR=0.23 [95% CI: 0.05–1.08])。

讨论部分,研究人员指出本研究开发了可解释ML模型整合分子和临床特征预测HGSOC总生存期,9-miRNA标志物能够进行风险分层且为独立预后因素。外部验证证明RNA-Seq训练的模型可成功转移至RT-qPCR这一临床可及平台,训练流程中的数据缩放使预测依赖相对表达模式而非平台特异性强度,减少技术变异影响。3年总生存期阈值虽简化预测但损失连续生存信息,互补的时间-事件分析确认风险评分与总生存期显著相关。外部验证队列中二元分类与连续风险评分的性能差异表明,分类框架的判别能力有限,但连续风险评分保留强预后价值;离散化可能更好捕捉临床有意义的风险组,对治疗决策尤为重要。NACT亚组性能下降反映与训练人群的生物学和临床差异,突显治疗相关异质性对模型泛化的影响。

研究强调miRNA分子特征超越传统标志物(年龄和CA125)的附加价值。现有工具如ROMA、Ova1?和Overa?受绝经状态影响或假阳性率高,本模型通过整合高维度转录组数据与ML,经SHAP可解释性分析、临床相关性和RFE将模型精简为9-miRNA标志物而不失预测准确度。与MiROvaR 35-miRNA标志物(HGSOC中AUC=0.58±0.02)相比,本模型保持亚型内的稳定判别,TabPFN架构对 relatively small clinical datasets 的强预测性能有贡献。跨队列验证中性能衰减符合预期,限制于III-IV期肿瘤时改善,反映发现队列的阶段分布影响。巴西队列与TCGA数据集在早期病例比例和年龄分布方面的差异可能限制分子预测因子的跨人群可转移性。

转化应用方面,该miRNA面板适用于液体活检。循环miRNA在生物体液中高度稳定,本面板所有miRNA在公开血清数据集中可检测,包括早期和晚期肿瘤样本,支持开发微创检测、监测和风险分层方法。RT-qPCR或数字PCR技术的实施可促进临床实验室采用和规模化临床部署。研究局限性包括:外部验证队列相对较小导致置信区间较宽和分类性能指标稳定性降低;模型训练基于以晚期为主的北美队列,而外部验证在巴西队列使用RT-qPCR,引入生物学和技术变异;NACT亚组的性能下降提示治疗背景对模型泛化的影响。

研究结论为:本研究提出了一种可解释的基于miRNA的HGSOC预后模型,整合分子和临床特征于可解释ML框架中。精简的miRNA面板和RT-qPCR验证测量凸显了转化为临床可及检测的潜力。未来需要更大多中心队列和前瞻性评估来确定该模型在风险分层和卵巢癌个体化管理中的临床效用。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号