基于机器学习算法构建原发性肝细胞癌TACE抵抗术前预测模型

《Journal of Hepatocellular Carcinoma》:Construction of a Preoperative Prediction Model for TACE Resistance in Primary Hepatocellular Carcinoma Based on Machine Learning Algorithms

【字体: 时间:2026年03月15日 来源:Journal of Hepatocellular Carcinoma 3.4

编辑推荐:

  本研究开发并验证了一个基于机器学习的可解释性预测模型,用于术前评估肝细胞癌(HCC)患者的经动脉化疗栓塞(TACE)抵抗风险。该研究通过整合多模态临床数据,识别出7个核心预测因子,其中XGBoost模型展现出最优预测性能(验证集AUC=0.898)。模型结合SHAP分析揭示了中性粒细胞-淋巴细胞比率(NLR)和肿瘤包膜完整性等关键风险因素,为个体化治疗决策提供了有力工具,具有重要的临床转化价值。

  
引言
原发性肝细胞癌(HCC)是全球第六大常见恶性肿瘤和第三大癌症相关死亡原因,其5年生存率低于20%。流行病学数据显示,超过70%的患者在首次确诊时已处于晚期(巴塞罗那临床肝癌[BCLC] B/C期),失去了根治性手术的机会,预后显著差于早期患者。对于不可切除的HCC(uHCC),经动脉化疗栓塞(TACE)仍是国际指南推荐的一线治疗方案。然而,临床观察表明,约65-70%的uHCC患者在首次TACE治疗后1年内出现肿瘤进展。这种耐药现象与肿瘤微环境重塑密切相关,表现为血管生成因子(如VEGF)上调、免疫抑制细胞浸润增加以及缺氧诱导因子活化,最终导致治疗抵抗。
人工智能中的机器学习(ML)技术凭借其出色的多维数据分析能力,正在革新肿瘤预后预测的模式。与传统统计方法相比,ML具有能够同时建模线性相关性和非线性相互作用的优势,尤其适合处理临床常见的异质性数据。通过整合多模态数据,ML模型可以构建高精度的预测框架。更重要的是,结合沙普利加性解释(SHAP)等可解释技术,临床医生可以直观理解模型的决策逻辑,从而增强模型的临床信任度和实用性。因此,本研究旨在开发并验证一个基于ML的可解释预测模型,通过整合术前血常规、凝血功能、影像学特征和临床指标,实现术前对TACE抵抗的个体化预测。
方法与数据
本研究遵循《赫尔辛基宣言》的伦理准则,并获得华中科技大学同济医学院附属同济医院伦理委员会的批准。数据来源限定于2013年1月至2024年10月期间在我院接受标准化TACE治疗的HCC患者。纳入标准严格参照《中国原发性肝癌诊疗指南(2024年版)》制定。具体包括:年龄≥18岁,经病理或影像学(增强CT/MRI)诊断为HCC;术前肝功能为Child-Pugh A级或B级;接受≥3次连续且规范的TACE治疗,治疗期间未行手术、消融、靶向或免疫治疗;东部肿瘤协作组体能状态(ECOG PS)评分≤1;末次TACE后1-3个月内完成影像学复查,且有可测量的靶病灶。
所有患者均接受超选择性TACE。在局部麻醉下,经股动脉置入5F导管至腹腔干/肠系膜上动脉行数字减影血管造影(DSA)以明确肿瘤供血动脉。随后引入2.7F微导管超选插管至靶血管。栓塞方案采用“化疗药+碘油+明胶海绵”三明治法。所有患者在每次TACE治疗后1-3个月内接受计算机断层扫描(CT)和/或磁共振成像(MRI)、肝功能、血常规及肿瘤标志物随访。根据mRECIST标准,短期疗效分为完全缓解(CR)、部分缓解(PR)、疾病稳定(SD)和疾病进展(PD)。PD定义为靶病灶直径总和增加≥20%或出现新病灶。在连续3次标准化TACE治疗后1-3个月内,通过增强CT/MRI判断肝内靶病灶是否仍处于PD状态。
研究从医院电子病历系统中提取了38个候选变量。对于随机缺失值,采用多重插补法生成5个完整数据集进行分析。连续变量通过Z-score进行标准化,分类变量通过独热编码处理。数据集按7:3的比例随机分为训练集和验证集,并采用分层抽样确保两组间TACE抵抗发生率平衡。
特征筛选过程结合了传统统计方法和机器学习技术:首先使用单变量Logistic回归筛选与TACE抵抗显著相关的变量,然后使用LASSO回归进行进一步降维,通过10折交叉验证确定最优正则化参数。最终保留了同时满足单因素分析和LASSO回归非零系数的7个核心预测因子,包括中性粒细胞-淋巴细胞比率(NLR)、肿瘤包膜完整性、甲胎蛋白(AFP)水平、肿瘤双侧肝叶累及、血小板计数、原发肿瘤大小和纤维蛋白原水平。基于筛选出的特征,构建了7种机器学习模型:逻辑回归(LR)、随机森林(RF)、决策树(DT)、极限梯度提升(XGBoost)、轻量级梯度提升机(LightGBM)、支持向量机(SVM)和人工神经网络(ANN)。所有模型均通过5折交叉验证进行超参数调优。
结果
本研究共纳入562例接受TACE治疗的HCC患者,其中TACE应答组382例,TACE抵抗组180例。基线特征比较显示,TACE抵抗组在肿瘤负荷、肝功能状态和炎症指标方面存在显著异常:中位肿瘤直径为97.50 mm,显著大于应答组的75.00 mm;多发肿瘤比例、双侧肝叶累及比例、肿瘤包膜缺失率以及肿瘤血栓形成率均显著高于应答组。实验室检查方面,抵抗组AFP≥400 ng/mL的比例为63.33%,中位NLR为4.04,中位纤维蛋白原为3.66 g/L,中位血小板计数为169.00×109/L,均显著高于应答组;而淋巴细胞计数显著降低。肝功能评估显示,抵抗组Child-Pugh B级比例、ECOG PS评分1分比例以及BCLC C期比例均显著差于应答组。两组在年龄、白蛋白、凝血功能(除纤维蛋白原外)等其他指标上无统计学差异。
在验证集中,XGBoost模型展现了最佳的综合性能,其AUC值为0.898 (95% CI: 0.853–0.944),准确率、精确率、敏感度和F1分数均为最优,同时其特异度也具有均衡优势。随机森林和人工神经网络模型表现相似,支持向量机模型整体表现稳定,而决策树模型的指标相对较低。通过ROC曲线、决策曲线分析(DCA)以及具体指标的比较,最终选择XGBoost作为最优预测模型。
本研究使用校准曲线评估了各机器学习模型的拟合优度。在验证队列中,所有7个机器学习模型的校准曲线表现良好,Brier评分均小于0.2,表明模型的预测概率与HCC患者实际的TACE抵抗发生率高度一致。其中,XGBoost模型表现最佳。
为评估所开发模型的预测性能,我们将其与临床广泛使用的预测评分系统up-to-seven score进行了比较。结果显示,无论是在训练集还是验证集,XGBoost模型的AUC值均显著优于up-to-seven评分。在训练集中,XGBoost模型的AUC为0.942,而up-to-seven评分的AUC为0.712;在验证集中,XGBoost模型的AUC为0.898,up-to-seven评分的AUC为0.675。这些结果清楚地表明,我们的XGBoost模型在预测HCC患者发生TACE抵抗方面优于传统的up-to-seven评分。
SHAP值条形图量化并可视化了每个特征对模型预测的贡献程度。分析显示,NLR是最强的预测因子,其高值与抵抗风险显著正相关;肿瘤包膜缺失和高AFP水平(≥400 ng/mL)进一步验证了它们的核心预测地位;纤维蛋白原和原发肿瘤大小显示出非线性的剂量-反应效应。
SHAP蜂群图展示了每个特征SHAP值的分布情况。图表按特征影响力降序排列,显示NLR的影响范围最大,其高值与抵抗风险显著正相关;肿瘤包膜缺失和高AFP水平的贡献度急剧增加。
SHAP依赖图展示了核心临床特征对TACE抵抗预测的贡献。当肿瘤包膜缺失时,SHAP值显著高于0,表明其是抵抗预测的强阳性指标;当AFP≥400 ng/mL时,SHAP值显著增加;纤维蛋白原和血小板计数等指标显示出特征值与SHAP值之间的非线性正相关趋势。
个体水平SHAP解释图展示了具体病例的预测逻辑。对于TACE应答患者,低NLR、完整的肿瘤包膜和正常的AFP是导致风险降低的主要因素。对于TACE抵抗患者,显著升高的NLR水平导致模型的预测值大幅增加。
讨论
本研究利用7种不同的机器学习模型来预测TACE抵抗患者。实验结果表明,XGBoost模型表现优异,特别是在处理多特征、高复杂度数据时,其泛化能力和预测性能远超传统模型。XGBoost作为一种高效的梯度提升算法,擅长处理非线性和高维稀疏数据,其内置的正则化机制可有效控制模型复杂度,降低过拟合风险。
本研究确定的7个独立危险因素均与TACE疗效密切相关。肿瘤包膜完整性是影响TACE疗效的关键形态学特征。完整的肿瘤包膜可以限制肿瘤的侵袭性生长,而包膜缺失往往意味着肿瘤细胞增殖活跃。肿瘤双侧肝叶累及反映了肿瘤负荷的广泛性。原发肿瘤大小与抵抗风险的正相关性也与临床认知一致:较大的肿瘤常伴有中心坏死、血供不足或耐药克隆富集。
作为HCC的经典肿瘤标志物,AFP升高与TACE抵抗的关联具有明确的生物学基础。高AFP水平通常提示肿瘤细胞分化差、增殖活性高,并可能伴有上皮-间质转化表型。此外,AFP可通过抑制免疫系统来构建免疫抑制微环境。
在血液学指标中,NLR被SHAP分析确定为最显著的预测因子,这与先前研究中NLR作为肿瘤免疫微环境“晴雨表”的作用一致。高NLR反映了中性粒细胞介导的促炎反应增强与淋巴细胞介导的抗肿瘤免疫减弱之间的失衡。血小板计数升高可能通过释放血小板衍生生长因子和转化生长因子-β等细胞因子,促进肿瘤间质纤维化和异常血管重塑,从而抑制化疗药物向肿瘤的有效渗透。纤维蛋白原激活凝血系统,在肿瘤周围形成致密的纤维蛋白网络,不仅物理阻挡药物扩散,还会募集巨噬细胞等免疫抑制细胞。
值得注意的是,本研究中血小板计数升高与TACE抵抗相关的结论与Christopher Schrecker等人的研究不同。这种明显的矛盾可能源于血小板计数对肿瘤生物学行为的双向调节作用:高血小板计数通过促纤维化和免疫逃逸机制促进抵抗,而低血小板计数可能与肿瘤营养竞争或治疗相关的骨髓抑制有关。
本研究首次通过XGBoost模型整合了7个危险因素,其预测效能显著优于传统统计方法和其他机器学习模型。这一优势源于XGBoost处理高维和非线性数据的能力:该模型不仅能量化单个因素的独立作用,还能捕捉特征间的交互作用。
与以往基于单一指标的预测研究相比,本模型的优势体现在:整合了肿瘤形态、影像学和血液学的多维信息;自动化的特征选择和泛化能力使其可直接应用于临床数据输入;正则化机制有效降低了过拟合风险。这些特性使得XGBoost模型有望成为临床决策的辅助工具。
本研究存在一定的局限性:首先,作为一项单中心回顾性研究,样本可能存在选择偏倚,且缺乏外部验证队列;其次,未纳入分子生物学指标;此外,模型对TACE抵抗的动态预测能力尚未探索。未来的研究可以从三个方面推进:开展多中心、前瞻性研究;整合基因组学和蛋白质组学数据;开发便捷的移动端预测工具。
结论
本研究通过机器学习技术揭示了TACE抵抗的关键危险因素及其预测价值,为HCC的精准治疗提供了新思路。随着模型的进一步优化和验证,它有望成为提高TACE疗效、延长患者生存期的重要临床工具。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号