《Cancer Medicine》:Machine Learning–Driven Prognostic Model Integrating Lymphocyte-to-C-Reactive Protein Ratio and TNM Staging in Gallbladder Cancer
编辑推荐:
本文聚焦胆囊癌(GBC)术后预后预测难题,通过整合术前淋巴细胞与C反应蛋白比值(LCR)和肿瘤TNM分期,构建并验证了一个简洁、高效的机器学习预后模型。该模型在训练和测试集中均表现出色(例如,3年生存期预测AUC高达0.872),为临床医生提供了一个易于使用的在线风险计算工具,有望优化患者个体化管理与临床决策。
引言
胆囊癌(Gallbladder Cancer, GBC)是胆道系统最常见的恶性肿瘤,也是排名前六的胃肠道癌症之一。中国的GBC发病率较高,约占全球病例的24.7%,年发病率约为每10万人3.82例。尽管医疗技术进步,GBC的预后仍然很差,5年生存率通常低于10%。目前,根治性胆囊切除术是唯一可能实现治愈性切除的有效治疗方法,但其术后常伴随不良预后和较短的生存期。因此,利用术前患者数据开发可靠的预后模型,对于增强临床决策和优化公共卫生资源配置至关重要。
传统的TNM分期系统虽能提供肿瘤解剖学扩散的重要信息,但未能充分纳入患者的生理状态。相反,血液学参数虽能反映患者的生理状况,却难以捕捉肿瘤的全部复杂性和异质性。本研究旨在通过单变量和多变量Cox回归、套索(LASSO)回归分析,从广泛的血液学和临床参数中筛选关键预后指标,并利用八种不同的机器学习算法训练模型,从中选择预测效能最佳的模型。
材料与方法
本研究纳入了2000年至2024年间在两家医院接受根治性胆囊切除术的184名GBC患者。所有患者均经病理学确诊,且术前未接受新辅助化疗或放疗。研究排除了患有其他恶性肿瘤、术前无实验室数据、存在术前感染(如胆囊炎或胆管炎)、患有其他血液系统疾病或接受姑息性切除的患者。研究获得了相关伦理委员会的批准。
从医院信息系统中提取了患者的人口统计学数据、合并症、生命体征和实验室检查结果。术前一周内的实验室指标包括C反应蛋白(CRP)、白细胞、中性粒细胞、淋巴细胞、血小板、血红蛋白、总胆红素(TB)和白蛋白等。基于这些结果,计算了包括淋巴细胞与C反应蛋白比值(LCR)、中性粒细胞与淋巴细胞比值(NLR)、血小板与淋巴细胞比值(PLR)、淋巴细胞与白细胞比值(LWR)、中性粒细胞与白细胞比值(NWR)、C反应蛋白与白蛋白比值(CAR)、预后营养指数(PNI)和改良格拉斯哥预后评分(mGPS)在内的多种新型指标。主要结局是术后1年、2年和3年的生存状态。数据分析采用了单因素和多因素Cox回归、时间依赖性受试者工作特征(ROC)曲线分析、LASSO回归以及包括逻辑回归、朴素贝叶斯、多层感知器(MLP)、随机森林、支持向量机-径向基函数核(SVM-RBF)、提升树、k近邻和决策树在内的八种机器学习模型进行评估。模型在内部使用5折交叉验证和1000次自助法(bootstrap)重采样进行验证。为应对数据类别不平衡(76%死亡 vs. 24%存活)问题,还采用了合成少数类过采样技术(SMOTE)进行了敏感性分析。最终,基于逻辑回归模型开发了诺模图,并评估了模型的校准度、临床决策曲线(DCA)等指标。
结果
患者特征
研究共纳入184名患者,平均年龄67岁,其中男性64人(34.78%),女性120人(65.22%)。患者中位生存期为18个月。肿瘤分期分布为:I期14.13%,II期17.39%,III期47.28%,IV期21.20%。截至随访结束,140名(76.09%)患者死亡,44名(23.91%)患者存活。
特征选择与预后因素识别
通过单变量和多变量Cox回归分析,发现淋巴细胞与C反应蛋白比值(LCR)和肿瘤TNM分期是GBC患者根治性胆囊切除术后生存的独立预后因素。LASSO回归分析也进一步确认了LCR和TNM分期是预后相关的变量。相关性分析显示LCR与TNM分期之间存在中度至强相关性。时间依赖性ROC曲线分析表明,TNM分期在预测1年、2年和3年生存期时表现出强大的区分能力(AUC值分别为0.73、0.81和0.84),LCR也显示出强大的预测能力(AUC值分别为0.74、0.76和0.77)。其他指标如CAR、CRP和mGPS也显示出良好的预后价值。
逻辑回归模型构建
在八种机器学习模型中,逻辑回归模型表现最佳。整合了TNM分期和LCR的逻辑回归模型在训练集上对1年、2年和3年生存的预测AUC值分别为0.785、0.853和0.873。该预测性能在测试集中得到了复现(AUC值分别为0.800、0.870和0.872),支持了模型的稳健性和普适性。模型系数分析显示,TNM分期对生存概率始终具有负面影响(系数分别为-0.9346、-1.7826、-1.8996),且其负面影响随时间推移而增强。LCR则对生存具有正面影响,但其效应随术后时间延长而减弱(系数分别为3.5111、0.8203、0.6741)。
模型验证
通过ROC曲线、校准图和DCA验证了模型的可靠性。训练集和测试集均显示出高的AUC值和预测概率与观察结果的良好一致性,尤其是在偏差校正曲线中。DCA分析显示,该模型在广泛的阈值范围内均能带来显著的净收益。基于SMOTE的敏感性分析表明,生存结局的不平衡并未对模型性能产生实质影响。1000次自助法重采样验证进一步证实了模型预测的稳定性。
预测因子贡献的动态变化与LCR的增量价值
逻辑回归模型分析显示,LCR系数的绝对值随时间下降,而TNM分期系数的绝对值随时间增加,表明LCR对短期预后的影响更大,而TNM分期在长期预后中的作用更为显著。通过比较整合了LCR的“TNM+LCR”模型与仅使用“TNM分期”的模型发现,“TNM+LCR”模型在12个月、24个月和36个月的AUC值均更高,这表明整合LCR能提供超越TNM分期本身的额外区分价值,特别是在短期生存预测方面。
讨论
肿瘤、宿主因素和治疗在决定癌症预后中均起着关键作用。本研究首次将TNM分期和LCR相结合,构建了多种机器学习模型来预测GBC患者的术后生存,并选择了性能最佳的模型。研究表明,在血液学参数中,LCR是关键预后指标。淋巴细胞作为免疫系统的重要组成部分,在对抗感染和肿瘤发展中至关重要。C反应蛋白是反映机体炎症状态的关键炎症标志物,其水平升高与多种癌症的不良预后相关。LCR作为一个比值,通过同时捕捉免疫抑制和全身炎症,放大了预后信号,这可能解释了其在预测GBC结局方面优于单一血液学标志物的原因。
本模型仅使用LCR和TNM分期这两个非共线、易于临床获取的预测因子,简化了模型并提高了临床可行性。尽管总队列规模适中,但模型的复杂度低,样本量与预测因子数量达到了平衡,避免了过拟合。为了提升临床适用性,研究者基于最终的逻辑回归模型,利用Shiny框架开发了一个简单的在线风险计算器。临床医生仅需输入LCR和TNM分期,即可即时获得个体化的1年、2年和3年生存概率。
本研究也存在一些局限性,包括样本量相对较小、数据来源于两家医院可能存在选择偏倚、以及回顾性设计导致某些临床指标缺失等。未来计划启动涉及更多机构的多中心前瞻性协作研究,以进一步验证和完善该模型。
结论
总而言之,整合术前LCR和TNM分期,可以作为接受根治性胆囊切除术的GBC患者的一种有效预后工具。该模型在增强临床决策和指导GBC患者管理方面具有巨大潜力。