基于机器学习与SHAP的可解释模型预测cN0甲状腺乳头状癌喉返神经后淋巴结转移

《Frontiers in Oncology》:Machine learning and Shapley Additive exPlanations to predict metastasis of lymph nodes posterior to the recurrent laryngeal nerve in cN0 papillary thyroid carcinoma

【字体: 时间:2026年01月07日 来源:Frontiers in Oncology 3.3

编辑推荐:

  本刊推荐:本研究创新性地将机器学习(ML)与SHAP(SHapley Additive exPlanations)可解释性分析相结合,构建了预测临床淋巴结阴性(cN0)甲状腺乳头状癌(PTC)患者喉返神经后淋巴结(LN-prRLN)转移的XGBoost模型。该模型整合了术前临床超声特征与术中冰冻病理参数,其预测性能(AUC达0.885)显著优于传统列线图,并通过SHAP可视化揭示了关键预测特征(如IPLNMR、TCNLNM等)。研究开发的网络计算器为临床制定个体化LN-prRLN清扫策略提供了可靠工具,推动了精准外科决策。

  
引言
甲状腺乳头状癌(Papillary Thyroid Carcinoma, PTC)作为分化型甲状腺癌最常见的亚型,约占甲状腺癌的85%。尽管其生物学行为相对惰性,但淋巴结转移(Lymph Node Metastasis, LNM)的发生率高达20-90%,是导致局部复发和远处转移的重要因素。喉返神经后淋巴结(Lymph Nodes posterior to the Recurrent Laryngeal Nerve, LN-prRLN)因其解剖位置深在,术前评估困难,对于临床淋巴结阴性(clinically node-negative, cN0)的PTC患者,是否行预防性清扫目前仍存争议。过度清扫可能增加喉返神经损伤、甲状旁腺功能减退等并发症风险,而遗漏转移则可能导致术后复发。因此,开发一种能够准确预测LN-prRLN转移的工具,对于优化手术方案、平衡治疗获益与手术风险至关重要。传统的超声检查对LN-prRLN评估的准确性有限,而基于逻辑回归等线性方法的预测模型可能存在选择偏倚和过拟合问题。机器学习(Machine Learning, ML)技术能够处理复杂、高维度的数据集,为突破传统模型的局限提供了新的可能。
材料与方法
本研究是一项多中心回顾性研究,经重庆医科大学附属第一医院伦理委员会批准。研究纳入了来自医院A(2016-2020年)的1714例PTC患者和来自医院B(2018-2020年)的319例PTC患者。所有患者均为cN0状态,且无既往颈部手术或放疗史。数据经过预处理,包括缺失值填补、年龄和肿瘤直径等连续变量的分类化(通过ROC曲线确定最佳截断值,如年龄≤39岁)以及数据标准化。
研究收集了包括临床特征(如年龄、性别、BMI)、超声影像特征(如肿瘤边界、纵横比、内部回声、钙化情况等)以及术中冰冻病理特征(如喉前、气管前、气管旁淋巴结转移状态、数量及比率)在内的31个特征变量。数据集被随机划分为训练集(70%)、测试集(30%)进行内部验证,医院B的数据作为独立的外部验证集。
研究构建了传统的逻辑回归列线图模型作为基线对比。同时,开发了九种ML模型,包括逻辑回归、支持向量机、决策树、随机森林、梯度提升树、极端梯度提升(Extreme Gradient Boosting, XGBoost)、K近邻、高斯朴素贝叶斯和神经网络。模型通过10折交叉验证和网格搜索进行超参数优化。模型性能通过受试者工作特征曲线(Receiver Operating Characteristic Curve, ROC)及曲线下面积(Area Under the Curve, AUC)、决策曲线分析(Decision Curve Analysis, DCA)、校准曲线、精确率-召回率曲线(Precision-Recall Curve)以及Brier分数等进行综合评价。最优模型通过概率排序模型法(Probability-based Ranking Model Approach, PMRA)进一步确认。为了增强模型的可解释性,应用SHapley加性解释(SHapley Additive exPlanations, SHAP)方法对最优模型的预测结果进行可视化,分析各特征变量的重要性及对预测结果的贡献方向,并基于此开发了一个网络计算器。
结果
患者基本特征显示,训练集、测试集和验证集的患者人口统计学和临床病理特征均衡。传统列线图模型的多变量分析确定肿瘤边界不清、T分期为T3-T4、喉前LNM、气管前LNM、同侧气管旁LNM(Ipsilateral Paratracheal LNM, IPLNM)和总中央区LNM(Total Central LNM, TCLNM)是LN-prRLN转移的独立危险因素。该列线图在训练集、测试集和验证集上的AUC值分别为0.865、0.814和0.836。
在九种ML模型中,XGBoost模型表现出最优异的预测性能。其在训练集、测试集和验证集上的AUC值分别达到0.938、0.859和0.885,均高于传统列线图。DCA曲线显示XGBoost模型在广泛的阈值概率范围内具有更高的临床净获益。校准曲线和Brier分数表明该模型预测概率与实际发生率具有良好的一致性。PMRA分析进一步证实XGBoost模型胜出的概率最高。
SHAP分析揭示了影响XGBoost模型预测LN-prRLN转移的前十个最重要特征及其贡献度:
  1. 1.
    同侧气管旁淋巴结转移比率(Ipsilateral Paratracheal Lymph Node Metastasis Ratio, IPLNMR),SHAP值0.26,贡献度16.846%
  2. 2.
    总中央区淋巴结转移数目(Number of Total Central Lymph Node Metastasis, TCNLNM),SHAP值0.24,贡献度15.601%
  3. 3.
    总中央区淋巴结转移(TCLNM),SHAP值0.23,贡献度15.104%
  4. 4.
    总中央区淋巴结转移比率(TCLNMR),SHAP值0.18,贡献度11.722%
  5. 5.
    同侧气管旁淋巴结转移数目(Number of Ipsilateral Paratracheal Lymph Node Metastasis, IPNLNM),SHAP值0.16,贡献度10.624%
  6. 6.
    气管前淋巴结转移比率(Pretracheal LNM Ratio),SHAP值0.13,贡献度8.804%
  7. 7.
    同侧气管旁淋巴结转移(IPLNM),SHAP值0.10,贡献度6.856%
  8. 8.
    肿瘤边界不清,SHAP值0.09,贡献度6.058%
  9. 9.
    肿瘤大小(>10 mm),SHAP值0.07,贡献度4.427%
  10. 10.
    年龄≤39岁,SHAP值0.06,贡献度3.958%
    SHAP摘要图、决策图和交互作用图直观地展示了这些特征与LN-prRLN转移风险之间的正负向关系。例如,较高的IPLNMR、TCNLNM等值通常对应较高的转移风险,而年龄>39岁和肿瘤直径<10mm则指示较低的风险。基于这些关键特征,研究团队开发了一个用户友好的网络计算器,可供临床医生输入患者参数后实时计算LN-prRLN转移的风险概率。
讨论
本研究证实了机器学习,特别是XGBoost算法,在预测cN0 PTC患者LN-prRLN转移方面的优越性。与传统统计模型相比,ML模型能够更好地捕捉特征与结局之间复杂的非线性关系,从而获得更高的预测精度。尤为重要的是,通过SHAP这一可解释性人工智能技术,成功地将“黑箱”模型转化为透明、可理解的决策工具,极大地增强了临床医生对模型结果的信任度。
研究发现,术中冰冻病理提供的淋巴结转移信息(包括状态、数目和比率)是预测LN-prRLN转移的最决定性因素,累计贡献度超过85%。这凸显了术中精准评估中央区淋巴结状态对于指导LN-prRLN清扫的关键作用。同侧气管旁淋巴结的转移情况(IPLNM, IPNLNM, IPLNMR)尤为重要,这与甲状腺淋巴引流主要沿气管旁途径的解剖学基础相符。此外,肿瘤大小(>10mm)、边界不清以及年轻(≤39岁)也是重要的风险提示因素。
本研究开发的网络计算器将复杂的ML模型转化为便捷的临床工具,有望在术前和术中为外科医生提供实时、量化的决策支持,有助于实现个体化的精准淋巴结清扫,避免不必要的扩大手术,从而在根除肿瘤与保护功能之间找到最佳平衡点。
研究的局限性包括其回顾性设计、样本量相对有限以及外部验证仅来自同一城市的另一家中心,可能存在一定的选择偏倚。未来需要通过前瞻性、多中心的大样本研究进一步验证该模型的普适性和稳健性。同时,整合影像组学、分子标志物等更多维度的数据,有望进一步提升模型的预测性能。
结论
本研究成功构建并验证了一个基于XGBoost机器学习算法和SHAP可解释性分析的预测模型,用于评估cN0 PTC患者LN-prRLN转移风险。该模型性能优异,显著优于传统预测方法。通过SHAP可视化,明确了影响转移的关键特征变量,并量化了其贡献度,其中术中冰冻病理参数占据主导地位。基于此开发的网络计算器为临床实践提供了直观、易用的辅助工具,有助于推动PTC外科治疗向更加精准和个体化的方向发展。未来的研究应致力于该模型在前瞻性多中心环境下的进一步优化和应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号