基于机器学习与SHAP可解释性的模型预测cN0甲状腺乳头状癌喉返神经入喉区淋巴结转移及其临床意义

《Frontiers in Endocrinology》：Machine learning: predicting lymph node metastasis around the entrance point to the recurrent laryngeal nerve in cN0 papillary thyroid carcinoma

【字体：大中小】 时间：2026年03月02日 来源：Frontiers in Endocrinology 4.6

编辑推荐：

　　本文介绍了一项创新的临床预测研究。研究者针对临床淋巴结阴性（cN0）甲状腺乳头状癌（PTC）患者，开发并验证了一种可解释的机器学习（ML）模型，专门用于预测喉返神经入喉区淋巴结（LN-epRLN）的转移风险。该研究通过随机森林（RF）算法获得了优异的预测性能（AUC达0.919），并利用SHapley Additive exPlanations（SHAP）分析揭示了以中央区淋巴结转移负荷（如TCLNMR）为核心的关键预测因子。这项工作为外科医生在术前和术中制定个体化的精准手术方案提供了数据驱动的决策工具，旨在优化肿瘤切除彻底性与神经功能保护之间的平衡。

1 引言

甲状腺癌的发病率在全球范围内持续上升，其中甲状腺乳头状癌（PTC）约占所有甲状腺癌的90%。尽管PTC通常预后良好，但其具有显著的淋巴结转移（LNM）倾向，转移率在20%至90%之间，复发率接近30%。淋巴结转移是公认的复发风险因素，不仅与生存率降低相关，也给手术管理和随访带来复杂性。

目前，临床淋巴结阴性（cN0）PTC的手术管理正朝着更精确的、基于亚区域的中英区淋巴结清扫（CLND）方向发展。这一转变源于对不同解剖亚区转移风险差异的认识。例如，位于喉返神经入喉点周围的淋巴结（LN-epRLN）是中央区内的另一个关键亚区域。然而，LN-epRLN的临床意义和转移模式在文献中仍缺乏充分描述。中央区清扫，尤其是喉返神经（RLN）周围的清扫，具有显著风险，包括RLN永久性损伤和甲状旁腺功能减退。LN-epRLN区域因其与神经的紧密解剖关系，给清扫带来了独特的外科挑战，增加了医源性损伤的风险。

传统的统计方法通常在整合多模态临床数据和捕捉预测变量之间复杂的非线性相互作用方面存在不足。在此背景下，人工智能（AI），特别是机器学习（ML），通过学习高维数据集并识别传统方法无法触及的微妙模式，为开发稳健的预测模型提供了强大的替代方案。为应对这一挑战，本研究利用机器学习来开发和验证用于预测LN-epRLN转移（LNM-epRLN）的模型。本研究的主要目标是确定预测LNM-epRLN的最佳ML模型，通过识别最关键的预测特征来简化模型，并使用SHapley Additive exPlanations（SHAP）增强模型的可解释性，以阐明特征贡献。我们旨在提供一个数据驱动的工具，以促进关于LN-epRLN清扫的个体化和精准术中决策。

2 材料与方法

2.1 患者纳入与数据处理

这项回顾性研究分析了1800名在2023年6月至2024年9月期间接受治疗的PTC患者的记录。研究获得了重庆医科大学附属第一医院伦理委员会的批准。纳入标准包括：年龄>18岁、术前细针穿刺证实为PTC、cN0状态、接受CLND以及拥有完整的临床病理数据。排除标准包括既往颈部手术或放疗、非PTC甲状腺恶性肿瘤，或未进行LN-epRLN清扫。筛选后，149名患者被纳入，并以7:3的比例随机分为训练集和测试集。数据预处理包括使用众数和均值分别填补分类变量和连续变量的缺失值。由于非正态分布，保留了LNM比例和计数作为常量变量。对数值特征进行标准化以减少尺度差异并提高模型性能。以术后组织病理学作为确定LNM-epRLN的金标准。

2.2 数据收集

收集了多类别的特征变量，包括：

•
临床特征：年龄、性别、体重指数（BMI）。
•
超声特征：肿瘤边界、钙化、肿瘤内部血管化、肿瘤周边血流、位置、纵横比、构成、内部回声模式和内部回声均匀性等。
•
术中和术后特征：术中出血量、手术时长、住院时长、术后引流量、术后出血、RLN损伤、甲状旁腺功能减退和乳糜漏。
•
病理特征：肿瘤大小（定义为肿瘤的最大直径）、甲状腺外侵犯（ETE）、桥本氏甲状腺炎（HT）、肿瘤位置、伴发良性肿瘤、多灶性、肿瘤分期、BRAF V600E突变状态。
•
术中冰冻病理特征：多个淋巴结区域的转移状态（二元变量）、转移淋巴结数量（连续变量）和淋巴结转移率（数值变量）。因变量LNM-epRLN是根据最终石蜡切片确定的二元变量。

2.3 手术方法与术中冰冻病理特征提取

手术管理包括针对肿瘤<4cm的单侧腺叶切除加同侧CLND；如果术中检测到LNM，则进行全甲状腺切除术。系统性地从喉前、气管前、气管旁、RLN入喉点、RLN后方、对侧气管旁和侧方淋巴结区域采样淋巴结。LN-epRLN被定义为气管食管沟内、围绕RLN喉部入喉点的淋巴组织。

所有标本均进行标记并接受术中冰冻切片分析，随后由三位不知情的病理学家进行组织病理学复查。所有清扫的淋巴结标本，包括来自LN-epRLN区域的标本，均在永久石蜡包埋切片上进行明确的组织病理学复查。

2.4 机器学习模型

本研究选择了九种代表不同学习范式的监督机器学习模型进行比较，包括：作为简单可解释基线的线性模型（逻辑回归，LR）；已知能捕捉非线性关系的树模型（决策树，DT；随机森林，RF；极端随机树，ET；XGBoost）；在高维空间有效的基于距离的模型（支持向量机，SVM；k近邻，KNN）；一个高效的概率模型（高斯朴素贝叶斯，GNB）；以及一个用于探索复杂层次表示的神经网络（NN）。使用准确率、受试者工作特征曲线下面积（AUC）、敏感性、特异性、阴性预测值（NPV）、阳性预测值（PPV）、F₁分数和假阳性率等指标评估模型性能。所有模型均使用Python Scikit-learn库实现。

超参数调优通过网格搜索策略结合训练集上的10折交叉验证进行，以优化模型性能并防止过拟合。使用六种互补的特征选择方法进行降维，以确保稳健性并识别一组稳定的预测特征：方差阈值、单变量选择、递归特征消除（RFE）、交叉验证的RFE（RFE-CV）、基于L1的选择和基于树的选择。

2.5 SHapley可加性解释分析

应用SHAP（一种来自合作博弈论的统一、模型无关的框架）来解释最佳模型的预测，包括全局和局部层面。该方法量化每个特征对个体预测的贡献，确保其可解释性独立于底层算法。使用平均绝对SHAP值对特征的整体重要性进行排序，并使用依赖关系图来可视化关键变量对模型预测的边际效应。

2.6 统计分析

所有统计分析均使用R软件进行。分类变量以频率和百分比表示，连续变量根据其分布以均值±标准差或中位数（四分位距）表示。使用卡方检验或Fisher精确检验进行组间比较。机器学习工作流程，包括特征选择、模型训练、超参数调优和评估，均在Python中实现。

3 结果

3.1 患者的临床与超声病理特征

最初入组了1800名cN0-PTC患者，其中149名患者（8.3%）在清扫中发现可识别的LN-epRLN组织。LNM-epRLN的转移率为19.46%（29/149）。这149名患者的队列包括115名女性和34名男性（女:男比例3.38:1），平均年龄为43.06±12.120岁。单变量分析显示，LNM-epRLN与多个临床病理因素显著相关。

与无转移的患者相比，发生LNM-epRLN的患者肿瘤更大（15.81±9.29 mm vs. 9.68±6.18 mm，P<0.001），年龄≤45岁的频率更高（68.97% vs. 31.03%，P=0.007），术后引流量更大（74.14±71.34 mL vs. 48.13±31.79 mL，P=0.003）。LNM-epRLN与多个淋巴结区域的转移显著相关，包括总中央区LNM（TCLNM）（96.55% vs. 3.45%，P<0.001）、侧颈LNM（LLNM）（72.41% vs. 10.34%，P<0.001）和对侧气管旁LNM（31.03% vs. 24.14%，P<0.001）。此外，还观察到与喉前、气管前和同侧气管旁淋巴结的转移（所有P<0.001）以及RLN后方LNM（LNM-prRLN）（P=0.001）存在显著关联。LNM-epRLN组中，中央区和侧颈区转移淋巴结的数量和比率也显著更高（所有P<0.05）。

3.2 机器学习预测模型的开发与评估

最初包含了48个特征变量。使用六种特征选择方法进行降维：方差阈值、单变量选择、递归特征消除（RFE）、交叉验证的RFE（RFE-CV）、基于L1的选择和基于树的选择。通过L1正则化特征选择，识别出13个用于预测LNM-epRLN的预测变量，包括多灶性、钙化、对侧气管旁LNM率（LNMR）、LNM-prRLN、TCLNM、气管前LNMR、气管前转移淋巴结数（NLNM）、气管旁NLNM、总中央区LNM率（TCLNMR）、总中央区转移淋巴结数（TCNLNM）、肿瘤大小、年龄和气管旁LNMR。

使用这些特征训练了九种ML模型：LR、DT、RF、ET、XGBoost、SVM、KNN、NN和GNB。使用十折交叉验证和网格搜索进行超参数调优。使用准确率、AUC、敏感性和特异性作为主要指标评估模型性能，并辅以七个额外指标。评估图包括ROC曲线、决策曲线分析（DCA）、校准曲线、精确率-召回率曲线和学习曲线。

RF模型表现出最高的预测性能，其训练和测试AUC值分别为0.956和0.919。DCA表明，RF模型在大多数概率阈值下提供了优越的临床效用。学习曲线表明尽管存在轻微过拟合，但泛化能力稳定。基于概率排序分析（PMRA），RF在所有九种ML模型中具有最低的过拟合风险和最佳的预测价值（胜率<0.5）。Wald检验证实，与大多数模型相比，RF的优势具有统计学显著性（P<0.05），尽管与XGBoost相比未达到显著性。校准曲线和精确率-召回率曲线进一步证实了RF的稳健性。

3.3 基于SHAP分析的模型可解释性与特征重要性

采用SHAP分析来解释RF模型并量化每个特征的贡献。基于平均绝对SHAP值的特征重要性排序，确定了预测LNM-epRLN的前十个预测因子：TCLNMR、气管前NLNM、气管前LNMR、TCNLNM、年龄、肿瘤大小、气管旁LNMR、TCLNM、气管旁NLNM和对侧气管旁LNMR。条形图显示了转移病例（红色）和非转移病例（蓝色）的分布。SHAP汇总图说明了特征值与预测概率之间的方向关系。较高的TCLNMR、气管前NLNM、气管前LNMR、TCNLNM、年龄和肿瘤大小值与LNM-epRLN风险增加持续相关。使用SHAP交互图进一步可视化了特征之间的交互效应。决策图说明了每个特征对最终预测的个体贡献，突出了支撑模型输出的样本特异性推理过程。每条线代表一名患者，SHAP值表示每个特征影响的大小和方向。

对特征贡献的定量评估显示，TCLNMR是最具影响力的预测因子（SHAP重要性：0.130，贡献度：18.97%），其次是TCNLNM（0.119，17.37%）、气管前NLNM（0.103，15.03%）、肿瘤大小（0.075，10.97%）和气管旁NLNM（0.051，7.36%）。这些特征的组合贡献构成了模型预测输出的主要部分。

4 讨论

据我们所知，这是首个专门为cN0-PTC患者预测LNM-epRLN而开发和验证ML模型的研究。RF算法表现出强大的预测性能，AUC为0.919。SHAP分析确定了中央区淋巴结转移负荷，特别是TCLNMR，是最具影响力的预测因子，将LNM-epRLN风险评估从主观判断转变为定量和可解释的框架。

尽管LN-epRLN亚区的临床相关性在历史上被忽视，但早期的研究帮助定义了该区域并报告了从2.51%到3.76%的转移率。我们的研究结果证实了中央区LNM是一个关键风险因素，并通过SHAP进一步量化了其主导作用，其中TCLNMR是最显著的贡献者。这强调了中央区整体的肿瘤负荷，而非孤立的淋巴结转移，是LNM-epRLN的主要驱动因素。这一观察与之前的报告一致，即超过93%的LN-epRLN阳性患者表现出并发的中央区LNM。

甲状腺手术的一个核心挑战是在彻底清扫和手术风险之间取得平衡。LN-epRLN清扫在解剖学上要求高，由于靠近RLN和甲状旁腺，增加了并发症的担忧。然而，留下转移性淋巴结会增加复发风险并使未来的再次手术复杂化。传统的决策在很大程度上依赖于外科医生的经验。通过SHAP可解释性增强后，我们的RF模型提供了对LNM-epRLN风险的个体化、可视化评估。这与预测治疗方法异质性效应的目标一致，即提倡使用模型来指导个体化治疗，识别最有可能从特定干预中受益的患者。从而使外科医生能够根据风险高低调整清扫范围，在高风险病例中更积极，在低风险病例中更保守，并根据精准手术的原则优化风险收益平衡。

最近的多中心研究已成功开发了用于预测PTC侧颈淋巴结转移的ML模型，证明了此类方法的可行性和价值。同时，其他研究强调了整合多模态数据的潜力。我们的研究为特定且具挑战性的LN-epRLN亚区提供了一个聚焦的模型。正如TRIPOD-AI指南所强调的，透明的报告和外部验证是转化的下一步。因此，这项工作的合理进展是在多个机构进行外部验证，以评估其普遍性。

预测模型的临床转化不仅取决于其准确性，还取决于其所指导程序的安全性及其决策过程的透明度。在我们的队列中，与未清扫的患者相比，清扫组在手术时间、住院时长、出血、神经损伤或乳糜漏方面没有显著差异。尽管清扫组的术后引流量较高（P=0.03），这很可能反映了更广泛的组织切除，但这并未转化为出血临床风险的增加。这些发现为模型引导方法的安全性提供了初步支持。此外，为了提高技术精确性，我们采用了互补的术中技术。首先，使用碳纳米颗粒进行淋巴管绘图，有助于甲状旁腺保护和淋巴结可视化。在LN-epRLN的狭小解剖空间中，该技术有助于区分淋巴组织与神经和腺体结构。其次，根据国际标准，常规使用RLN术中神经监测（IONM）。这种做法提供实时功能反馈，有助于在手术视野中识别神经，对于在关键的LN-epRLN区域进行清扫时预防医源性损伤至关重要。结合使用这些技术旨在最大限度地提高在该高风险区域进行精确清扫的安全性。

值得注意的是，我们开发了一个仅包含七个关键预测因子的简化模型，这在保留高预测准确性的同时，显著增强了临床实用性。这些特征大多可以通过术前超声评估和术中冰冻切片分析获得，使得模型的实时应用成为可能。SHAP决策图和力图通过说明每个特征对个体患者最终预测的贡献，进一步增强了模型的透明度，有效地将“黑箱”模型转变为可解释的“玻璃箱”。这种透明度对于建立临床信任和促进外科医生接受该模型至关重要。

本研究有几个局限性。首先，其单中心、回顾性设计存在固有的选择偏倚，可能限制了研究结果的普遍性。该模型是在单个机构具有特定手术和病理方案的数据上开发和验证的。其次，尽管我们的队列规模不小，但LNM-epRLN仍是一个相对罕见的事件，导致用于模型训练的阳性病例数量有限（n=29）。这种类别不平衡虽然反映了该特定亚区的临床现实，但可能导致模型敏感性中等，并强调了未来工作中需要更大规模、汇总的数据集。最后，模型在测试集中0.500的敏感性表明仍有改进空间，未来工作应致力于识别额外的预测特征或采用技术来处理类别不平衡问题。

5 结论

在这项研究中，我们成功地为cN0 PTC患者的LNM-epRLN预测开发并验证了一个可解释的ML框架。RF模型表现出优越的性能，达到了0.919的高AUC。通过SHAP分析，我们识别并量化了关键预测因子的重要性，其中TCLNMR是最具影响力的因素。一个仅使用七个临床可及特征的简化模型保留了强大的预测能力，增强了其融入实际手术流程的潜力。

这个可解释的模型提供了一个数据驱动的工具，可以帮助外科医生就高风险LN-epRLN区域的清扫做出个体化的术中决策。通过提供转移风险的定量评估，它旨在优化肿瘤切除彻底性与RLN功能保护之间的关键平衡。未来的工作必须优先在多个中心的前瞻性队列中进行外部验证，以严格评估该模型在不同实践环境中的普遍性和临床效用。在成功验证之后，结合额外的生物标志物可能会进一步提高预测准确性，最终目标是建立一个用于推进甲状腺癌精准手术的AI辅助决策系统。