使用 SHapley Additive ExPlanations（SHAPEX）解释型机器学习模型预测肺炎支原体肺炎中的肺不张现象

《Frontiers in Pediatrics》：Prediction of atelectasis in Mycoplasma pneumoniae pneumonia using a SHapley Additive exPlanations-interpretable machine learning model

【字体：大中小】 时间：2026年05月11日 来源：Frontiers in Pediatrics 2.0

编辑推荐：

　　**摘要** **目的**：本研究旨在评估三种机器学习模型——K最近邻（KNN）、支持向量机（SVM）和神经网络（NN）在预测儿童肺炎支原体肺炎（MPP）患者发生肺不张风险方面的性能。研究还结合了SHAP（Shapley Additive Explanations）分析来解释

　　**摘要**
**目的**：本研究旨在评估三种机器学习模型——K最近邻（KNN）、支持向量机（SVM）和神经网络（NN）在预测儿童肺炎支原体肺炎（MPP）患者发生肺不张风险方面的性能。研究还结合了SHAP（Shapley Additive Explanations）分析来解释模型预测结果。
**方法**：基于508名儿科患者的临床数据，我们进行了特征选择，并开发了KNN、SVM和NN模型。在独立的验证集上比较了模型性能，并使用SHAP值来阐明模型的预测逻辑。
**结果**：在验证集上，神经网络（NN）模型表现出最佳的总体性能，AUC为0.89，准确率为0.82。KNN模型的表现相当（AUC=0.88），而SVM模型获得了最高的特异性（0.87）。SHAP分析一致地指出中性粒细胞百分比（NEU.pct）、血清淀粉样蛋白A（SAA）和C反应蛋白（CRP）是影响预测的最关键变量。
**结论**：本研究证明了不同机器学习模型在预测MPP患者肺不张风险方面的有效性。特别是神经网络，由于其强大的非线性建模能力而表现优异。这些可解释的模型为临床医生提供了多种工具，以满足不同的临床需求，如整体准确率或高特异性，从而有助于早期识别和分层管理高风险儿童。

**引言**
肺炎支原体（MP）是儿童社区获得性肺炎（CAP）的主要原因，占住院病例的10%–40%，尤其是在学龄儿童中（1）。虽然肺炎支原体肺炎（MPP）通常较轻且自限性较强，但有大约10%–30%的患者会发展为重症或难治性病例。这种重症形式可能导致严重的并发症，如支气管狭窄、支气管扩张、胸腔积液和肺不张，这不仅会恶化临床结果并延长住院时间，还会增加长期肺功能障碍和医疗负担（2, 3）。因此，早期识别MPP患者的肺不张对于及时干预和改善预后至关重要。
在这些并发症中，肺不张尤其令人担忧，因为它对呼吸功能有严重影响。其放射学表现为斑片状或节段性阴影以及可能的纵隔移位。临床上，伴有肺不张的MPP儿童常出现持续发热，炎症标志物显著升高，并且经常需要纤维支气管镜等侵入性干预措施来促进康复（4, 5）。尽管之前的回顾性研究强调了早期识别的重要性（6–9），但这些研究主要依赖于传统的单变量或多变量逻辑回归，至今尚未建立可靠的预测模型。
当前的肺不张诊断方法存在显著局限性。虽然支气管镜检查对于清除气道分泌物、黏液栓和促进肺扩张有效，但它是一项具有内在风险的侵入性操作，且由于缺乏标准化标准，其早期应用仍存在争议（5, 11）。此外，其复杂性和初级保健环境中专业知识的匮乏限制了其广泛应用。相比之下，胸部计算机断层扫描（CT）在识别黏液栓和气道阻塞部位方面具有更优越的诊断细节（12, 13）。然而，对辐射暴露的顾虑和患者的依从性限制了重复CT扫描的可行性。这一诊断难题突显了迫切需要一种非侵入性和可靠的工具来早期预测MPP儿童的肺不张。
计算技术和人工智能的最新进展为这一问题提供了有希望的解决方案。机器学习（ML）作为一种强大的数据驱动方法，越来越多地被用于疾病诊断、预后和风险预测（14–16）。越来越多的证据表明，ML模型在处理复杂的高维临床数据方面表现出优越性。例如，在慢性疾病中，ML取得了优秀的预测性能（AUC 0.74–1.0），并在预测肺炎相关疾病的结局方面具有高准确性（AUC达0.97（17, 18））。类似地，ML模型成功地预测了与呼吸机相关的肺炎（AUROC 0.854），并用于评估肺炎的严重程度以及区分COVID-19与其他类型的肺炎（19–22）。这些发现共同表明，ML在预测MPP患者的肺不张风险方面具有巨大潜力，据我们所知，这一研究领域尚未得到充分探索。ML提供了一系列工具来解决这一临床挑战，不同的算法适用于各种临床数据和预测场景（23, 24）。例如，K最近邻（KNN）基于类似病例的历史数据进行预测；支持向量机（SVM）擅长处理多变量数据，并能有效地区分高风险和低风险群体；而神经网络（NN）能够学习复杂的非线性模式，显示出强大的预测能力。
在预测MPP儿童肺不张风险的背景下，选择最合适的模型至关重要。本研究将系统地比较上述三种模型的性能，以确定最佳的预测工具，特别关注它们的临床实用性。为此，我们将使用SHAP（Shapley Additive Explanations）解释框架来清晰地揭示驱动每个预测的关键临床因素。我们的最终目标是开发一个临床医生能够理解和信任的决策支持工具。该工具旨在实现MPP儿童肺不张的早期和精确的风险分层，从而帮助医生确定最佳干预窗口，主动减少并发症的发生，并最终改善患者预后。

**方法**
**伦理批准**
本研究获得了武汉吴昌医院伦理委员会的批准。这项回顾性研究使用2022年7月至2024年6月期间在武汉吴昌医院儿科接受胸部CT检查的508名MPP患者的数据进行。由于研究的回顾性特点，无需获得知情同意。

**研究人群**
这项回顾性建模研究旨在基于真实临床数据开发ML模型，以预测MPP儿童的肺不张风险。筛查了2022年7月至2024年6月期间入院的儿科病例。MPP的诊断依据《儿童肺炎支原体诊断与治疗指南》（2023年版）进行。诊断需要肺炎的临床或放射学证据以及一个实验室标准：（1）IgG滴度增加≥4倍；（2）IgM滴度≥1:160；或（3）肺炎支原体PCR检测呈阳性。伴有肺不张的MPP定义为伴有放射学确认的节段性或肺叶性肺不张的MPP。排除以下患者：（1）症状持续时间>14天；（2）同时感染细菌、病毒或结核分枝杆菌；（3）存在基础疾病，如支气管扩张、不动纤毛综合征、免疫缺陷或血液系统疾病；（4）合并肾、肝、心血管或结缔组织疾病；或（5）关键临床数据缺失。缺失的实验室值按以下方法进行插补。最终共有508名符合条件的患者被纳入研究，其中297例无肺不张（58.5%），211例有肺不张（41.5%）。尽管这是一项未经事先样本量计算的回顾性研究，但最终样本量（n=508）被认为是足够的，因为最终模型中选择的特征数量有限（4–7个特征），从而获得了较高的事件-变量比率和稳定的性能估计值及狭窄的置信区间。

**纳入和排除标准**
MPP的诊断严格遵循《朱 futang 实用儿科》第8版的诊断标准。所有纳入的病例都必须有明确的MPP诊断（阳性或阴性）以及至少一个实验室结果或人口统计变量。其他特征的任何缺失数据都必须符合插补标准。

**数据收集**
每位患者在入院时记录了20个候选预测因子，包括两个人口统计因素（性别、年龄）和18个实验室或临床指标，如CRP、hs-CRP、SAA、WBC、NEU、NEU%、LYM、PLT、ALT、AST、CK-MB、LDH、铁蛋白、IL-6、PCT、IgE、发热持续时间和最高体温。肺不张的诊断基于胸部CT结果。放射学标准包括直接征象，如肺体积减少、增强或阴影增加以及叶间裂隙、纵隔或肺门的移位，以及间接征象，如肋骨拥挤。为了减少偏差，所有CT图像均由两位对患者临床信息和实验室结果不知情的经验丰富的放射科医生独立审核。在初次评估不一致的情况下，通过第三位资深放射科医生的共识讨论达成最终诊断。观察者间的可靠性非常好，Cohen's kappa系数为0.72。

**数据预处理和统计分析**
为确保严格的模型评估并防止数据泄露，数据集首先按结果随机分层，分为训练集（406例）和验证集（102例），比例为8:2。随后进行数据插补。缺失值≤30%的变量通过随机森林算法（miceforest包）进行多重插补（25）。然后仅在训练集上进行单变量分析，以识别显著特征。使用Kolmogorov–Smirnov检验评估连续变量的正态性；正态分布的变量使用独立样本t检验进行比较，而非正态分布的变量使用Mann–Whitney U检验进行比较。类别变量使用卡方检验或Fisher's精确检验进行分析。P值<0.05的变量被认为具有统计学显著性，并保留用于初步建模。

**模型开发**
在五个插补后的训练数据集上训练ML模型。报告的性能指标（如AUC、准确率）代表了这五个模型在相应验证集上的平均结果。

**特征选择和模型开发**
为确保模型的泛化能力，所有特征选择过程仅限于训练集。最初，使用统计显著的变量训练模型，并使用SHAP评估特征重要性。随后，采用逐步向前选择算法迭代地纳入变量。特征的纳入基于它们对模型性能的贡献，具体通过五折交叉验证的AUC来衡量。这个过程持续进行，直到不再观察到性能提升。
评估了三种ML算法：KNN、SVM和NN。超参数通过贝叶斯优化进行调优，并应用嵌套交叉验证以避免过拟合。
KNN是一种非参数的基于实例的方法，通过其特征空间中K个最近邻的多数投票来对数据点进行分类。它不需要显式训练，但在推理过程中计算密集，并且对k的选择和特征缩放敏感（26）。SVM是一种判别分类器，它找到分隔类别的最佳超平面以实现最大间隔。其非线性分类的效果通过核函数实现，这些核函数将数据隐式映射到更高维的空间（27）。在本研究中，我们实现了多层感知器（MLP）来捕捉复杂的非线性模式，以实现强大的预测能力。NN由相互连接的神经元层组成，通过反向传播过程从数据中学习层次化的特征表示。这种架构使它们能够建模高度复杂的非线性关系，成为深度学习的基础（1）。模型超参数通过贝叶斯优化进行优化。最终架构包括两个隐藏层，分别具有64个和32个神经元。隐藏层和输出层都使用了Sigmoid激活函数。模型通过随机梯度下降（SGD）进行训练，学习率为0.001。为了防止过拟合，我们应用了L2正则化（惩罚因子为0.0001）和dropout率0.5。训练最多进行200个周期，批量大小为32，采用提前停止机制在验证损失停止改进时终止过程。

**模型评估**
使用多种指标在训练集和验证集上评估模型性能。除了包括准确性、精确度、召回率、F1分数、接收者操作特征曲线下面积（AUC）、特异性、阳性预测值（PPV）和阴性预测值（NPV）在内的判别指标外，我们还评估了校准，以评估预测概率的可靠性。校准是通过校准曲线进行可视化的，并使用Brier分数进行量化的（分数越低，表示校准效果越好）。结果特征选择和模型可解释性在训练集中，单变量分析识别出14个在患有和未患有MPP相关肺不张的患者之间存在统计学显著差异的变量（P < 0.05），包括发热持续时间（Fever.Dur）、最高体温（Temp.Max）、中性粒细胞计数（NEU）、淋巴细胞计数（LYM）、中性粒细胞百分比（NEU.pct）、血清淀粉样蛋白A（SAA）、C反应蛋白（CRP）、高灵敏度CRP（hs.CRP）、血小板计数（PLT）、肌酸激酶MB（CK-MB）、乳酸脱氢酶（LDH）、铁蛋白、白细胞介素-6（IL-6）和前降钙素（PCT）。其他变量如性别、年龄、WBC、ALT、AST和IgE未达到统计学显著性（表1）。表1特征队列0（n=297）队列1（n=211）p(U)性别0.063女性133（44.8%）113（53.6%）男性164（55.2%）98（46.4%）年龄（岁）7.60（5.50, 9.70）8.00（6.30, 9.50）0.203发热持续时间（天）4.00（0.00, 6.00）6.00（4.00, 7.00）<0.001最高体温（°C）38.50（36.80, 39.00）39.00（38.70, 39.50）<0.001WBC（×10^9/L）6.83（5.51, 8.12）6.92（5.67, 8.50）0.258NEU（×10^9/L）3.89（3.00, 5.05）4.41（3.48, 5.75）<0.001LYM（×10^9/L）1.96（1.58, 2.52）1.70（1.34, 2.10）<0.001NEU.pct（%）0.60（0.51, 0.66）0.66（0.58, 0.72）<0.001SAA（mg/L）31.35（10.43, 64.01）99.44（57.03, 160.14）<0.001CRP（mg/L）4.45（2.10, 7.61）12.92（8.43, 24.34）<0.001hs.CRP（mg/L）6.45（2.08, 10.75）18.48（11.32, 30.54）<0.001PLT（×10^9/L）250.00（206.00, 295.00）227.00（189.50, 263.50）<0.001CK.MB（U/L）3.30（2.70, 4.10）2.60（1.90, 3.45）<0.001LDH（U/L）247.50（215.80, 272.10）251.50（223.45, 284.50）0.012ALT（U/L）12.60（10.20, 16.10）12.40（9.90, 16.60）0.509AST（U/L）29.60（24.70, 34.80）30.00（25.75, 34.55）0.548铁蛋白（μg/L）90.31（69.30, 118.12）121.99（93.25, 160.35）<0.001IL-6（pg/mL）12.86（7.31, 20.22）18.02（11.04, 26.14）<0.001PCT（ng/mL）0.06（0.04, 0.09）0.08（0.05, 0.14）<0.001IgE（IU/mL）81.00（32.70, 239.88）88.48（35.00, 261.24）0.324基于这些结果，进一步使用了SHAP分析来识别每个模型中具有关键区分能力的变量。最初，所有14个变量都被包括进来以构建每个算法的基线模型，并为每个样本计算了SHAP值。然后使用平均绝对SHAP值来衡量特征的重要性。结果表明，SAA、CRP、hs.CRP、CK-MB、Temp.Max、铁蛋白和NEU.pct在多个模型中始终排名靠前，突显了它们在预测中的核心作用（图1）。图1展示了临床特征对MPP诊断影响的SHAP图，分别对应于（a）KNN、（b）SVM和（c）NN。此外，根据SHAP排名进行了前向逐步特征选择，以构建最优特征子集（见方法部分）。在每一步中，添加了一个新变量，并使用五折交叉验证评估训练集上的AUC，将AUC趋势与变量数量绘制成图。最终，不同模型选择了不同的特征子集，表明在不同算法中特征利用和区分路径存在差异（表2）。表2模型特征KNN“Temp.Max”、“SAA”、“CRP”、“hs.CRP”SVM“NEU.pct”、“SAA”、“CRP”、“Temp.Max”、“hs.CRP”NN“NEU.pct”、“SAA”、“CRP”、“hs.CRP”、“Temp.Max”、“Fever.Dur”、“NEU”、“CK.MB”不同模型的特征选择。机器学习模型的预测性能在这项研究中，我们比较了多种机器学习算法在预测患有MPP的儿童肺不张风险方面的性能。不同模型在训练集和验证集中的分类性能分别列在表3和表4中，相应的ROC曲线显示在图2中。表3模型准确率精确度召回率F1分数AUC（ROC）特异性PPVNPVKNN0.81（0.78, 0.83）0.79（0.74, 0.82）0.73（0.68, 0.79）0.76（0.72, 0.79）0.89（0.88, 0.91）0.86（0.83, 0.89）0.79（0.74, 0.82）0.82（0.79, 0.85）SVM0.78（0.76, 0.80）0.73（0.70, 0.75）0.75（0.72, 0.79）0.74（0.71, 0.77）0.86（0.84, 0.88）0.80（0.78, 0.82）0.73（0.70, 0.75）0.82（0.80, 0.84）NN0.81（0.75, 0.84）0.79（0.72, 0.85）0.72（0.65, 0.78）0.76（0.68, 0.80）0.89（0.86, 0.92）0.87（0.82, 0.90）0.79（0.72, 0.85）0.81（0.77, 0.85）不同模型在训练集上的性能。表4模型准确率精确度召回率F1分数AUC（ROC）特异性PPVNPVKNN0.80（0.72, 0.87）0.76（0.62, 0.89）0.74（0.60, 0.87）0.75（0.63, 0.84）0.88（0.81, 0.94）0.83（0.73, 0.93）0.76（0.62, 0.89）0.82（0.72, 0.91）SVM0.78（0.70, 0.85）0.78（0.62, 0.91）0.65（0.50, 0.79）0.70（0.58, 0.81）0.83（0.75, 0.91）0.87（0.78, 0.95）0.78（0.62, 0.91）0.78（0.68, 0.87）NN0.82（0.75, 0.89）0.82（0.69, 0.93）0.74（0.60, 0.88）0.78（0.66, 0.87）0.89（0.82, 0.95）0.88（0.80, 0.96）0.82（0.69, 0.93）0.83（0.73, 0.92）不同模型在验证集上的性能。图2展示了三种机器学习模型的ROC曲线。（a）KNN、（b）SVM和（c）NN的ROC曲线。这些曲线显示了模型在训练集和验证集上的性能。表3总结了三种机器学习模型（KNN、SVM和NN）在训练集上的分类性能。总体而言，KNN和NN获得了最佳性能，准确率为0.81，F1分数为0.76，AUC为0.89，表明它们具有强大的区分能力和良好的拟合性能。SVM模型的性能略低，AUC为0.86，准确率为0.78，但仍显示出合理的稳定性。所有模型的特异性和NPV均高于0.80，表明在识别阴性病例方面具有高可靠性。验证集上的性能（表4）进一步展示了模型的泛化能力。NN模型再次表现优于其他模型，准确率为0.82，F1分数为0.78，AUC为0.89，显示出在未见数据上的出色鲁棒性和区分能力。KNN模型紧随其后，准确率为0.80，AUC为0.88，表明具有良好的泛化能力。尽管SVM的准确率和AUC略低（分别为0.78和0.83），但它保持了最高的特异性（0.87），表明在区分阴性样本方面具有优越性能。图2展示了模型在训练集和验证集上的ROC曲线。所有三个模型的ROC曲线都远高于随机猜测的对角线，其中NN曲线最接近左上角，表示整体性能最优。训练集和验证集AUC之间的最小差异表明没有显著的过拟合和良好的泛化能力。总之，这三个模型在两个数据集上都表现出稳定和准确的性能。NN模型展现了最佳的整体性能，其次是KNN，而SVM展示了强大的特异性。这些发现表明机器学习模型在疾病风险预测方面是有效的，并具有临床应用的潜力。讨论本研究系统地比较了三种经典机器学习模型在疾病风险预测方面的性能。结果表明，所有模型在训练集和验证集上都表现出高区分能力，其中NN模型的整体性能最佳，其次是KNN，而SVM在特异性方面具有优势。NN模型的卓越性能可归因于其强大的非线性特征映射能力，使其能够捕捉多维临床变量之间的复杂交互作用（28）。此外，训练集和验证集之间AUC的微小差异表明了其强大的泛化能力。尽管KNN的表现相当，但它可能受到邻域选择和数据分布的影响，在复杂数据集中可能会导致略微较低的结果。尽管SVM的总体准确率略低，但它实现了最高的特异性，表明其在识别低风险或阴性病例方面的潜力。总之，这些发现突出了机器学习在疾病风险预测中的可行性和临床适用性。未来的研究应探索集成学习和深度学习方法的整合，以进一步增强特征表示并验证模型在多中心和前瞻性数据集上的泛化能力。结论本研究系统地评估了三种机器学习模型——KNN、SVM和NN——在预测MPP相关肺不张风险方面的性能。结果表明，所有模型在训练集和验证集上都表现出高区分能力，其中NN模型在整体性能上表现最佳，其次是KNN，而SVM在特异性方面具有优势。NN模型的卓越性能可归因于其强大的非线性特征映射能力，使其能够更好地捕捉MPP过程中的复杂、高维临床特征之间的交互作用。同时，不同模型依赖的最佳特征子集各不相同。例如，NN和SVM都赋予中性粒细胞百分比（NEU.pct）很高的重要性，而KNN模型则更依赖于体温和炎症标志物。这表明不同的算法可能采用不同的“认知”路径来捕捉疾病信号。尽管存在这些差异，SHAP分析发现了一种跨模型的共识：如SAA、CRP和NEU.pct等炎症相关指标是预测肺不张的基石。这一发现显著增强了这些生物标志物在临床决策中的可信度。值得注意的是，尽管SVM模型的整体AUC略低，但它实现了最高的特异性。这意味着SVM在“排除”无肺不张患者方面更为可靠，在需要最小化假阳性的临床场景中具有独特价值——从而避免对低风险患者进行过度干预。本研究的主要局限是其单中心、回顾性设计。未来的工作应在更大的多中心、前瞻性队列中验证这些发现，并探索结合不同模型类型的集成策略。总之，我们的研究表明，可以根据具体临床需求优化机器学习模型的选择：神经网络适用于最高的整体预测准确性，而SVM模型在需要高特异性时具有明显优势。这种多样化的基于模型的选择策略，结合SHAP提供的透明解释，极大地促进了机器学习模型在儿科呼吸系统疾病临床实践中的应用。

热点排行