PRESCO：基于机器学习的癌症术后严重肺部并发症及生存预测在线工具

《Frontiers in Oncology》：PRESCO: an online tool for predicting severe pulmonary complications and survival after cancer surgery

【字体：大中小】 时间：2026年01月07日 来源：Frontiers in Oncology 3.3

编辑推荐：

　　本综述重点介绍了PRESCO（癌症术后呼吸衰竭、肺栓塞及生存预测）在线工具的开发和验证。该研究利用机器学习算法，通过12个易获取的临床变量，精准预测癌症患者术后严重肺部并发症（SPCs）的发生风险以及SPCs患者的28天和90天死亡率（AUC分别达0.813、0.921和0.899）。研究强调了术前高血压、ECOG评分、术中失血量以及术后SOFA评分、APACHE II评分、血尿素氮（BUN）等关键预测因子，并通过部署用户友好的网络应用程序，为临床医生进行个性化风险分层和围术期决策提供了重要支持。

背景

术后并发症是癌症患者手术治疗后发病和死亡的主要原因。其中，术后呼吸衰竭（PRF）和肺栓塞（PE）是最严重的肺部并发症（SPCs）。PRF定义为术后无法维持足够的气体交换，患者常需机械通气。PE定义为肺循环的血栓栓塞性梗阻。这两种并发症都会延长住院时间、增加医疗成本并损害短期生存。例如，PRF的院内死亡率据报道在25%至40%之间。因此，早期识别SPCs高风险患者并准确预测SPCs患者的结局对于围术期管理和个体化护理至关重要。

当前的预测方法分为两类：传统评分系统和基于机器学习的模型。评分系统和列线图提供了极好的便利性，但准确性往往有限。相比之下，机器学习方法已显示出优越的性能。然而，尽管准确性高，机器学习工具在实际临床实践中往往难以实施。因此，迫切需要将机器学习的准确性与常规临床应用所需的可用性相结合的预测工具。

方法

数据来源与研究设计

这项回顾性队列研究使用了2023年6月1日至2025年6月1日期间在湖南省肿瘤医院接受手术的癌症患者的电子健康记录（EHR）数据。主要结局是严重术后肺部并发症（SPCs）的发生，定义为术后呼吸衰竭（PRF）或肺栓塞（PE）。PRF的诊断标准为PaO₂< 60 mmHg（伴或不伴PaCO₂> 50 mmHg），或当FiO₂≠ 21%时PaO₂/FiO₂≤ 300 mmHg。PE通过典型的临床表现（如急性呼吸困难、胸痛或无法解释的低氧血症）结合计算机断层扫描肺血管造影的影像学确认来诊断。所有疑似PRF和PE病例均由两名资深重症监护主治医师独立审查，任何分歧通过共识讨论解决。最终诊断随后由多学科团队（MDT）确认，以确保诊断的准确性和一致性。术后事件观察窗口限制在术后7天内，以确保与围术期因素的时间相关性。

建立了两个数据集用于模型开发：一个用于预测癌症患者术后SPC的发生，另一个用于预测诊断为SPC患者的生存结局。对于第一个数据集，患者纳入标准包括：组织学确诊的癌症；接受手术治疗；有足够的围术期数据可用。排除标准为：年龄<18岁；术前需要机械通气的严重肺功能障碍。最终确定了227名发生SPC的患者，并随机选择了207名无SPC的患者作为对照，得到一个包含434名患者的数据集。对于第二个数据集，仅纳入发生SPC的患者，并要求有术后28天和90天的生存随访数据，最终227名SPC患者被纳入生存分析。

在模型开发前处理缺失值。连续变量使用训练集计算的中位数进行填补，分类变量使用训练集中最频繁的类别进行填补。从训练数据得出的填补参数随后应用于测试数据，以避免信息泄露。

SPC发生预测的特征

预测任务是确定癌症患者术后是否会发生SPCs。共纳入19个术前预测因子，涵盖多个领域：人口统计学特征（年龄、性别、身高、体重）；肿瘤相关特征（肿瘤类型、T分期、N分期、M分期）；合并症（高血压、糖尿病、冠状动脉疾病、卒中）；术前评估和营养状态（美国麻醉医师协会（ASA）评分、东部肿瘤协作组（ECOG）体能状态、老年营养风险指数（GNRI）、术前血清白蛋白、术前FEV1/FVC比值）；围术期因素（手术持续时间、术中失血量）。

28天和90天死亡率预测的特征

对于诊断为SPC的患者，预后模型共纳入56个预测因子，用于预测28天和90天死亡率。这些预测因子包括：疾病类型（PRF或PE）；人口统计学特征；肿瘤特征；合并症；术前评估和营养/功能状态；围术期因素；术后呼吸支持和气体交换参数（机械通气时间、术后PaO₂、术后PaCO₂、术后pH、吸入氧浓度（FiO₂）、PaO₂/FiO₂比值、通气模式、呼气末正压（PEEP）水平）；术后48小时内临床状态（SOFA评分、APACHE II评分、平均动脉压、收缩压和舒张压、心率、血乳酸水平）；术后48小时内实验室检查结果（白细胞计数（WBC）、降钙素原（PCT）、C反应蛋白（CRP）、血红蛋白、血小板计数、肌酐、血尿素氮（BUN）、术后血清白蛋白、凝血酶原时间（PT）、国际标准化比值（INR）、活化部分凝血活酶时间（APTT）、血糖、碳酸氢根、钠、钾）；以及术后并发症和事件（感染、谵妄、急性肾损伤、心律失常、深静脉血栓、镇静药物使用）。

特征选择、超参数优化与模型评估

从临床角度出发，将模型限制在数量有限、常规可用且具有生理意义的变量内，可以提高可解释性并促进在真实环境中的实施。使用随机森林算法在训练集中评估变量重要性，并保留前12个有影响力的预测因子用于模型开发。这一特征选择策略有效降低了模型复杂性，同时与创建临床可及、用户友好的预测工具的目标保持一致。

随后，使用scikit-learn实现了六种监督机器学习算法，包括线性判别分析（LDA）、支持向量机（SVM）、随机森林（RDF）、决策树（DST）、自适应提升（ADA）和极度随机树（EXT），以开发预测模型。

采用分层随机抽样将队列分为训练集（70%）和测试集（30%），保持结局变量的原始分布。主要优化标准是F1分数。保留表现最佳的超参数用于最终模型评估。最终模型在具有优化超参数的整个训练数据集上重新训练，并在测试队列中进行评估。为了量化模型性能估计的稳健性和不确定性，进行了100次测试集重采样的非参数bootstrap程序。使用Wilcoxon秩和检验进行模型间的两两比较。使用bootstrap分布得出的平均值和相应的95%置信区间来评估模型性能的稳定性。

为了比较不同特征配置的预测能力，使用平均AUC值对比全特征模型和简化特征模型。对于性能最佳的模型，计算了多个概率阈值下的敏感性、特异性、阳性预测值（PPV）和阴性预测值（NPV）。使用校准图进一步评估模型校准，并通过决策曲线分析（DCA）评估临床效用。最后，对肺癌患者与非肺癌患者，以及ASA II级与III级患者进行了亚组分析，以评估这些临床相关 strata 内的AUC值。

使用SHAP进行模型解释

使用SHapley Additive exPlanations（SHAP）来补充基于不纯度的特征重要性，以检查模型的可解释性。SHAP是一种博弈论方法，将机器学习模型的预测分解为每个特征的加性贡献。对于独立测试集中的每个观察值，使用专门为基于树的集成优化的TreeSHAP算法计算SHAP值。这些值量化了每个特征相对于基线预期对模型预测的边际贡献。生成摘要图以可视化所有特征的SHAP值的全局分布及其对预测结果影响的方向。

预测工具的网页部署

使用Streamlit开发了一个基于浏览器的应用程序PRESCO，用于实时预测癌症术后严重肺部并发症和短期死亡率。该平台包含三个模块：SPC发生预测、28天死亡率预测和90天死亡率预测。每个界面接受12个选定的预测变量，并执行具有优化超参数的最终机器学习模型。结果以预测概率和相应的分类决策显示。

PRESCO旨在供参与围术期护理的医疗保健专业人员使用，仅用于研究和教育目的。它不应取代专业医疗判断或用作诊断设备。为保护用户隐私，不收集、存储或传输任何可识别的患者数据；所有计算都在用户浏览器本地通过HTTPS加密进行。与麻醉医生和重症医生的初步可用性测试表明，该界面直观，完成时间少于一分钟，并且结果呈现清晰、可解释。

结果

患者特征

发生队列由434名患者组成，包括227名术后发生SPCs的患者和207名无并发症的对照者。该队列被随机分为训练集（70%）和测试集（30%）。基线人口统计学和临床特征在训练集和测试集之间无显著差异（除血红蛋白外，所有p值 > 0.05）。在训练集中，平均年龄为60.4岁。肺癌是最常见的癌症类型。主要合并症为高血压（18.1%）、糖尿病（6.91%）和冠状动脉疾病（3.62%）。

对于28天死亡率生存分析，纳入了227名具有完整随访数据的SPC患者。队列被随机分为训练集（70%）和测试集（30%）。在训练集中，平均年龄为61.6岁。44.7%的患者患有PRF，55.3%患有PE。28天时，56.6%的患者存活，43.4%死亡。

对于90天死亡率生存分析，纳入了227名具有完整随访数据的SPC患者。队列被随机分为训练集（70%）和测试集（30%）。在训练集中，平均年龄为61.9岁。46.5%的患者患有PRF，53.5%患有PE。90天时，47.2%的患者存活，52.8%死亡。

SPC发生预测的模型性能

在训练数据集中使用随机森林算法评估特征重要性，并选择前12个预测因子进行模型开发。使用所有19个可用变量（全模型）或前12个选定变量（简化模型）训练和评估了六种机器学习分类器。在测试集上，全模型通常表现出比简化版本略高的预测性能。例如，EXT模型在全模型中的AUC为0.866，而在简化模型中为0.813。然而，将模型限制在12个常规可用且具有生理意义的预测因子内，增强了可解释性并促进了临床实施。在所有算法中，基于树的方法（包括EXT和RDF）在整体区分度和校准方面优于其他分类器。具体而言，EXT产生最高的平均AUC为0.813（95% CI: 0.807–0.819）；RDF实现了最佳召回率（0.681, 95% CI: 0.669–0.694）；DST具有最高精确度（0.873, 95% CI: 0.863–0.884）；RDF显示出最佳F1分数（0.717, 95% CI: 0.707–0.727）；EXT获得了最低的Brier分数（0.176, 95% CI: 0.174–0.179）。随着概率阈值的增加，模型从高度敏感但特异性较低的模式转变为更保守和精确的预测模式。在中等阈值（0.40–0.60）下，模型实现了平衡的诊断性能，保持了合理的敏感性（0.52–0.85）和特异性（0.61–0.87）。

使用校准和决策曲线分析评估模型校准和临床有用性。校准曲线显示SPC发生的预测概率和观察概率之间具有良好的一致性。决策曲线分析表明，与“全治疗”或“全不治疗”策略相比，EXT模型在广泛的阈值概率范围内提供了更高的净临床收益。基于SHAP分析，特征重要性确定高血压、术前ECOG评分、术中失血量和年龄是SPC的最强预测因子。SHAP分析显示，高血压、术前ECOG评分、术中失血量、年龄和术前ASA评分是模型预测术后SPC的最主要贡献者。这些变量的较高值与SPC风险增加相关。相比之下，结肠癌诊断、较长的手术持续时间和较好的术前肺功能（FEV1/FVC%）与负的SHAP值相关，表明对SPC发生具有保护作用。亚组分析显示在临床亚群中具有稳定的判别性能。模型在肺癌组和非肺癌组的AUC分别为0.767和0.821，在ASA II级和III级患者中的AUC分别为0.772和0.890。

28天死亡率预测的模型性能

使用所有56个可用变量（全模型）或随机森林识别的前12个最重要预测因子（简化模型）训练和评估了六种机器学习分类器，以预测28天死亡率。RDF模型在全特征模型中获得了最高的AUC（0.927），而EXT模型在简化模型中获得了最高的AUC（0.921）。值得注意的是，EXT的AUC从全模型的0.914略微提高到简化模型的0.921。这一结果表明，减少到12个关键预测因子集保留甚至提高了其判别能力。EXT表现出最高的平均AUC为0.921（95% CI: 0.914–0.928）；SVM实现了最高召回率（0.970, 95% CI: 0.963–0.976）；DST表现出最佳精确度（0.860, 95% CI: 0.848–0.872）；SVM产生了最高F1分数（0.874, 95% CI: 0.866–0.883）；EXT产生了最低的Brier分数（0.112, 95% CI: 0.107–0.116）。在不同的概率阈值下，EXT模型在较低截断值时保持高敏感性，在较高截断值时实现逐渐提高的特异性。模型在阈值0.5–0.6左右达到最佳平衡，此时预测SPC后28天死亡率的敏感性范围为0.83至0.93，特异性范围为0.77至0.87。

校准曲线显示28天死亡率的预测概率和观察概率之间具有极好的一致性。决策曲线分析表明，与“全治疗”和“全不治疗”策略相比，EXT模型在广泛的阈值概率范围内提供了更大的净临床收益。根据SHAP分析，术后SOFA评分、术后APACHE II评分、术后呼气末正压（PEEP）、术后血尿素氮（BUN）和术后通气被确定为28天死亡率的最强预测因子。SHAP摘要图说明，较高的术后SOFA和APACHE II评分、升高的PEEP和BUN水平以及机械通气与死亡风险增加呈正相关。亚组分析显示在临床亚群中具有稳健的判别性能。模型在肺癌组和非肺癌组的AUC分别为0.872和0.939，在ASA II级和III级患者中的AUC分别为0.931和0.898。

90天死亡率预测的模型性能

开发了六种机器学习分类器，使用所有56个可用变量（全模型）或根据特征重要性得分选择的前12个预测因子（简化模型）来预测90天死亡率。RDF模型在全特征模型中获得了最高的AUC（0.906），在简化模型中也获得了最高的AUC（0.899）。全模型和简化模型之间的微小性能差距表明，尽管输入变量减少，简化模型仍保持了强大的预测能力。在简化模型中，RDF consistently表现出优越的性能。RDF实现了最高的平均AUC为0.899（95% CI: 0.891–0.907）；最大的召回率（0.840, 95% CI: 0.828–0.852）；最高的精确度（0.912, 95% CI: 0.903–0.922）；最佳的F1分数（0.873, 95% CI: 0.865–0.881）；以及最低的Brier分数（0.121, 95% CI: 0.116–0.126）。在不同的概率阈值下，RDF模型在较低截断值时显示出高敏感性，在较高截断值时逐步提高特异性。在阈值0.45–0.60左右观察到敏感性和特异性之间的最佳平衡，此时预测SPC后90天死亡率的敏感性范围为0.73至0.84，特异性范围为0.87至0.94。

校准图揭示了90天死亡率的预测概率和观察概率之间密切一致。决策曲线分析表明，与“全治疗”和“全不治疗”策略相比，RDF模型在广泛的阈值概率范围内实现了更高的净临床收益。基于SHAP的可解释性分析确定术后SOFA评分、术后BUN、术后APACHE II评分、术后通气和术后肌酐是90天死亡率的前几位预测因子。如SHAP摘要图所示，升高的术后SOFA、APACHE II、BUN和肌酐水平，以及需要机械通气，与死亡风险增加密切相关。亚组分析显示在临床类别中具有稳健的模型性能。模型在肺癌组和非肺癌组的AUC分别为0.947和0.879，在ASA II级和III级患者中的AUC分别为0.952和0.762。这些发现表明，模型在亚群中保留了优异的判别能力和临床泛化能力。

基于网页的部署

具有最高AUC值的模型被集成到一个名为PRESCO的在线工具中。该工具包含三个应用程序，分别用于预测SPC的发生、SPC的28天死亡率和SPC的90天死亡率。每个应用程序允许临床医生输入12个选定的特征，并即时生成发生风险或生存概率的预测。输出包括分类结果和预测概率。

讨论

该研究开发并验证了用于预测癌症患者SPCs发生及其生存结局的机器学习模型。这些模型仅依赖12个易于提取的变量。它在预测术后SPC方面表现出优异的判别性能（AUC为0.813）。它还可用于SPCs患者的28天和90天生存预测，AUC分别达到0.921和0.899。研究开发了一个在线网络服务器以促进实施并生成预测结果。

本研究的关键优势之一是其通过易于访问的在线平台，平衡了高预测准确性（AUC > 0.80–0.90）与实用的临床可用性。经过训练的机器学习模型被转化为直观的基于网络的应用程序，使临床医生能够实时获取患者特定的风险预测和模型解释。这种用户友好的界面支持快速的床旁评估，并支持早期、个体化的干预，如加强监测、预防性抗凝和及时升级呼吸支持。本研究的另一个重要优势是它提供了一个全面的决策支持工具包，而不是只关注单一结局。除了预测SPCs的发生，框架还纳入了生存预测模型。先前的研究通常只针对单一终点。相比之下，集成平台允许临床医生在一个系统内评估SPC发生以及短期和长期预后，从而更全面地理解围术期风险。通过整合多个结局，工具有潜力更好地支持个体化治疗计划并优化围术期资源分配。

先前的研究表明，术后SPC源于患者相关因素、手术因素和麻醉相关因素的多因素相互作用。与这些发现一致，分析确定高血压、术前ECOG评分、术中失血量、年龄和术前ASA评分是SPC的显著正向预测因子。值得注意的是，据报道，术中失血量高的患者SPC发生率显著高于失血量低的患者，这支持了术前合并症和术中事件都对SPC发生有重要贡献的观察。

在发生SPC的患者中，较高的术后SOFA和APACHE II评分、升高的PEEP和BUN水平以及需要机械通气与死亡风险增加密切相关。这些发现与先前的研究一致，表明升高的SOFA评分与静脉血栓栓塞和死亡风险较高相关，并且SOFA、APACHE II和BUN是死亡率的独立预测因子。总的来说，结果表明，将术前、术中和术后阶段常规可用的临床参数整合到预测模型中，可能有助于早期风险分层、及时干预，并最终改善患者结局。

然而，必须承认几个局限性。首先，这项研究是在单一癌症中心回顾性进行的，这可能引入机构和地区偏倚，并限制研究结果的普适性。因此，使用多中心队列进行外部验证和前瞻性研究对于确认PRESCO模型在不同医疗环境中的稳健性、可重复性和临床适用性至关重要。其次，虽然特征集是全面的，但一些潜在的重要变量，如详细的术中通气参数或术后康复措施，无法获得。最后，尽管在线部署了模型，但仍需要在前瞻性研究中评估其在常规护理中的临床效用和成本效益。

结论

总而言之，研究开发并验证了用于预测手术癌症患者术后肺部并发症发生以及受影响患者28天和90天死亡率的机器学习模型。作为基于浏览器的应用程序部署确保了用户的可访问性和实用性。这些模型有潜力支持早期识别高风险患者、指导围术期管理策略，并最终改善外科肿瘤学的结局。

热点排行

新闻专题