《BJUI Compass》:Development and validation of a machine learning model for predicting 30-day major morbidity and mortality following radical cystectomy: An American College of Surgeons National Surgical Quality Improvement Program study
编辑推荐:
【摘要翻译】
**目的**:利用美国外科医师学会国家外科手术质量改进计划(ACS-NSQIP)开发并验证用于预测根治性膀胱切除术(RC)患者30天重大并发症及死亡率的机器学习(ML)模型,并将其性能与逻辑回归模型进行比较。
**材料与方法**:研究人员从A
【摘要翻译】
**目的**:利用美国外科医师学会国家外科手术质量改进计划(ACS-NSQIP)开发并验证用于预测根治性膀胱切除术(RC)患者30天重大并发症及死亡率的机器学习(ML)模型,并将其性能与逻辑回归模型进行比较。
**材料与方法**:研究人员从ACS-NSQIP数据库2020—2024年间筛选出11,241例接受根治性膀胱切除术的患者。提取人口统计学特征、合并症信息以及NSQIP膀胱切除术靶向数据库中的特定变量。将队列分为训练集和独立验证集。分别针对逻辑回归、随机森林(RF)和XGBoost构建预测模型。采用受试者工作特征(ROC)曲线下面积、SHapley可加性解释(SHAP)分析、灵敏度、特异度及Brier评分评估模型性能。
**结果**:在11,241例患者中,2,691例(23.9%)发生至少一种重大并发症,185例(1.6%)于30天内死亡;总体并发症发生率为6,365例(56.62%)。非存活者年龄显著更高(72.65±10.14 vs. 68.50±10.32岁,p<0.001)。重大并发症患者的平均白蛋白水平更低(3.92±0.56 vs. 4.01±0.48 g/dL,p<0.001)。逻辑回归分析确定高体重指数(BMI)(OR 1.15,p<0.001)、黑人种族(OR 1.34,p=0.003)、西班牙裔 ethnicity(OR 1.37,p=0.009)、既往盆腔手术史(OR 1.15,p=0.002)及可控性尿流改道(OR 1.46,p=0.001)为30天重大并发症的预测因素;而低衰弱指数(mFI-5≤1;OR 0.72,p=0.001)和较高术前白蛋白(OR 0.88,p<0.001)则具有保护作用。对于30天死亡率,年龄增长(OR 1.42,p<0.001)是最强的危险因素。在30天发病率预测中,XGBoost模型获得了最高的AUC 0.796(95% CI:0.783–0.814);在30天死亡率预测中,随机森林模型展现出最优的区分能力,AUC为0.921(95% CI:0.908–0.934)。SHAP分析显示,重大并发症的预测因素为衰弱程度、BMI和高龄;死亡率的预测因素为年龄、ASA分级和术前肌酐水平。决策曲线分析显示三种模型均具有净临床获益。该网页版预测工具可通过以下链接访问和使用:https://cystectomyai.streamlit.app/。
**结论**:研究人员开发并验证了用于预测根治性膀胱切除术后30天重大并发症和30天死亡率的机器学习模型。这些发现支持将机器学习整合到临床工作流程中,以增强术前咨询和个性化风险降低策略。
**研究背景与问题**
根治性膀胱切除术(RC)是非转移性肌层浸润性膀胱癌(MIBC)及部分高危非肌层浸润性膀胱癌的标准治疗方案。然而,该手术在泌尿外科肿瘤学中属于高并发症风险操作,早期NSQIP分析显示2006至2011年间术后30天总体并发症发生率约56%,死亡率约3.2%;即便在近期研究中,30天并发症仍为30%–50%,围手术期死亡率为2%–3%。术后胃肠道、感染性和心肺事件发生率持续偏高,凸显了精确围手术期风险分层的必要性。
现有基于ACS-NSQIP的术后并发症和死亡率预测模型存在明显局限:其开发基于异质性研究人群,未能充分考虑根治性膀胱切除术特异性的并发症和死亡模式。多项外部验证研究表明,ACS-NSQIP通用风险计算器在膀胱切除术患者中的表现不佳。Golan等在对945例患者的研究中发现该计算器AUC仅为0.69;Lone等在462例患者中的研究也显示其AUC值为0.50–0.64,均判定为表现差,凸显了开发手术特异性风险计算工具的迫切需求。
根治性膀胱切除术的并发症和死亡率受基线疾病负担、营养状态和围手术期因素复杂交互作用的影响。高龄、高ASA分级、功能状态差和低白蛋白血症等因素与术后重大并发症和早期死亡风险持续相关。尽管加速康复外科(ERAS)理念的组件被证明有助于改善短期结局,但这些要素尚未被充分整合进现有预测工具中。
机器学习(ML)模型通过利用变量间复杂的非线性交互作用为改善预测结局提供了解决方案。本研究利用2020–2024年膀胱切除术特异性NSQIP数据库,开发了用于预测30天并发症和死亡率的机器学习预测模型,并将传统逻辑回归(用于构建ACS-NSQIP外科风险计算器)与随机森林机器学习模型和XGBoost机器学习模型的性能进行了对比,旨在创建一种能提供围手术期风险驱动因素临床洞察的根治性膀胱切除术特异性决策支持工具。该研究发表于《BJUI Compass》。
**主要技术方法**
本研究的技术路线基于ACS-NSQIP膀胱切除术靶向数据库2020–2024年数据,该数据库包含比一般NSQIP更精细的变量和结局信息。研究队列经纳入排除标准筛选后共11,241例患者,采用分层80:20比例分割为训练集和独立验证集。在模型构建方面,采用了三种方法:多变量逻辑回归作为NSQIP式基准模型;随机森林(RF)分类器和极端梯度提升(XGBoost)分类器两种集成机器学习模型。针对数据层面的类别不平衡问题,训练集应用了合成少数类过采样技术(SMOTE)处理;缺失数据采用k近邻插补法。模型优化方面进行了超参数调优,并通过五折交叉验证评估训练集性能。模型评估采用受试者工作特征曲线下面积(AUC)评估区分度,同时报告灵敏度、特异度、Brier评分、校准曲线和决策曲线分析(DCA);特征重要性解释采用SHapley可加性解释(SHAP)分析。研究遵循TRIPOD-AI(透明报告多变量预测模型用于个体预后或诊断—人工智能扩展版)指南进行模型开发和报告,最终通过GitHub和Streamlit实现最佳模型的网络化部署。
**研究结果**
**患者特征与围手术期结局**
在全队列11,241例患者中,2,691例(23.9%)发生至少一种30天重大并发症,185例(1.6%)于30天内死亡;总体并发症发生率为6,365例(56.62%)。重大并发症患者与无重大并发症患者的平均年龄相似(68.47±10.84 vs. 68.60±10.16岁,p=0.563),但合并症更多。非存活者年龄显著更高(72.65±10.14 vs. 68.50±10.32岁,p<0.001),ASA 4级占比更高(17.3% vs. 6.9%,p<0.001)。术前实验室检查显示,重大并发症患者的白蛋白更低(3.92±0.56 vs. 4.01±0.48 g/dL,p<0.001)和红细胞压积更低(36.67±5.97% vs. 37.01±5.91%,p=0.010)。全队列平均手术时间为340.25±118.48分钟,重大并发症患者手术时间更长(361.88±130.57 vs. 333.44±113.57分钟,p<0.001)。开放手术占65.7%,机器人辅助手术占34.3%。重大并发症患者和死亡患者的总住院时间均显著延长。术后并发症方面,器官/腔隙手术部位感染占8.6%,脓毒症占6.5%,淋巴囊肿等膀胱切除术特异性事件占5.7%,吻合口肠漏占2.8%。
**多变量逻辑回归分析**
多变量逻辑回归分析确定了30天结局的独立预测因素。对于重大并发症,高BMI(OR 1.15,p<0.001)、黑人种族(OR 1.34,p=0.003)、西班牙裔 ethnicity(OR 1.37,p=0.009)、既往盆腔手术史(OR 1.15,p=0.002)和可控性尿流改道(OR 1.46,p=0.001)为危险因素;低衰弱指数(mFI-5≤1;OR 0.72,p=0.001)和较高术前白蛋白(OR 0.88,p<0.001)为保护因素。对于30天死亡率,年龄增长(OR 1.42,p<0.001)是最强危险因素;低衰弱指数(OR 0.30,p<0.001)、机器人辅助手术(OR 0.616,p=0.007)和较高术前白蛋白(OR 0.79,p=0.007)为保护因素。
**机器学习模型性能**
在独立验证集上,机器学习模型展现出优于逻辑回归的区分能力。对于30天死亡率,随机森林算法获得最高性能,验证集AUC达0.921(95% CI:0.908–0.934),灵敏度90.1%,特异度89.8%,Brier评分0.145。对于30天发病率,XGBoost算法准确性最高,验证集AUC为0.796(95% CI:0.783–0.814),灵敏度55.1%,特异度90.8%,Brier评分0.177。
**临床可解释性与网络化计算器**
SHAP分析明确了30天重大并发症和30天死亡率的主要驱动因素。对于30天重大并发症,主要驱动因素为衰弱指数、BMI和年龄;高BMI和可控性尿流改道的复杂性增加SHAP评分的预测价值。对于30天死亡率,随机森林显示主要驱动因素为年龄、术前肌酐水平、ASA分级和BMI。机器人辅助手术和低衰弱程度与负SHAP评分相关,显示保护作用。
**校准与决策曲线分析**
对于30天发病率,机器学习模型较逻辑回归模型显示出更好的校准度。对于30天死亡率,XGBoost较其他模型校准度更优。三种模型在决策曲线分析中均显示净临床获益:死亡率预测在1%–6%阈值范围内,重大并发症预测在15%–30%阈值范围内。
**讨论总结**
本研究开发的机器学习模型在预测根治性膀胱切除术后30天并发症和死亡率方面优于传统逻辑回归模型。随机森林模型对30天死亡率的预测达到极佳的区分度(AUC:0.93),配合良好的整体性能(Brier评分:0.15);XGBoost模型对30天发病率预测展现出强大的区分能力(AUC:0.80)和良好性能(Brier评分:0.18)。所有模型均显示净临床获益。
尽管根治性膀胱切除术属于高合并症负担手术,文献中尚未见稳健的预测模型报道。既往Taylor等利用2005–2016年NSQIP数据库开发的机器学习模型表现不佳(AUC 0.63),且缺乏膀胱切除术特异性变量。本研究采用膀胱切除术特异性数据库并整合至公共网络计算器,弥补了上述不足。
结合逻辑回归和机器学习分析,发病率的三大预测因素为衰弱指数(mFI-5)、BMI、年龄,可控性尿流改道和术前白蛋白为重要预测因素,黑人种族、西班牙裔 ethnicity和既往盆腔手术史为次要预测因素。30天死亡率的三大预测因素为年龄、BMI、ASA分级,基线衰弱程度和术前肌酐为主要预测因素。两种方法均显示机器人辅助手术和较高术前白蛋白具有保护作用。这些发现凸显了术前优化和综合老年评估的重要性。
关于可控性尿流改道,XGBoost和逻辑回归均显示其较回肠通道术携带显著更高的并发症风险,这与Joice等发现可控性改道与更多再入院和更高住院成本相关的研究一致,因其需要更长手术时间、更广泛肠道操作和复杂吻合。
机器人辅助手术作为30天死亡率的独立保护因素,与RAZOR试验显示的开放与机器人辅助途径非劣效性(不良事件:机器人67% vs. 开放69%)以及iROC试验显示的机器人组90天死亡率更低(1.2% vs. 2.6%)的结果相互印证。
本队列总体30天并发症率56.6%与2006–2011年NSQIP队列的56%相似,表明即便经过二十年,该手术的整体并发症负担仍几乎未变,可能归因于ERAS方案应用的不统一。
传统回归分析作为医学研究基础,假设变量间线性关系而无法捕获非线性交互;机器学习算法在捕获此类交互方面具有独特优势,尤其在表格数据集上表现更优,可改善术前风险评估、揭示特征并支持个性化风险评估和共同决策。
本研究局限性包括:NSQIP为观察性注册数据库,随访限于30天;存在包括ERAS依从性在内的残余混杂;虽经交叉验证和独立验证集验证,仍需非NSQIP队列的外部验证;缺乏社会经济状态等变量;数据库来源于学术医疗中心,需非学术中心验证。
**研究结论**
研究人员开发并验证了两个用于预测根治性膀胱切除术后30天重大并发症和死亡率的机器学习模型,发病率及死亡率预测的AUC分别为0.80和0.92。此外,结合回归分析和SHAP分析显示,衰弱程度、年龄、BMI、可控性尿流改道和术前营养缺陷是发病率的重大预测因素,年龄、BMI、ASA分级和衰弱程度是死亡率的重大预测因素。