《Frontiers in Endocrinology》:Development and external validation of a machine learning model for predicting in-hospital mortality in ICU patients with diabetic kidney disease: a study utilizing the MIMIC database and a Chinese cohort
1 引言
糖尿病(DM)是本世纪主要的医疗问题之一,持续对人类健康构成重大威胁。2019年全球疾病负担研究估计,糖尿病是导致死亡和残疾的第八大最重要因素,当年影响了全球近4.6亿各年龄段人群。糖尿病肾病(DKD)作为糖尿病的常见并发症,其特点是既往有糖尿病诊断、有肾脏损害指标(如肾小球滤过率(GFR)降低)和持续性蛋白尿。随着糖尿病患病率的上升,DKD的发病率也在增加。DKD现已成为终末期肾病(ESRD)的主要病因,导致生活质量下降、生存率降低并带来沉重的社会经济负担。研究表明,DKD患者因任何原因导致的院内死亡风险显著增加。此外,包括DKD继发的ESRD患者在内的ESRD患者,入住重症监护病房(ICU)的比率在1%至9%之间,远高于普通人群。鉴于DKD进展加速和明显的临床异质性特点,开发可靠有效的预后模型至关重要。
DKD本质上是一个涉及多系统的复杂病理过程。患者常伴有心血管功能障碍、电解质紊乱和多种代谢异常。这些动态生理参数通常表现出复杂的非线性相互作用。传统预测方法,如逻辑回归(LR)模型,已广泛用于临床风险预测。然而,这些模型潜在的线性假设往往无法充分捕捉多维生物标志物之间的协同或拮抗效应。相比之下,机器学习(ML)技术为预测复杂的临床结果提供了新方法。ML算法的一个关键优势在于其能够通过自适应学习,在不依赖预设假设的情况下阐明高维变量之间的非线性关系和交互效应。近年来,ML在预测危重患者结局方面显示出广阔的应用前景。
然而,现有文献主要关注特定疾病或治疗方式,尚未探索其在危重DKD特定人群中的应用。此外,大多数研究的预测时间点不同,且部分模型缺乏充分的外部验证,限制了其在不同患者群体中的普适性和适用性。本研究的主要目标是利用MIMIC-IV数据库构建并测试一个全面的ML模型,以评估DKD患者的院内全因死亡风险。为确保模型在不同医疗环境中的广泛适用性,将进行外部验证以评估其泛化能力。
2 方法
2.1 伦理与知情同意声明
MIMIC-IV数据库经过去标识化处理以保护患者隐私,因此贝斯以色列女执事医疗中心的机构审查委员会(IRB)豁免了患者知情同意的要求。本研究根据观察性常规收集健康数据报告指南、《赫尔辛基宣言》和美国国立卫生研究院“保护人类研究参与者”在线课程进行报告。长江大学伦理委员会审查并批准了本研究。由于我们采用的是无法识别个体患者的匿名数据进行回顾性研究,因此不需要知情同意。
2.2 数据来源描述
这项回顾性研究采用了来自MIMIC-IV(V3.1)的健康相关数据,这是一个由麻省理工学院计算生理学实验室创建和维护的大规模、可公开访问的资源。该数据库包含贝斯以色列女执事医疗中心ICU住院患者的详细健康记录集合。为满足数据库访问要求,一位作者完成了美国国立卫生研究院的在线课程“保护人类研究参与者”,并负责数据提取。此外,还收集了长江大学第一附属医院ICU-DKD患者的数据用于外部验证,形成了YTU-ICU数据库。
2.3 研究人群
根据国际疾病分类第九版(ICD-9)和第十版(ICD-10)确诊为DKD的患者被纳入研究。患者需满足以下标准:(1)在ICU停留至少24小时;(2)分类变量(如性别、婚姻状况、合并症、用药史和医疗操作)数据完整。如果患者有多次住院记录,则仅收集首次住院的数据。临床变量的数据收集于入住ICU后的最初24小时内。主要结局是院内死亡率,定义为住院期间任何时间点发生的任何原因的死亡。预测因子仅限于ICU入院后最初24小时的数据,以便于早期风险分层,而结局记录则覆盖整个住院期间。
2.4 数据收集
数据使用Navicate Premium通过执行结构化查询语言(SQL)查询进行提取。潜在变量的提取分为五大类:(1)人口统计学信息,包括年龄、性别、婚姻状况、体重、身高和体重指数(BMI)。(2)合并症,如酸中毒、心律失常、电解质紊乱、心血管疾病、肺炎、呼吸衰竭和脓毒症。(3)实验室标志物,包括白蛋白(ALB)、丙氨酸氨基转移酶(ALT)、天冬氨酸氨基转移酶(AST)、活化部分凝血活酶时间(APTT)、碳酸氢盐(BIC)、血尿素氮(BUN)、氯(CL)、肌酐(CR)、葡萄糖(GLU)、血红蛋白(HB)、淋巴细胞(LYM)、中性粒细胞(NEU)、血小板(PLT)、钾(K)、红细胞分布宽度(RDW)、凝血酶原时间(PT)、钠(NA)、总胆红素(TB)、白细胞(LEU)。(4)入院时疾病严重程度评分,包括简化急性生理学评分II(SAPS II)、脓毒症相关器官衰竭评估评分(SOFA)和格拉斯哥昏迷评分(GCS)。(5)ICU常用药物,包括胰岛素、头孢菌素、奥美拉唑、地塞米松、美罗培南和万古霉素。
2.5 数据预处理与特征选择
为减少潜在偏倚,任何缺失值超过20%的变量均被排除在本研究之外。对于缺失数据少于20%的变量,使用R软件中的“mice”包进行多重插补。数据中的异常值采用Winsorization方法处理,以减小极端值对分析结果的影响。MIMIC-IV数据库被随机划分为训练集(70%)和内部验证集(30%)。仅对训练集应用LASSO逻辑回归模型来选择最相关的预测因子,然后将选定的特征应用于内部验证集和外部验证集。这种方法旨在排除数据泄露并确保内部验证的完整性。lambda参数通过训练集内的十倍交叉验证确定。对于外部验证队列(YTU-ICU),由于所选预测因子中缺失数据的比例可忽略不计(小于1%),因此采用完整案例分析,未对外部集应用插补模型。
2.6 模型开发与解释
采用八种ML算法来预测DKD患者的院内全因死亡风险。这些算法包括极限梯度提升(XGBoost)、梯度提升决策树(GBDT)、轻量级梯度提升机(LightGBM)、神经网络(NN)、逻辑回归(LR)、朴素贝叶斯(NB)、随机森林(RF)和支持向量机(SVM)。为获得最佳预测性能,对复杂的非线性算法(包括XGBoost、GBDT、LightGBM、RF、SVM和NN)采用网格搜索策略进行超参数调优。在此过程中,基于训练集训练模型,并根据内部验证集评估模型性能,以确定最佳超参数组合。逻辑回归和NB使用默认参数。评估指标包括受试者工作特征曲线下面积(AUROC)、准确率、约登指数、敏感性、特异性、F1分数、阳性预测值(PPV)和阴性预测值(NPV)。通过决策曲线分析(DCA)评估净临床效益。采用校准曲线评估模型的可靠性。将内部验证集中具有最强区分度、校准度和临床效用平衡的模型定义为最佳模型。为评估模型在不同环境中的适应性和泛化能力,使用YTU-ICU数据库的独立数据集测试其外部有效性。生成SHAP汇总图以说明每个特征对预测结果的作用。此外,SHAP分析通过使用力图的个体案例评估展示了特定样本中每个特征的个体层面贡献,从而促进对模型决策过程的更深入理解。
为进一步确保可重复性并最小化过拟合风险,所有程序均使用固定的随机种子。关于类别不平衡,我们选择在原始数据分布上训练所有模型以反映真实世界的临床患病率(约18.2%),并使用AUROC和F1分数作为稳健的评估指标。
2.7 统计方法
使用Shapiro-Wilk检验评估数据正态性。正态分布的连续数据用均数(标准差)总结,并使用独立样本t检验进行比较。对于非正态分布的变量,使用Mann-Whitney U检验进行比较,数据用中位数和四分位距总结。使用卡方检验或Fisher精确检验比较分类变量,数据用频率和百分比总结。使用R进行数据分析和所有计算。统计显著性的标准为双尾假设P < 0.05。
考虑到结局不平衡以及开发队列和外部队列之间事件发生率的差异,我们使用AUROC和精确率-召回率曲线下面积(PR-AUC)评估模型的区分度。通过将观测结局对预测概率的logit值进行回归,使用Brier评分、大样本校准(校准截距)和校准斜率来量化校准度。通过估计从0.1到0.5阈值概率范围内的净效益,使用决策曲线分析评估临床效用。所有指标的不确定性均使用非参数自助法重抽样进行估计。
3 结果
3.1 人群人口统计学特征
最初筛选了10,686名DKD患者。在应用纳入和排除标准后,最终有3,403例患者被纳入最终分析。同时,从长江大学筛选了261名患者,最终保留260名作为外部验证队列。详细的人口统计学和临床特征数据显示,存活组和死亡组在年龄、收缩压、脉搏、呼吸频率、白蛋白(ALB)、丙氨酸氨基转移酶(ALT)、天冬氨酸氨基转移酶(AST)、活化部分凝血活酶时间(APTT)、血尿素氮(BUN)、氯(CL)、肌酐(CR)、血红蛋白(HB)、淋巴细胞(LYM)、中性粒细胞(NEU)、凝血酶原时间(PT)、红细胞分布宽度(RDW)、总胆红素(TB)、酸中毒、心律失常、电解质紊乱、肺炎、呼吸衰竭、脓毒症、头孢菌素、地塞米松、美罗培南、万古霉素、连续性肾脏替代治疗(CRRT)、机械通气(MV)、格拉斯哥昏迷评分(GCS)、简化急性生理学评分II(SAPS II)和序贯器官衰竭评估(SOFA)评分方面存在显著差异。
3.2 特征选择
筛选过程最初收集了45个临床特征作为可能的输入变量。为确定与DKD患者全因死亡风险相关的重要变量,采用了LASSO回归。调整参数λ被用来控制β系数的惩罚。最终识别出十个系数非零的潜在预测因子,即年龄、淋巴细胞计数、红细胞分布宽度(RDW)、酸中毒、肺炎、呼吸衰竭、美罗培南、万古霉素、简化急性生理学评分II(SAPS II)和序贯器官衰竭评估(SOFA)评分。随后使用这些预测因子进行模型构建。
3.3 模型评估与比较
采用训练数据集构建了八种不同的ML模型。每种模型在训练集和内部验证集上的性能通过一套综合指标进行评估。在内部验证集中,XGBoost表现出最高的AUROC,为0.738,其次是LightGBM(0.731)、NN(0.73)、LR(0.728)、GBDT和NB(0.723)、RF(0.722)以及SVM(0.67)。校准曲线显示,XGBoost模型在两个数据集上都表现出最佳的校准性能。决策曲线分析(DCA)用于探索每个模型在一系列阈值概率下的净临床效益。结果表明,XGBoost模型的净效益在广泛的阈值概率范围内超过了“全治疗”和“不治疗”策略,突显了该模型在有效估计死亡风险和减少不适当治疗方面的临床价值。
3.4 外部验证
使用包含260名患者数据的YTU-ICU数据库进一步验证了每个模型对DKD患者全因死亡的预测性能。在外部验证队列中,逻辑回归(LR)模型表现出最佳的区分能力,AUROC为0.761。其余模型的AUROC得分分别为:XGBoost(0.746)、GBDT(0.74)、LightGBM(0.735)、NB(0.731)、RF(0.712)、NN(0.702)和SVM(0.56)。尽管LR模型的AUROC略高于XGBoost,但XGBoost模型因其更优的临床效用被选为最终的最佳模型。决策曲线分析(DCA)显示,在广泛的阈值概率范围内,XGBoost提供的净临床效益持续高于LR和其他模型。这表明XGBoost在指导临床干预和减少真实世界ICU环境中不必要的伤害方面更为有效。XGBoost模型的预测性能优于传统的SOFA和SAPS II评分系统。然而,校准曲线在外部验证队列中拟合不佳,这可能归因于YTU-ICU数据集样本量较小以及患者人口统计学特征相对于MIMIC-IV的差异。
在外部验证队列中,主要模型保持了相当的区分度,但校准度显著下降,表现为明显为正的校准截距和大于1的校准斜率,表明在不同基线风险下存在系统性的错误校准。这些发现表明,虽然区分度在不同队列间转移得相当好,但在临床部署前可能需要进行局部重新校准和队列特定的阈值调整。
3.5 可解释性分析
SHAP分析提供了对XGBoost模型的深入解释。呼吸衰竭、淋巴细胞计数、序贯器官衰竭评估(SOFA)评分、红细胞分布宽度(RDW)、年龄、简化急性生理学评分II(SAPS II)、酸中毒、万古霉素、肺炎和美罗培南被确定为预测DKD患者全因死亡风险的十个最重要因素,并按重要性排序。呼吸衰竭、酸中毒、肺炎、万古霉素使用和美罗培南使用被识别为与死亡率相关的特征,并显示出正的SHAP值,从而有助于模型预测倾向于死亡率。淋巴细胞计数、序贯器官衰竭评估(SOFA)评分、红细胞分布宽度(RDW)、年龄和简化急性生理学评分II(SAPS II)评分进一步促进了死亡率的预测。
SHAP依赖图用于进一步分析十个因素对XGBoost模型预测死亡风险的影响。结果显示,呼吸衰竭、酸中毒、严重肺炎以及万古霉素和美罗培南的使用与死亡率升高显著相关。值得注意的是,死亡风险随着呼吸衰竭和酸中毒的严重程度而增加。相反,淋巴细胞计数降低与死亡风险升高相关,而较高的淋巴细胞计数可能降低死亡风险。较高的序贯器官衰竭评估(SOFA)评分、年龄较大、红细胞分布宽度(RDW)升高和较高的简化急性生理学评分II(SAPS II)评分显示出与死亡风险升高的密切相关性,这些因素在数值较高时对死亡风险的贡献更为显著。此外,万古霉素和美罗培南使用的增加与死亡风险显著升高相关,表明这些抗生素的使用可能作为患者病情更危重以及存在严重或耐药感染的临床替代指标。
4 讨论
目前尚无专门关注ICU-DKD患者院内全因死亡的ML预测模型研究。本研究利用MIMIC-IV和YTU-ICU数据库创建并测试了一个可解释的ML预测模型,以探索ICU-DKD患者的全因死亡风险。主要发现如下:XGBoost模型在预测ICU-DKD患者院内全因死亡方面表现出良好的性能,为早期风险识别和个体化干预提供了有力支持。该模型在外部验证队列中表现出令人满意的泛化能力。尽管患者特征存在差异,模型仍显示出稳定的预测性能,为其在不同临床环境中的应用奠定了基础。SHAP分析揭示,呼吸衰竭、淋巴细胞计数、序贯器官衰竭评估(SOFA)评分、红细胞分布宽度(RDW)和年龄是影响死亡风险的关键因素,为临床决策提供了重要依据。
随着机器学习的发展,XGBoost已成为医疗保健领域构建预测模型的一种高效且广泛应用的方法。先前的研究结果表明,XGBoost模型在预测糖尿病酮症酸中毒患者发生急性肾损伤方面非常有效。因此,XGBoost成为创建医学应用预测模型的有前途的工具。通过应用ML技术实现了对ICU-DKD患者的预测建模。从最初的45个临床变量中筛选出十个信息量最大的变量,并用其构建了八个ML模型,随后进行了内部验证和外部验证。研究结果表明,XGBoost模型被证明是预测院内全因死亡最有效的模型。XGBoost在本研究中的预测性能可能归功于其集成学习框架。具体而言,从大量决策树中汇总预测结果有助于准确表示预测变量之间复杂的非线性交互作用。XGBoost具有固有的特征选择能力,可以消除冗余特征并降低过拟合的敏感性。此外,它对缺失数据和高维性具有鲁棒性,这有助于提高其临床预测的性能。
尽管具有令人满意的区分度,但该模型在外部队列中表现出次优的校准度,这可能源于YTU-ICU人群疾病严重程度更高。与来自MIMIC-IV的训练集相比,YTU-ICU人群显示出更高的简化急性生理学评分II(SAPS II)评分和更高的脓毒症患病率。鉴于这些基线风险的差异,模型可能会系统性地低估外部队列的绝对死亡风险。因此,在异构的医疗环境中部署预测模型需要进行重新校准。
研究使用SHAP来解释XGBoost模型,重点关注了与ICU-DKD患者院内全因死亡相关的几个关键变量。研究发现,呼吸衰竭是预测死亡风险的首要决定因素。先前的研究表明,呼吸衰竭是许多危重患者(尤其是脓毒症患者)不良结局的关键预测因子,并与患者健康状况恶化和呼吸功能下降密切相关。呼吸衰竭通过激活肺部的化学感受器和机械感受器,增强呼吸中枢的神经反射,导致呼吸频率增加和潮气量减少,进而形成快速浅表的呼吸模式,进一步加剧患者病情。此外,炎症反应和肺损伤可导致肺功能恶化,并可能引发多器官衰竭。我们的研究强调了呼吸衰竭在预测院内死亡方面的关键作用,尤其是在ICU-DKD患者中,其对死亡率的预测能力最为显著。
免疫系统的功能状态显著影响ICU环境中患者的临床结局。特别是在患有糖尿病的ICU患者中,免疫抑制和免疫功能障碍常常会加剧患者病情并增加死亡风险。免疫抑制可归因于多种因素,包括糖尿病相关的免疫功能障碍、慢性炎症和药物治疗方案。在此背景下,作为免疫系统核心成分的淋巴细胞计数的变化,可能是死亡风险的重要预测指标。淋巴细胞主要参与识别和清除外来病原体,并在免疫反应中发挥调节作用。淋巴细胞计数的减少通常意味着免疫系统的抑制或功能不全。DKD患者表现出免疫功能受损并伴有慢性低度炎症。这种免疫抑制状态使患者容易发生感染,而感染被认为是ICU环境中导致死亡的重要因素。重要的是,免疫抑制状态不仅仅以淋巴细胞减少为特征,它还可以通过影响整体免疫反应来调节炎症标志物的平衡。因此,淋巴细胞计数的变化是评估ICU-DKD患者免疫功能障碍和预测死亡风险的重要决定因素。
现有研究已证实,序贯器官衰竭评估(SOFA)和简化急性生理学评分II(SAPS II)作为整合了多个器官功能参数的综合工具,在ICU各种疾病的预后评估中具有重要的临床意义。我们的研究结果表明,较高的序贯器官衰竭评估(SOFA)评分和简化急性生理学评分II(SAPS II)评分与ICU-DKD患者院内全因死亡风险的升高显著相关。针对特定危重患者群体的临床研究表明,在首次入住ICU的肾移植受者中,早期序贯器官衰竭评估(SOFA)评分的动态变化与90天临床结局显著相关。在接受连续性肾脏替代治疗(CRRT)的患者中,简化急性生理学评分II(SAPS II)评分系统对术后最初48小时内的死亡风险具有显著的预测能力。序贯器官衰竭评估(SOFA)和简化急性生理学评分II(SAPS II)评分系统在ICU患者预后评估中的应用,为早期风险分层和针对性干预提供了有力证据。
DKD的发病机制复杂,当前研究一致表明炎症是DKD发生和加重的关键因素。炎症可能通过调节红细胞生成、缩短红细胞寿命以及改变红细胞大小的同质性等机制导致红细胞分布宽度(RDW)升高。红细胞分布宽度(RDW)作为红细胞大小异质性的衡量指标,可以反映生物体内的氧化应激和炎症程度。因此,红细胞分布宽度(RDW)被认为是DKD患者风险分层的潜在预后因素。最近的研究越来越多地证实了红细胞分布宽度(RDW)在预测DKD发病率和临床结局方面的价值。此外,万古霉素和美罗培南等治疗相关变量被纳入我们的模型,但这些应被解释为反映疾病严重程度的指标。这些抗生素是存在严重或耐药感染的替代标志物,而非导致死亡的直接原因。它们的高预测权重表明需要使用此类强效抗菌治疗的患者病情危重。
值得注意的是,我们模型中最终选择的预测因子,如序贯器官衰竭评估(SOFA)、简化急性生理学评分II(SAPS II)和呼吸衰竭,反映的是一般的系统严重程度,而非糖尿病肾病(DKD)特异性参数,如糖化血红蛋白(HbA1c)或尿白蛋白与肌酐比值(UACR)。这可以归因于几个因素。首先,慢性糖尿病肾病(DKD)的标志物(如糖化血红蛋白(HbA1c)和蛋白尿)在急性ICU环境中通常缺失率很高。因此,这些变量在我们的初始数据预处理阶段就被排除了。其次,虽然肌酐和血尿素氮(BUN)等指标被纳入了最初的LASSO回归,但它们被综合评分和急性并发症标志物所取代。这表明对于危重糖尿病肾病(DKD)患者,院内死亡的即刻风险更多地归因于急性生理性失代偿和多器官衰竭,而非基线慢性肾脏病。因此,我们的模型捕捉到了高风险ICU-DKD人群的急性加重于慢性的特征。
4.1 优势与局限性
与以往研究相比,本研究具有若干优势。首先,本研究利用了MIMIC-IV数据库,它提供了一个更大、更新、质量更高的数据集。其次,采用了多种ML算法来评估不同模型的预测能力,并根据模型在各项评估指标上的综合表现选择了最优模型。此外,进行了外部验证,增强了模型的准确性和泛化能力,并证实了其在不同医疗环境中的适用性。最后,采用SHAP分析对XGBoost模型进行了深入的可解释性分析,揭示了影响糖尿病肾病(DKD)患者死亡风险的关键因素,为临床决策提供了宝贵见解。
然而,我们的研究也存在一些局限性。首先,本研究涵盖了多种临床特征和实验室指标,但由于缺失数据超过20%,一些与不良预后相关的危险因素被排除在分析之外。其次,死亡风险预测模型基于ICU入院后最初24小时内收集的数据,可能会遗漏后来发生的影响结局的事件,并引入了混杂变量。此外,我们承认在几个排名靠前的预测因子之间存在临床共线性。呼吸衰竭、肺炎和广谱抗生素的使用在临床上是相互关联的,通常反映了严重的感染或脓毒症综合征。另外,序贯器官衰竭评估(SOFA)评分本身就包含了与呼吸功能障碍相关的参数,这可能与呼吸衰竭存在重叠。尽管XGBoost在处理多维数据方面具有鲁棒性,但这种共线性可能会影响分配给这些特征的个体SHAP重要性。因此,SHAP结果应被解释为识别了几个共同反映系统性严重感染或脓毒症综合征的指标,而非独立的危险因素。此外,虽然使用了外部验证队列,但有限的样本量可能限制XGBoost模型在临床环境中的适用性。最后,尽管采用了先进的ML算法进行预测,但研究中使用的模型尚未开发成可直接临床应用的应用程序。未来的研究可以考虑将我们的模型转化为可操作的在线应用平台,使临床医生和医疗保健提供者能够方便地使用该工具进行临床预测和管理。此外,考虑到不同医疗中心之间固有的数据集偏移,在异构人群中进行临床部署之前,可能需要进行局部重新校准以优化模型的预测性能。
5 结论
我们开发了一个可解释的XGBoost预测模型,该模型在预测重症糖尿病肾病(DKD)患者院内全因死亡方面表现出良好的性能。SHAP提供了对特征重要性排序、个体特征的阈值以及每个特征与结局正负相关性的直观解释。这有助于医疗保健专业人员早期识别并进行针对性管理,从而促进重症糖尿病肾病(DKD)患者的康复和生存。然而,由于外部校准效果欠佳,在将模型应用于异质性临床环境之前,应考虑进行局部重新校准和队列特定的阈值选择。