《Medicine》:Artificial intelligence in contrast-induced nephropathy after coronary interventions: A meta-analysis
编辑推荐:
背景:造影剂肾病(Contrast-induced Nephropathy, CIN)是冠脉介入术后的主要并发症,导致发病率和医疗成本增加。机器学习(Machine Learning, ML)模型通过整合复杂的临床变量,为预测CIN提供了创新方法,可能改善风险
背景:造影剂肾病(Contrast-induced Nephropathy, CIN)是冠脉介入术后的主要并发症,导致发病率和医疗成本增加。机器学习(Machine Learning, ML)模型通过整合复杂的临床变量,为预测CIN提供了创新方法,可能改善风险分层和患者预后。这项meta分析评估了ML模型预测CIN的性能,重点关注表现最佳的模型。
方法:分析了17项研究,共纳入21,69,263名患者。ML模型的预测准确性通过合并的受试者工作特征曲线下面积(Area Under the Curve, AUC)估计值和异质性指标进行综合。
结果:CIN的合并发病率为11%(95%置信区间: 9–13%)。总体而言,ML模型的合并AUC为0.74(95%置信区间: 0.72–0.75)。随机森林(Random Forest, RF)模型表现最佳,AUC为0.86(95%置信区间: 0.85–0.87),其次是梯度提升机(Gradient Boosting Machines, GBM)和极限梯度提升(Extreme Gradient Boosting, XGBoost),两者AUC均为0.79。在训练数据集中,RF和XGBoost取得了最高AUC,为0.98(95%置信区间: 0.97–0.99),GBM紧随其后,为0.88(95%置信区间: 0.85–0.90)。在测试数据集中,集成模型表现最佳,AUC为0.80(95%置信区间: 0.66–0.94),RF和XGBoost以AUC为0.75紧随其后。外部验证结果显示,总体合并AUC为0.77(95%置信区间: 0.71–0.84),表明模型具有良好的泛化能力。在CIN定义中,欧洲泌尿生殖放射学会(European Society of Urogenital Radiology, ESUR)标准产生了最佳的预测性能,AUC为0.77(95%置信区间: 0.72–0.82)。
结论:RF、集成模型和XGBoost成为预测CIN最有效的ML模型,其中RF在训练数据集中表现出持续的优越性,而集成模型在测试数据集中表现优异。合并的CIN发病率强调了其临床负担,ESUR定义提供了最高的预测准确性,支持其在CIN风险分层中的效用。
**论文解读:人工智能在冠脉介入术后造影剂肾病预测中的性能评估——一项系统综述与Meta分析**
**1. 研究背景**
造影剂肾病(Contrast-induced Nephropathy, CIN)是经皮冠状动脉介入治疗(Percutaneous Coronary Intervention, PCI)和冠状动脉旁路移植术(Coronary Artery Bypass Grafting, CABG)等冠脉介入术后发生急性肾损伤(Acute Kidney Injury, AKI)的主要原因之一。CIN的定义通常为接触造影剂后72小时内,血清肌酐(Serum Creatinine, SCr)较基线值相对升高25%或绝对值增加0.5 mg/dL (44 μmol/L),且无其他致病因素。尽管介入技术和预防措施不断进步,CIN仍与住院时间延长、医疗成本增加及死亡率升高相关,尤其对于已有肾功能不全或其他风险因素的患者。
及时预测CIN风险对于识别高危患者并采取预防策略至关重要。传统风险评估方法主要依赖于临床因素,如肾功能损伤史、糖尿病和年龄等,但这些模型往往缺乏精确性,且无法充分捕捉导致CIN的复杂因素相互作用。这一局限性凸显了对更先进预测工具的需求。
人工智能(Artificial Intelligence, AI),特别是机器学习(Machine Learning, ML)算法,为改善CIN风险预测提供了有前景的途径。通过分析大型复杂数据集,AI能够揭示传统方法无法发现的隐藏模式和交互作用。尽管已有多个meta分析评估了AI在预测CIN中的作用,但仍需一项全面且直接比较不同ML模型性能以确定最佳模型的综合分析。此外,这些模型在外部人群中的表现以及不同CIN诊断标准对模型性能的影响尚未得到系统研究。因此,本项meta分析旨在系统回顾并综合当前关于AI在预测冠脉介入术后CIN中作用的证据,通过评估基于AI的预测模型的准确性,为AI改善CIN风险分层和改善患者预后提供见解。
**2. 主要技术方法**
这项系统综述与meta分析遵循AMSTAR 2和PRISMA-DTA指南进行报告,并在国际系统评价前瞻性注册中心(PROSPERO, CRD42024623579)注册。研究人员在PubMed、Scopus、Embase和Web of Science数据库中进行了全面文献检索,检索时间从建库至2025年4月20日。最终纳入17项符合条件的原始研究。这些研究样本来源于6个国家(中国、美国、伊朗、韩国、台湾、荷兰),样本量从227至1,917,960不等,主要采用回顾性队列设计。研究人员使用诊断准确性研究质量评估工具-2 (QUADAS-2)进行质量评估。统计分析使用R、STATA和CMA软件,采用随机效应模型合并ML模型的诊断准确性指标,如AUC,并评估异质性,同时进行了meta回归和敏感性分析。
**3. 研究结果**
**3.1. 研究选择与特征:** 最终纳入17项研究,共涉及2,169,263名患者。研究主要分布在中国(10项)和美国(3项)。多数研究采用回顾性队列设计。使用的预测模型包括逻辑回归(Logistic Regression, LR)、随机森林(Random Forest, RF)、极限梯度提升(Extreme Gradient Boosting, XGBoost)、梯度提升机(Gradient Boosting Machines, GBM)、支持向量机(Support Vector Machines, SVM)、深度神经网络(Deep Neural Networks, DNN)、朴素贝叶斯(Na?ve Bayes, NB)等多种算法。AKI的定义采用了KDIGO、AKIN或ESUR标准。5项研究报告了外部验证。质量评估显示大多数研究在患者选择等领域偏倚风险较低,但在指标检验领域存在一定的不明确风险。
**3.2. CIN患病率:** 17项研究的CIN合并患病率为11%(95% CI: 9–13%),预测区间为3%至21%,表明CIN在冠脉介入术后患者中具有显著的临床负担。
**3.3. ML模型在CIN预测中的总体性能:** 所有预测模型(共203个效应量)的总体合并AUC为0.74(95% CI: 0.72–0.75)。在个体模型中,RF模型(37个效应量)表现最佳,AUC为0.86(95% CI: 0.85–0.87)。GBM和XGBoost的AUC均为0.79,集成模型的AUC也为0.79。相比之下,传统LR的AUC为0.70,SVM和决策树(Decision Trees, DT)的AUC分别为0.67和0.68。敏感性分析证实了结果的稳定性。通过meta回归分析发现,样本量对RF、XGBoost和DT模型的性能有显著影响。
**3.4. 模型在训练和测试数据集中的性能:** 训练数据集中共70个模型,总体AUC为0.81(95% CI: 0.80–0.82)。其中,RF和XGBoost在训练集中表现最优,AUC均高达0.98。测试数据集中共126个模型,总体AUC为0.71(95% CI: 0.69–0.73)。集成模型在测试集中表现最佳,AUC为0.80,RF(AUC=0.75)和XGBoost(AUC=0.75)紧随其后。训练集与测试集之间AUC值的下降表明了过拟合现象的存在。
**3.5. 模型在内部与外部验证中的性能:** 进行外部验证的7个模型的总体AUC为0.77(95% CI: 0.71–0.84),高于仅进行内部验证的196个模型的AUC(0.74)。这表明独立的外部验证对于评估模型的泛化能力至关重要。
**3.6. 基于CIN标准的模型性能:** 采用ESUR标准的21个模型表现最佳,AUC为0.77(95% CI: 0.72–0.82);采用KDIGO标准的153个模型AUC为0.75;而采用AKIN标准的13个模型AUC最低,为0.72。
**3.7. 基于训练-测试集划分比例的模型性能:** 采用70/30划分比例的49个模型性能最优,AUC为0.75;80/20划分比例的模型AUC为0.71;75/25和50/50划分比例的模型AUC分别为0.68和0.67。这表明70/30的比例可能为模型训练和测试提供了最佳平衡。
**4. 讨论与结论**
本项meta分析表明,AI模型在预测冠脉介入术后CIN方面具有巨大潜力,总体平均AUC为0.74,显示出令人满意的预测准确性。在评估的模型中,RF模型表现最为突出,平均AUC达到0.86,这归因于其有效处理复杂和高异质性数据集的能力。GBM和XGBoost也表现出强劲性能,集成方法进一步提升了准确性,测试集AUC达到0.80。相比之下,传统方法如LR表现欠佳,突显了基于AI模型的优越性。然而,从训练集到测试集性能的下降,尤其是在RF和XGBoost等高性能模型中,提示过拟合仍是需要关注的问题。此外,研究结果揭示了CIN定义标准的选择对模型性能有显著影响,ESUR标准表现最佳,这可能是由于其更高的敏感性。
**结论:** 本研究强调了AI模型在改善CIN预测中的重要作用,RF、XGBoost和集成方法成为表现最佳的算法。这些模型通过有效捕捉不同数据集中的复杂模式,优于传统的LR。尽管训练数据集显示出接近0.98的卓越AUC,但测试数据集中的显著下降突显了过拟合的持续挑战以及进行严格外部验证的必要性。研究结果还强调了使用标准化CIN定义(如ESUR和KDIGO)对于提高预测准确性的重要性。未来研究应专注于通过纳入多样的多中心数据集、应用稳健的验证技术以及利用先进的AI方法,来克服现有局限性,进一步提高模型的泛化能力和临床影响力。该论文发表于《Medicine》。