基于可解释机器学习的2型糖尿病患者心脏代谢多重共病风险在线预测系统开发与验证

《Scientific Reports》:An online interpretable machine learning model for predicting cardiometabolic multimorbidity risk in patients with type 2 diabetes mellitus

【字体: 时间:2026年01月22日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对2型糖尿病(T2DM)患者心脏代谢多重共病(CMM)早期识别难题,开发了集成Stacking算法与SHAP/LIME解释方法的在线预测系统。通过多中心回顾性研究(n=1153),筛选出餐后血糖(PBG)、糖化血红蛋白(HbA1c)、内脏脂肪面积(VFA)等9个核心预测因子,模型在内外验证中AUC分别达0.868/0.822。该系统可通过https://t2dmcmmpredictionweb.streamlit.app/实现个性化风险评估,为临床早期干预提供可视化决策支持。

  
在全球糖尿病患病率持续攀升的21世纪,2型糖尿病(T2DM)及其并发症已成为重大公共卫生挑战。令人警惕的是,近75%的T2DM患者在确诊时已存在至少一种合并症,44%的患者甚至同时罹患两种以上疾病。其中,心脏代谢多重共病(CMM)——即T2DM合并缺血性心脏病(IHD)、卒中或高血压中至少一种的状态,会显著提升患者死亡风险和医疗负担。国际糖尿病联盟(IDF)数据显示,糖尿病患者发生心血管疾病(CVD)的风险是非糖尿病人群的2-3倍,而合并CVD的糖尿病患者全因死亡率更是高出2-3倍。尽管现行指南建议对T2DM患者进行年度CVD风险评估,但传统预测模型往往局限于单一并发症的预测,缺乏对CMM这一复杂临床表型的综合评估工具。
为突破这一瓶颈,山西医科大学公共卫生学院郑建中等研究团队在《Scientific Reports》发表最新研究,开发了一套基于可解释机器学习(ML)的在线预测系统。研究团队创新性地将Stacking集成算法与SHAP(SHapley Additive exPlanations)/LIME(Local Interpretable Model-Agnostic Explanations)解释性框架相结合,构建了能够同时评估多种心脏代谢共病风险的预测模型,并通过Streamlit平台实现了临床应用的快速转化。
关键技术方法方面,研究采用多中心回顾性设计,从山西两家三级医院纳入1153例T2DM患者(推导队列793例,外部验证队列360例)。通过递归特征消除(RFE)联合随机森林(RF)算法从22个临床变量中筛选关键预测因子,并比较了XGBoost、LightGBM等6种ML算法性能。最终采用Stacking集成策略(基模型为RF/XGBoost/LightGBM/GBM/AdaBoost/CatBoost,元模型为逻辑回归(LR)),通过SHAP和LIME实现模型全局与个体级解释。
研究结果
患者特征:三组队列基线特征无显著差异(P>0.05),CMM患病率在训练集、内部验证集和外部验证集中分别为48.7%、49.1%和48.6%,人群特征均衡可比(详见表1)。
特征筛选:通过RFE-RF算法确定9个核心预测因子:PBG、HbA1c、年龄、VFA、血小板计数(PLT)、胰岛素抵抗代谢评分(METS-IR)、AST/ALT比值、糖尿病病程和皮下胰岛素注射(SCII)(图2)。Bootstrap稳定性分析显示各特征选择频率均>85%,且方差膨胀因子(VIF)<5,表明特征集稳健且无严重多重共线性。
模型性能:Stacking模型在内部验证中表现最优,AUC达0.868(95%CI:0.810-0.918),准确率78.0%,显著优于其他单一模型(DeLong检验p<0.05)。外部验证中AUC保持0.822(95%CI:0.793-0.863),显示良好泛化能力(表2-3,图3,5)。混淆矩阵分析显示模型对CMM患者的识别准确率达83.33%(图4)。
模型解释:SHAP分析揭示HbA1c是影响CMM风险的最重要因子,其阈值效应分析显示当HbA1c>9.13%时对CMM风险呈正向贡献(图7-8)。SCII治疗与较低CMM风险相关,而较长糖尿病病程、较高VFA和METS-IR水平均提示风险增加。LIME局部解释示例显示个体化风险评估中HbA1c贡献度最高(0.15),而PLT预测贡献最小(图9)。
临床转化:研发的在线系统(https://t2dmcmmpredictionweb.streamlit.app/)可实时计算CMM风险概率,并通过SHAP力导向图和LIME解析提供决策依据(图10)。该系统采用无状态设计保障数据隐私,所有计算在会话期间实时完成。
研究结论强调,该Stacking集成模型不仅显著提升了对T2DM患者CMM风险的预测精度,更通过可解释人工智能(XAI)技术破解了机器学习"黑箱"难题。相较于传统Framingham风险评分等工具,该模型能更有效捕捉多维度特征间的非线性关系,尤其在高维医学数据中展现出独特优势。研究中确认的HbA1c、VFA等关键风险因子与既往心血管病理生理机制研究高度吻合——长期高血糖通过氧化应激促进血管内皮功能障碍,内脏脂肪堆积则通过释放肿瘤坏死因子-α(TNF-α)、白细胞介素-6(IL-6)等炎症因子加速动脉粥样硬化进程。
尽管研究存在回顾性设计的固有局限,但作为首款针对T2DM患者CMM风险的在线可解释预测工具,其创新性体现在三个方面:一是首次将Stacking集成学习应用于CMM这一复杂终点事件的预测;二是通过SHAP/LIME双框架实现从群体特征重要性排序到个体化预测原因追溯的全链条解释;三是完成了从算法开发到临床可用的网络部署闭环。未来通过纳入多民族前瞻性队列和动态指标监测,有望进一步优化模型的时效性和普适性,为糖尿病共病防控提供更精准的决策支持。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号