基于机器学习与SHAP可解释性的糖尿病足溃疡伤口感染预测模型构建及外部验证研究:一项识别关键风险因素与促进精准干预的前瞻性探索

《Diabetes, Metabolic Syndrome and Obesity》:Development and External Validation of a Machine Learning Model for Predicting Wound Infection in Diabetic Foot Ulcers

【字体: 时间:2026年03月10日 来源:Diabetes, Metabolic Syndrome and Obesity 2.8

编辑推荐:

  本文回顾性纳入了800例糖尿病足溃疡(DFU)患者,通过构建并比较八种机器学习(ML)模型,开发了一个稳健的伤口感染预测工具。研究证实,随机森林(RF)模型在内部测试集(AUC=0.853)和外部验证集(AUC=0.832)中均表现出优异的预测性能。SHAP(SHapley Additive exPlanations)分析识别出年龄、糖尿病病程、踝肱指数(ABI)、溃疡面积、血管并发症和骨髓炎六个关键风险因素。该模型为临床早期风险分层和个性化干预提供了可解释的决策支持。

  
研究背景与目的
糖尿病足溃疡(Diabetic Foot Ulcer, DFU)是糖尿病患者最严重且致残的并发症之一,其伤口感染是导致预后不良、截肢甚至死亡的关键决定因素。传统的评分系统或回归模型受限于线性假设,难以捕捉风险因素间复杂的非线性交互作用。近年来,机器学习(Machine Learning, ML)在疾病风险预测中展现出巨大潜力,但其在DFU感染预测中的应用有限,且模型的可解释性不足。本研究旨在利用常规收集的临床指标,开发、比较并外部验证多种ML模型,以预测DFU患者的伤口感染风险,并利用SHAP(SHapley Additive exPlanations)框架增强模型的可解释性,从而为临床早期识别高危患者和个性化干预提供依据。
材料与方法
本研究为一项回顾性队列研究。主要研究队列纳入了河南医科大学第一附属医院2020年1月1日至2024年12月31日期间的500例DFU患者,随机分为训练集(70%, n=350)和内部测试集(30%, n=150)。外部验证队列来自保定市第一中心医院同期收治的300例符合相同入选标准的患者。
研究共分析了22个变量,包括年龄、踝肱指数(Ankle Brachial Index, ABI)、糖化血红蛋白(HbA1c)等连续变量,以及性别、糖尿病病程、溃疡面积、是否伴有血管并发症、是否伴有骨髓炎等分类变量。研究的主要结局是DFU伤口感染,其诊断依据国际糖尿病足工作组(IWGDF)和美国传染病学会(IDSA)的指南标准。
研究构建并比较了八种机器学习算法:逻辑回归(LR)、决策树(DT)、随机森林(RF)、支持向量机(SVM)、K近邻(KNN)、朴素贝叶斯(NBM)、极端梯度提升(XGB)和轻量梯度提升机(LGBM)。模型性能通过受试者工作特征曲线下面积(Area Under the Curve, AUC)、准确性、敏感性、特异性等指标进行内部交叉验证和外部验证评估。使用SHAP分析进行特征重要性解释。
结果
患者基本特征
研究共纳入800例DFU患者。训练集、内部测试集和外部验证集三组患者的基线人口学和临床特征无显著差异,具有可比性。患者平均年龄在62.7±8.8至68.0±9.1岁之间,约60%为男性。伤口感染发生率在训练集、测试集和验证集中分别为30.0%、34.7%和39.0%。
特征选择与模型性能
通过单变量和多变量逻辑回归分析,最终确定了六个关键预测变量:年龄、糖尿病病程、踝肱指数(ABI)、溃疡面积、是否伴有血管并发症、是否伴有骨髓炎。
在八种机器学习模型中,随机森林(RF)模型表现出最佳的综合预测性能。在训练集中,其AUC达到0.937(95% CI 0.906-0.969);在内部测试集中,AUC为0.853(95% CI 0.804-0.901);在外部验证集中,AUC为0.832(95% CI 0.779-0.885)。该模型在内部测试集和外部验证集中均显示出良好的区分度、校准度和临床实用性。
模型解释(SHAP分析)
SHAP分析清晰地揭示了各特征对模型预测的贡献度与方向。全局特征重要性排名显示,“伴有血管并发症”和“伴有骨髓炎”是对感染风险影响最大的两个正向驱动因素。较低的踝肱指数(ABI)值(代表下肢灌注不良)与更高的感染风险显著相关,起到了重要的风险提示作用。糖尿病病程、溃疡面积和年龄也对预测有贡献,但影响相对较小。
SHAP瀑布图进一步展示了模型针对个体患者的决策过程。例如,对于一名61岁、糖尿病病程短、溃疡面积小的患者,尽管局部情况看似良好,但模型因其“伴有血管并发症”、“伴有骨髓炎”以及较低的ABI值,综合计算后仍给出了较高的感染风险预测(概率0.657)。相反,对于一名83岁、伴有骨髓炎的高龄患者,模型因其“无血管并发症”、ABI值正常以及糖尿病病程短等保护性因素,最终给出了中等偏低的感染风险(概率0.407)。这体现了模型整合多种因素进行个体化风险评估的能力。
讨论与展望
本研究开发的随机森林模型在预测DFU伤口感染方面表现优异,其识别出的六个关键变量(年龄、糖尿病病程、ABI、溃疡面积、血管并发症、骨髓炎)具有良好的临床和生物学合理性,涵盖了全身代谢紊乱、外周缺血和局部组织损伤等多维度感染驱动机制。与传统的回归方法相比,机器学习模型能更好地捕捉临床数据中的非线性关系和复杂交互作用。
本研究强调,该模型旨在作为一种辅助决策支持工具,而非替代临床判断。它可在患者入院或初次专科会诊时,作为早期风险分层工具使用。对于模型识别出的高风险患者,临床医生可采取更积极的干预策略,如加强伤口监测、早期血管介入会诊或在药敏结果出来前考虑使用广谱经验性抗生素。对于低风险患者,则可遵循标准伤口护理方案,优化医疗资源配置。
然而,本研究也存在局限性,包括回顾性设计可能带来的偏倚、样本均来自单一国家的医疗机构限制了其普遍适用性,以及微生物学和影像学信息不完整等。未来需要在更大规模、多中心的前瞻性研究中进一步验证该模型的稳健性和临床实用性,并考虑整合纵向、影像和微生物学数据以构建更全面的预测框架。
结论
本研究成功开发并验证了用于预测糖尿病足溃疡伤口感染的机器学习模型,其中随机森林模型显示出卓越的预测性能和泛化能力。研究识别出的六个关键预测变量为理解感染风险提供了重要见解。该模型提供了一个准确且可解释的风险分层工具,其临床实施有望促进高危患者的早期识别,从而实现及时干预并改善预后。未来的多中心前瞻性研究对于进一步验证该模型及支持其整合到智能临床决策支持系统中至关重要。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号