基于常规生物标志物的可解释机器学习识别培养确诊的血流感染性尿源性脓毒症

《Scientific Reports》:Explainable machine learning with routine biomarkers identifies culture-defined bacteremic urosepsis

【字体: 时间:2026年03月05日 来源:Scientific Reports 3.9

编辑推荐:

  尿路感染(UTI)早期识别脓毒症风险具有挑战。本研究针对住院UTI患者,利用入院0-24小时内的常规实验室指标,通过随机森林(RF)、极限梯度提升(XGBoost)等多模型,构建了用于预测后续48-72小时内培养确诊的菌血症性尿脓毒症的预测模型。结果显示XGBoost模型在独立测试集上曲线下面积(AUC)达0.886,D-二聚体、降钙素原(PCT)和白蛋白是关键预测因子。该研究为利用常规数据进行早期风险分层提供了潜在工具,有待外部验证。

  
尿路感染(Urinary Tract Infection, UTI)是临床上极为常见的感染性疾病,但其中一部分患者会发展为更为凶险的尿源性脓毒症,即尿脓毒症。这种严重的并发症可能导致器官功能障碍甚至死亡,是患者预后不良的重要标志。尽管及早识别高风险患者对于启动精准、强效的治疗至关重要,但在患者初次就诊时,仅凭临床表现和基础检查,医生常常难以准确判断眼前的尿路感染是否会进展为血流感染(菌血症)并引发全身性的脓毒症反应。这种不确定性可能导致治疗延误或资源错配。因此,如何利用患者入院初期常规、易获取的临床数据,特别是那些唾手可得的实验室生物标志物,来构建一个可靠、客观的风险分层工具,成为了临床实践中的一个迫切需求。这不仅能辅助临床决策,也可能为理解疾病进展的生物学机制提供线索。针对这一临床痛点,一项发表于《Scientific Reports》的研究应运而生,旨在探索基于机器学习模型和常规生物标志物,早期预测住院尿路感染患者发生菌血症性尿脓毒症的可能性。
为了回答上述问题,研究人员开展了一项回顾性队列研究。核心方法是利用入院0-24小时内获取的常规实验室生物标志物数据,通过随机森林(Random Forest, RF)、极限梯度提升(eXtreme Gradient Boosting, XGBoost)和多元逻辑回归(Logistic Regression, LR)三种算法,构建预测模型。研究纳入了182名培养确诊尿路感染的住院患者,其中89名为培养确诊的菌血症性尿脓毒症(血和尿培养同时阳性),93名为非菌血症性尿路感染作为对照。模型旨在预测患者在后续48-72小时内被微生物培养结果所定义的菌血症结局,这种时间差设计是为了避免信息泄露。模型的区分能力通过在独立测试集上计算受试者工作特征曲线下面积(Area Under the Receiver Operating Characteristic Curve, AUC)及其95%置信区间(Confidence Interval, CI)来评估。关键生物标志物的预测重要性也通过模型进行了排序。
研究结果
常规生物标志物的差异
与无菌血症的尿路感染患者相比,菌血症性尿脓毒症患者表现出显著更高的降钙素原(Procalcitonin, PCT)、C反应蛋白(C-reactive protein, CRP)和白细胞计数(White Blood Cell count, WBC),以及显著更低的血清白蛋白水平(所有比较的p值均<0.05)。这初步揭示了系统性炎症反应和营养/合成功能受损在菌血症状态下的不同表现。
机器学习模型的预测效能
在预留的独立测试集(n=37,其中阳性病例18例)上,三种模型均展现出良好的区分能力。其中,XGBoost模型取得了最高的AUC值,为0.886(95% CI 0.763–0.971)。随机森林(RF)和多元逻辑回归(LR)模型的AUC均为0.822(其95% CI分别为0.665–0.938和0.663–0.935)。尽管XGBoost的AUC数值上高于RF,但通过DeLong检验比较,两者之间的差异未达到统计学显著性(p=0.072)。
关键预测因子
在模型的变量重要性分析中,D-二聚体(D-dimer) consistently被列为最重要的预测因子之一。此外,降钙素原(PCT)和白蛋白(albumin)也 consistently在关键预测因子之列。这表明与凝血/纤溶激活、细菌感染引发的系统反应以及机体营养/炎症状态相关的指标,对于识别菌血症风险具有突出价值。
研究结论与讨论
本研究的主要结论是,利用患者入院24小时内即可获得的常规实验室生物标志物,随机森林和极限梯度提升等机器学习模型能够良好地区分住院尿路感染患者中,哪些会发展为后续经微生物培养确诊的菌血症性尿脓毒症。在本次研究的测试集中,XGBoost模型表现出了优异的区分能力(AUC 0.886)。D-二聚体、降钙素原和白蛋白被识别为预测菌血症性尿脓毒症的关键生物标志物。
这项研究的意义在于,它证明了将常规、廉价的实验室检查数据与现代机器学习算法相结合,有望在疾病早期(甚至在血培养阳性结果回报之前)为临床医生提供一个客观、量化的风险评估工具。这有助于实现更精准的患者分层,可能促使对高风险患者更早地启动强化监测和经验性抗菌治疗,同时避免对低风险患者的过度干预。研究所强调的D-二聚体、PCT和白蛋白等指标,也为了解尿脓毒症,特别是合并菌血症的病理过程(如凝血功能障碍、严重细菌感染、全身炎症反应和消耗状态)提供了可量化的生物学视角。然而,作者也谨慎地指出,由于本研究是单中心回顾性研究,且测试集样本量有限,XGBoost相对于随机森林的优势尚未达到统计显著,因此该模型的普适性和稳健性仍需在未来通过更大规模、多中心的前瞻性研究进行外部验证。尽管如此,这项工作为开发基于真实世界常规数据的临床决策支持系统迈出了有希望的一步,展示了数据驱动方法在改善脓毒症这类急重症早期管理中的潜力。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号