结缔组织病相关间质性肺病危重症风险预测模型

《SLAS Technology》:Risk Prediction Model for Critical Illness in Connective Tissue Disease-associated Interstitial Lung Disease

【字体: 时间:2026年05月30日 来源:SLAS Technology 3.7

编辑推荐:

  摘要 目的 本研究旨在优化当前识别和预测结缔组织病相关间质性肺病(CTD-ILD)患者危重症风险的方法。 方法 首先,纳入200例确诊为结缔组织病相关间质性肺病(CTD-ILD)的患者,收集其详细的人口学、血清学及影像学数据。其次,基于多变量Logis

  
摘要

目的

本研究旨在优化当前识别和预测结缔组织病相关间质性肺病(CTD-ILD)患者危重症风险的方法。

方法

首先,纳入200例确诊为结缔组织病相关间质性肺病(CTD-ILD)的患者,收集其详细的人口学、血清学及影像学数据。其次,基于多变量Logistic回归和机器学习算法,包括随机森林(RF)与卷积神经网络(CNN),构建危重症风险识别与预测框架,以识别危重症的重要决定因素。最后,采用K折交叉验证和外部验证程序评估各模型的总体性能。基于最优随机森林(RF)模型开展特征消融实验,以验证各核心预测因子的独立贡献。

结果

结果显示,Logistic回归、随机森林(RF)和卷积神经网络(CNN)模型均成功构建并完成验证,其中随机森林(RF)模型表现出最佳总体性能,其准确率为85.7%,曲线下面积(AUC)为0.88,灵敏度为83.5%,特异度为88.2%。消融实验确认各特征均具有独立预测价值,其中移除白细胞介素-6(IL-6)后模型性能下降最为显著。上述指标中,白细胞介素-6(IL-6)的单项AUC值达到0.981。显著风险因素包括患者年龄、C反应蛋白(CRP)水平、影像学蜂窝肺表现,以及动脉血氧分压与吸入氧浓度比值(PaO2/FiO2)。

结论

本研究模型在内部验证和外部验证阶段均表现出令人满意的预测能力和稳定性。随机森林(RF)模型在预测结缔组织病相关间质性肺病(CTD-ILD)患者发生危重症的可能性方面表现优异。
本文发表于《SLAS Technology》,聚焦结缔组织病相关间质性肺病(CTD-ILD)患者危重症早期识别这一临床关键问题。CTD-ILD是结缔组织病(CTD)的重要并发症,常见于系统性红斑狼疮(SLE)、类风湿关节炎(RA)、系统性硬化症(SSc)及多发性肌炎(PM)等疾病。该病经由系统性免疫异常导致肺组织损伤,进一步引起呼吸功能下降并增加死亡风险。由于患者临床表现异质性显著,疾病进展速度和严重程度差异较大,临床上常难以及时完成风险分层与预后评估。现有危重症风险评估方法主要依赖常规临床判断及影像学表现,但单纯依靠这些指标仍可能不足以全面反映疾病活动性和病情演变。已有研究提示,炎症标志物及循环炎性介质在反映病理活动和疾病严重程度方面具有潜在价值,因此有必要整合临床、实验室和影像学多维数据,建立更准确、更稳定的预测工具。

基于上述问题,研究人员围绕CTD-ILD危重症风险构建了预测模型,并比较统计学模型与机器学习模型在该场景中的应用价值。研究以重庆市急救医疗中心2019年1月至2025年1月收治的200例确诊CTD-ILD患者为建模队列,另以重庆大学附属中心医院同期200例符合条件的CTD-ILD患者作为外部验证队列。研究人员收集人口学资料、实验室检测指标、胸部CT特征以及氧合指数等信息,先通过单因素和多因素Logistic回归筛选独立影响因素,再以年龄、C反应蛋白(CRP)、白细胞介素-6(IL-6)、CT蜂窝肺及PaO2/FiO2作为核心特征,分别构建随机森林(RF)模型和卷积神经网络(CNN)模型,并通过5折交叉验证和外部验证评价性能。结果表明,RF模型综合性能最佳,在内部验证中准确率为85.7%,AUC为0.88,灵敏度为83.5%,特异度为88.2%;外部验证中亦保持较好稳定性。研究进一步通过特征消融证实5项核心变量均具有独立预测贡献,其中IL-6的作用最为突出。该研究的重要意义在于,为CTD-ILD危重症早期识别提供了一个基于多维数据的风险分层框架,有助于高危患者的及时干预与治疗优化。

研究所用主要关键技术方法可概括如下:研究采用回顾性临床队列设计,建模队列来源于重庆市急救医疗中心,外部验证队列来源于重庆大学附属中心医院。数据预处理包括缺失值填补、Z-score标准化、PaO2/FiO2归一化、异常值检查及分类变量编码。统计分析先行实施单因素分析与多因素二元Logistic回归,并用方差膨胀因子(VIF)检验共线性。机器学习部分构建RF模型与基于胸部CT图像的CNN模型,通过网格搜索和随机搜索优化超参数,结合5折交叉验证、外部验证及特征消融实验进行模型评估。

以下为论文结果部分的分节解读。

4.1. Initial Demographic and Clinical Characteristics Analysis

研究人员首先比较了危重症组与非危重症组的基线人口学、临床表现、实验室指标及影像学特征。结果显示,两组在年龄、晨僵持续时间、CRP、IL-6、D-二聚体、抗环瓜氨酸肽抗体、红细胞沉降率(ESR)、PaO2/FiO2、蜂窝肺及磨玻璃影等方面存在统计学差异。危重症组年龄更大,炎症反应更强,氧合水平更差,并且蜂窝肺发生比例更高。这一结果说明,危重症CTD-ILD患者在炎症负荷、肺结构损伤和气体交换障碍方面均更为显著,为后续变量筛选和模型建立提供了依据。

4.2. Univariate and multivariate logistic regression analysis

在单因素分析基础上,研究人员将有统计学意义的变量纳入多因素Logistic回归模型。结果进一步确认,年龄、CRP、IL-6、CT蜂窝肺表现和PaO2/FiO2是CTD-ILD进展为危重症的独立影响因素。其中,年龄、CRP、IL-6和蜂窝肺为风险升高相关因素,而PaO2/FiO2与危重症风险呈负相关,即氧合越差,危重症风险越高。该部分结果构成了后续预测模型核心特征选择的统计学基础。

4.3. Feature selection

基于多因素回归结果,研究最终确定5个核心特征进入预测模型,即年龄、CRP、IL-6、CT蜂窝肺和PaO2/FiO2。这一筛选结果表明,模型并未盲目纳入大量变量,而是聚焦于具有独立预测价值且兼具临床可获得性的关键指标,从而增强了模型的可解释性和临床适用性。

4.4. Optimization of the RF model

研究人员对随机森林模型进行了超参数优化,包括增加决策树数量、加深树深度并调整节点分裂和叶节点最小样本数。优化后,RF模型的性能明显提升:准确率由81.50%升至85.70%,AUC由0.82升至0.88,灵敏度由78.30%升至83.50%,特异度由83.10%升至88.20%。该结果表明,经过参数调优后,RF模型对临床表型、实验室指标和影像类别变量构成的多维表型数据具有较强的建模能力。

4.5. Optimization of CNN model

在CNN模型中,研究人员仅使用胸部CT图像数据建模,并对卷积层数、每层滤波器数量、学习率、批量大小及训练轮次进行优化。优化后,CNN模型准确率提升至83.40%,AUC提升至0.85,灵敏度为79.80%,特异度为87.40%。这表明CNN能够从CT图像中提取一定的疾病表征信息,但由于其数据输入仅限影像,且模型结构相对简化,整体预测效能略低于整合多模态临床信息的RF模型。

4.6. Internal and external validation

在5折交叉验证中,优化后的RF模型在各项性能指标上均表现良好;在外部验证中,RF模型准确率为84.5%,AUC为0.87,灵敏度为82.1%,特异度为86.9%,显示出较好的稳定性和泛化能力。研究同时指出,RF模型所筛选出的核心特征与多因素Logistic回归所得独立影响因素完全一致,说明特征选择结果具有稳定性和一致性。此外,与多因素Logistic回归模型相比,RF模型AUC更高,提示其在该预测任务中的辨别能力更强。

4.7. ROC curve analysis of predictive factors

研究人员进一步对单项预测因素和联合模型进行ROC分析。结果显示,RF模型的特征重要性排序为IL-6、PaO2/FiO2、CRP、年龄、CT蜂窝肺。单项指标中,IL-6的AUC最高,达到0.981,提示其对危重症识别具有极高的判别能力;年龄、PaO2/FiO2和CRP也表现出较好的预测效能,而蜂窝肺的单独预测能力相对较弱。特征消融实验进一步证实,移除任一核心特征后模型AUC均下降,其中去除IL-6后下降最明显,说明IL-6对模型整体性能贡献最大;然而其余变量的移除同样会削弱模型表现,支持多因素联合建模的必要性。

在讨论部分,研究人员围绕模型性能、关键预测因子及方法学优势进行了总结。研究认为,RF模型在临床表格型多维数据建模中具有优势,经过超参数优化后,其准确率、AUC、灵敏度和特异度均得到改善,且在外部验证中保持稳定。相比之下,CNN模型虽在图像特征提取方面具备潜力,但在本研究中因仅基于CT图像、结构较简化且缺乏诸如Grad-CAM等可视化解释方法,其综合表现和可解释性均不及RF模型。研究还指出,年龄增长、CRP升高、IL-6升高、CT蜂窝肺存在以及PaO2/FiO2下降均与危重症风险升高密切相关。特别是IL-6,不仅在单因素ROC中具有最高AUC,而且在消融实验中表现出最大贡献,提示其可能是危重症风险评估中的关键生物标志物。研究同时强调,联合模型虽未超过IL-6单指标AUC峰值,但在临床应用中更具泛化能力和稳定性,可减少对单一生物标志物的依赖,降低因单项指标波动导致误判的风险。论文也如实指出局限性,包括样本量相对较小、验证策略尚不够严格、CNN模型可解释性不足以及临床转化细节欠缺等。

研究结论部分可译为:本研究成功构建并优化了CTD-ILD危重症风险预测模型,可明确实现高危患者的早期识别与分层。结果证实,年龄、CRP、IL-6、CT蜂窝肺以及PaO2/FiO2是CTD-ILD进展为危重症的5项核心独立预测因子,其中IL-6的预测价值最为突出。随机森林(RF)模型更适用于临床表格型多维数据,其预测性能和稳定性均优于仅基于影像的卷积神经网络(CNN)模型,因此可用于临床实践中CTD-ILD患者危重症的早期风险分层,为及时干预和治疗优化提供可靠依据。研究同时存在样本量较小、验证策略不够严格、CNN模型可解释性较差及缺乏临床转化细节等局限,未来仍需扩大多中心样本、采用更严格的验证方法、提升模型可解释性,并结合个体化诊疗进一步推动该预测模型的临床应用。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号