基于通用机器学习算法开发和验证间质性肺病队列识别模型：一项回顾性队列研究

《eClinicalMedicine》：Development and validation of a generalisable machine learning algorithm for identifying interstitial lung disease cohorts: a retrospective cohort study

【字体：大中小】 时间：2026年02月22日 来源：eClinicalMedicine 10

编辑推荐：

　　本文介绍了一项针对间质性肺病（ILD）队列识别的研究。为解决基于诊断代码的规则方法准确率不高的问题，研究人员开发并验证了一个基于机器学习（ML）的通用ILD分类器。该模型在三个独立站点进行外部验证，其阳性预测值（PPV）、敏感性和ROC-AUC均优于传统规则方法。这项研究为利用电子健康记录（EHR）数据进行大规模、准确的ILD流行病学和临床研究提供了可推广的工具。

在医学研究的世界里，寻找合适的病人是开展任何一项研究的关键第一步，尤其对于那些像间质性肺病（Interstitial Lung Disease, ILD）这样的罕见病而言，寻找病人更是如同大海捞针。间质性肺病是一大类肺部疾病的总称，患者的肺部组织会逐渐出现炎症和瘢痕（纤维化），导致呼吸困难，严重影响生活质量。为了研究这种疾病，流行病学家、临床研究者都需要从海量的医疗记录中找出那些确诊或可能患有ILD的患者，构建“队列”（cohort），才能展开后续的分析、观察或临床试验。

然而，传统的找病人方法要么是依靠人工手动翻阅病历，费时费力且难以大规模应用；要么是依赖于简单的“规则”——比如在电子健康记录（Electronic Health Record, EHR）系统中，只要病人有特定的疾病诊断代码，就认为他有ILD。但问题在于，诊断代码在现实中使用得并不准确和一致，有的医生可能用代码A代表ILD，有的可能用代码B，或者干脆用代码来表示“疑似”，这导致基于规则的自动化识别方法，要么会把很多没有ILD的人误判为有（即“假阳性”高，阳性预测值Positive Predictive Value, PPV低），要么会漏掉很多真正的ILD患者（即“假阴性”高，敏感性sensitivity低）。这种不准确的识别，成了ILD乃至许多罕见病研究的一大瓶颈。

为了解决这个难题，一群来自加州大学的研究人员决定利用人工智能（Artificial Intelligence, AI）的力量。他们想知道：能否开发一种基于机器学习的算法，不仅利用诊断代码，还整合病人其他的医疗信息，如化验结果、用药记录、检查项目、人口统计信息等，从而更准确、更可靠地识别出ILD患者？更重要的是，这个算法能否被设计成“通用”的，即不依赖于某个特定医院的电子病历系统，可以在不同的医疗机构直接使用，从而实现大规模、多中心的ILD研究？

为了回答这些问题，研究人员Erica Farrand、Augustine Chung、Jisha Joshua、Huawei Dong、Hunter Mills、Albert Lee、Martin Ieong、Lakshmi Radhakrishnan、Oksana Gologorskaya和Atul Butte开展了一项大规模的回顾性队列研究。他们的目标是开发和验证一个“通用ILD分类器”（Universal ILD Classifier）。这项研究最终发表在了医学期刊《eClinicalMedicine》上。

研究人员主要运用了几个关键技术方法。他们利用了美国加州大学系统的医疗数据仓库，该仓库整合了六家学术医疗中心从2012年至2025年的去标识化电子健康记录数据。研究队列包括18岁以上、至少有5次医疗记录接触的成人患者。他们开发的核心模型基于梯度提升树（Gradient Boosting Tree, GBT）算法。为了使模型能够跨机构通用，研究团队将模型算法转换并适配到了观察性医疗结果合作组织通用数据模型（Observational Medical Outcomes Partnership Common Data Model, OMOP CDM）上，这是一个标准化的医疗数据组织和词汇格式。研究的主要结局指标是算法性能，通过阳性预测值、敏感性、F1-分数和受试者工作特征曲线下面积（Receiver Operating Characteristic – Area Under the Curve, ROC-AUC）来评估，并与两种广泛使用的基于规则的ILD识别方法进行了比较。

研究结果

内部算法开发和验证

研究人员首先在加州大学旧金山分校的数据集上开发了ILD分类算法。他们从超过203，976名患者的训练数据出发，构建模型。为了确保模型的可解释性和稳健性，他们通过临床专家评审和方差分析（ANOVA）从3229个变量中筛选出334个与ILD有临床或生物学合理性的特征。采用梯度提升树模型后，在内部测试中，模型的性能表现优异。随后，为了让模型能跨机构运行，他们将其转换为基于OMOP CDM的“通用ILD分类器”。在加州大学旧金山分校的内部验证中，该通用分类器表现出与之前模型相当的性能，ROC-AUC高达0.95，表明其具有强大的区分ILD患者与非患者的能力。

外部模型验证

为了检验模型的通用性，研究人员将“通用ILD分类器”应用到加州大学尔湾分校、洛杉矶分校和圣地亚哥分校三个独立机构的数据集上，总共涵盖了近250万符合条件的成年患者。在每个验证点，他们随机抽取了250名患者（基于预测概率的分位数抽样）由ILD专家进行盲法图表审查以确认是否真正患有ILD。结果显示，该分类器在三个外部验证点均表现稳定且出色，平均PPV为0.67，敏感性高达0.97，F1分数为0.79，ROC-AUC更是达到了0.96。这些数据证明了该模型在不同医疗系统中都具有良好的准确性和稳健的推广能力。

与规则基方法的比较分析

研究的关键环节是将“通用ILD分类器”与两种常用的基于国际疾病分类（International Classification of Diseases, ICD）诊断和操作代码的规则方法进行头对头比较。规则方法1（高敏感性定义）要求患者至少有一个ILD诊断代码；规则方法2（高PPV定义）要求患者至少有两个间隔30天以上的ILD诊断代码以及一个胸部计算机断层扫描（CT）操作代码。在同样的专家标注验证集上比较后发现，“通用ILD分类器”在各项指标上均优于或与最优的规则方法持平，特别是在平衡PPV和敏感性方面表现最佳（PPV: 0.67 vs. 0.55和0.67；敏感性: 0.97 vs. 0.98和0.59；F1分数: 0.79 vs. 0.71和0.63；ROC-AUC: 0.96 vs. 0.80和0.73）。进一步的统计分析（McNemar检验和Kolmogorov–Smirnov检验）表明，机器学习分类器的误分类率显著低于两种规则方法，并且其误分类的模式也与规则方法存在系统性差异。这说明规则方法由于过度依赖不稳定的诊断代码，其错误是随机且难以预测的，而机器学习模型通过整合多维特征，其错误模式更具规律性，为未来模型优化指明了方向。

研究结论与讨论

这项研究成功开发并验证了首个基于通用数据模型、经过多中心外部验证的机器学习算法——“通用ILD分类器”，用于从常规电子健康记录中识别间质性肺病患者。研究结论明确指出，该算法在识别准确性、稳健性和通用性方面均显著优于目前广泛使用的、单纯依赖诊断代码的规则方法。

研究的重要意义体现在多个层面。首先，它解决了ILD研究中的一个关键瓶颈问题，即如何从庞大的真实世界数据中准确、高效地构建患者队列。通过利用高维度的、常规收集的EHR数据（包括诊断、操作、实验室、用药和人口统计信息），机器学习模型克服了诊断代码不一致所带来的局限性。其次，该研究的核心创新在于其“通用性”。通过将算法建立在OMOP CDM之上，使得该工具与特定的电子病历系统解耦，成为一个“电子健康记录系统无关”的解决方案。这意味着其他医疗机构无需进行大量的本地化重新编程工作，即可部署使用该分类器，极大地促进了多中心、大规模协作研究的开展。

此外，研究采用的梯度提升树模型本身具有一定的可解释性，符合可解释人工智能（Explainable AI）的原则，这有助于增加临床医生和研究者对模型预测结果的信任。尽管当前模型仅使用了结构化数据，为在资源有限的机构中推广提供了便利，但研究也展望了未来整合非结构化数据（如临床文本笔记）以进一步提升模型性能的潜力。

讨论部分也客观指出了研究的局限性。例如，验证仅在学术医疗中心进行，在非学术医疗机构中的表现有待进一步评估；模型依赖于数据的完整性和一致性，不同机构间EHR数据采集的差异可能影响性能；排除了医疗接触少于5次的个体，可能遗漏了部分医疗服务利用不足的患者群体。然而，这些并未削弱本研究的主要贡献。

总之，这项研究展示了机器学习在罕见病研究中的巨大潜力。它不仅为ILD的流行病学调查、真实世界证据生成、临床试验招募等提供了强大、可靠且可扩展的新工具，更重要的是，它建立了一个标准化、可推广的算法开发范式。这一范式可以扩展到其他罕见呼吸系统疾病乃至更广泛的疾病领域，助力研究人员更充分地挖掘电子健康记录这座“数据金矿”，最终推动对复杂疾病的理解、诊断和治疗，改善患者预后。该研究标志着在利用人工智能促进精准医学和真实世界研究方面迈出了坚实的一步。

热点排行

新闻专题