基于多标准算法构建印第安纳州数字肝硬化队列以精准识别肝病及其并发症

《Scientific Reports》:Accurately identifying cirrhosis and its complications to create the novel statewide Indiana digital cirrhosis registry

【字体: 时间:2026年02月22日 来源:Scientific Reports 3.9

编辑推荐:

  本研究旨在解决利用行政管理数据集进行肝硬化研究时,因识别准确性不足而受限的问题。研究人员开发并验证了多套算法,旨在从真实世界的州级数据中精准识别肝硬化及其并发症。研究利用2017至2020年印第安纳州患者护理网络的数据,结合代码与实验室标准进行病例分组与验证。结果表明,综合使用肝硬化代码、FIB-4/APRI标准和并发症代码的“AX”算法(如ACD)具有极高的阳性预测值(PPV),成功构建了州级数字肝硬化队列,为肝硬化全阶段研究提供了高质量的数据支持。

  
肝硬化是一种严重的慢性肝病终末阶段,准确识别患者群体对于公共卫生监测、临床研究和资源分配至关重要。然而,在现实世界中,依赖单一的诊断代码或行政管理数据来“大海捞针”往往不尽如人意。传统的识别方法,尤其是仅使用国际疾病分类(ICD)代码,存在敏感性或特异性不足的问题,可能导致漏诊或误诊,影响研究结论的可靠性和医疗决策的精准性。例如,仅凭代码可能难以区分代偿期肝硬化和失代偿期肝硬化,也无法有效捕捉如肝性脑病(Hepatic Encephalopathy, HE)、腹水等关键并发症。因此,开发一套能够在庞大、复杂的真实世界数据中,高精度锁定肝硬化患者及其具体病况的“组合算法”,成为一项迫切的研究需求。
为了攻克这一难题,来自印第安纳大学医学院等机构的研究团队开展了一项雄心勃勃的研究。他们决心开发并验证一套全新的算法,旨在像一位经验丰富的侦探,综合利用多种线索——包括诊断代码、实验室生物标志物和并发症记录——来更准确地在海量医疗数据中识别肝硬化病例。这项研究最终形成论文《Accurately identifying cirrhosis and its complications to create the novel statewide Indiana digital cirrhosis registry》,并发表在《Scientific Reports》期刊上。该研究不仅提出了一套高效的识别工具,更以此为基础,创建了首个覆盖印第安纳州全境的数字肝硬化队列,为未来的肝病研究铺设了一条高质量的数据高速公路。
为了开展这项研究,研究人员主要运用了以下几种关键技术方法:首先,他们利用2017年至2020年印第安纳患者护理网络(Indiana Patient Care Network)这一全州范围的真实世界行政管理数据集作为研究基础。其次,他们设计了基于诊断代码和实验室指标的多标准病例识别算法,核心包括使用肝硬化相关ICD代码、基于天冬氨酸氨基转移酶(AST)、血小板计数、丙氨酸氨基转移酶(ALT)计算的FIB-4和APRI评分阈值、以及肝硬化并发症(如腹水、肝性脑病)的特定代码。第三,研究通过人工图表审查(Chart Review)对算法识别出的病例进行诊断确认,以此作为金标准来计算不同算法组合的阳性预测值(Positive Predictive Value, PPV)。最后,研究团队在独立的外部队列——一个肝病专科诊所队列和一个急诊科基础的肝硬化患者队列——中对构建的算法进行了验证,以评估其普遍适用性。
研究结果
算法开发与内部验证:研究从包含1,563,636条记录的数据集中,根据肝硬化代码(A组)、FIB-4/APRI标准(B组)、肝硬化并发症代码(C组)以及肝病相关代码/实验室指标(D组)的不同组合,对病例进行分组。通过对其中4.5%的记录进行图表审查确认后发现,仅满足A组(单一肝硬化代码)标准的阳性预测值(PPV)有限。然而,当采用“AX”算法(即满足A组标准并同时满足至少一个其他组别标准,例如AB、AC、ABC等组合)时,总体PPV达到了86%。其中,结合了肝硬化代码、并发症代码及肝病代码/实验室指标的ACD组合,以及在此基础上再加入FIB-4/APRI标准的ABCD组合,表现出了最高的识别精度,PPV分别达到88%和97%。
外部验证:在肝病专科诊所队列(n = 1,039)中,ACD和ABCD算法的PPV分别为88%和97%,证实了其在高风险人群中的优异表现。在更具挑战性的急诊科基础肝硬化队列(n = 2,124)中,这两个算法的PPV也分别达到了79%和93%,显示出良好的稳健性。值得注意的是,即使在不包含并发症代码(C组)的情况下,ABD算法(肝硬化代码 + FIB-4/APRI + 肝病代码/实验室指标)也展现了强大的性能,在内部、肝病诊所和急诊科队列中的PPV分别为86%、92%和72%。
并发症特异性识别:研究特别评估了单独使用ICD-10代码识别肝硬化并发症的效果,结果发现其PPV普遍欠佳:识别腹水的PPV为57%,识别肝性脑病(HE)的PPV仅为55%。为了提高HE的识别率,研究人员尝试在代码基础上加入相关药物治疗记录,虽然PPV有所提升,但仍然低于80%,提示仅凭行政管理数据精准识别特定并发症存在固有挑战。
结论与讨论
本研究成功开发并经过严格内外部验证了一套高效的多标准算法,用于在真实世界行政管理数据中准确识别肝硬化患者,特别是能够区分代偿期与失代偿期(伴有并发症)肝硬化。核心结论是,综合使用诊断代码、非侵入性肝纤维化血清学指标(如FIB-4、APRI)以及并发症信息,可以显著提高病例识别的阳性预测值。其中,“AX”算法框架(特别是ACD和ABCD组合)被证明是构建高质量研究队列的可靠工具。
基于这一高效的“AX”算法,研究团队创建了覆盖印第安纳州全境的“印第安纳数字肝硬化队列”。这一成果的重要意义在于:第一,它为解决长期以来困扰肝硬化流行病学和结局研究的“数据质量瓶颈”提供了切实可行的方案,使利用大规模真实世界数据进行可靠研究成为可能。第二,该队列本身作为一个精心构建的资源,能够支持未来跨越肝硬化不同阶段(从代偿到失代偿)的各类研究,包括疾病自然史、治疗有效性比较、健康经济学评估等。第三,研究揭示了单独依赖诊断代码识别并发症的局限性,为未来开发更精细化的并发症识别算法指明了方向。总之,这项工作不仅是一项方法学创新,更是一项重要的基础设施建设工程,为提升肝硬化研究的整体水平和改善患者预后奠定了坚实的数据基石。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号