利用大型语言模型和句子变换器将临床叙述与结构化表型联系起来

《Journal of Genetics and Genomics》:Bridging clinical narratives and structured phenotypes with large language models and sentence transformers

【字体: 时间:2026年02月16日 来源:Journal of Genetics and Genomics 7.1

编辑推荐:

  LEAP框架通过LLM提取表型短语并利用SBERT映射为HPO术语,显著提升电子病历中表型自动化提取的准确性和可靠性。

  
Jihao Cai|Guozhuang Li|Yongxin Yang|Kexin Xu|Sen Zhao|Timothy Hospedales|Lina Zhao|Jianle Yang|Zhihong Wu|Terry Jianguo Zhang|Zefu Chen|Nan Wu
中国医学科学院北京协和医院复杂严重与罕见疾病国家重点实验室骨科外科,北京 100730

摘要

结构化的表型对于孟德尔遗传病的诊断、基因-表型关联研究以及标准化表型数据共享至关重要。尽管电子健康记录中包含大量的表型信息,但其中大部分都是非结构化的。早期的自动化表型分析方法基于规则,这限制了它们捕捉语义变异性和上下文信息的能力。最近的深度学习方法,包括基于BERT的模型和大型语言模型(LLMs),虽然提高了语义理解能力,但仍面临一些关键限制。基于BERT的方法受到有限上下文窗口的限制,需要将长临床文本分割和聚合;而直接生成人类表型本体(HPO)标识符的LLMs可能会产生不存在的标识符。为了解决这些问题,我们提出了LEAP(LLM增强型自动化表型分析),这是一个两阶段框架,它将LLM用于自由文本表型提取,并结合了一个在包含5,330,557个HPO实例的大规模数据集上微调的句子转换器模型进行HPO映射。该设计能够处理长输入,同时确保生成有效且确定的HPO标识符。在真实世界的电子健康记录(EHR)测试集上,与现有工具相比,LEAP在精确度方面提高了19.68%–412.68%,在F1分数方面提高了44.14%–298.77%,同时在外部基准测试中也保持了稳定的性能。LEAP可以与基因优先级工具集成,为下游分析提供标准化的表型输入。LEAP的更多信息可在phenogemini.org/extract获取。

引言

结构化的表型在孟德尔遗传病的诊断、基因-表型关联研究以及表型数据的标准化和共享中起着至关重要的作用(Posey等人,2017;Havrilla等人,2022;Gargano等人,2024)。在临床实践中,电子健康记录(EHRs)是表型数据的主要来源。先前的研究表明,高达80%的最有价值的临床信息嵌入在非结构化的叙述文本中,例如医生笔记和出院总结中(Kong,2019)。 通常,手动病历审查需要将临床信息转换为人类表型本体(HPO)术语,这是计算编码深度表型数据的标准(Gargano等人,2024)。然而,这一过程既费时又费力。为了解决这个问题,研究人员开发了多种自动化表型分析工具,将这些非结构化文本映射到HPO术语。 这些方法大致可以分为两类。基于规则的方法,如ClinPhen(Deisseroth等人,2019)、Doc2Hpo(Liu等人,2019)和FastHPOCR(Groza等人,2024),它们速度快但对输入长度不敏感,但依赖于预定义的词汇表,因此无法涵盖所有可能的临床表型表达,包括以前未见过的术语和语义变体。基于深度学习的方法包括基于双向编码器表示(BERT)的模型(Devlin等人,2018),如PhenoBERT(Feng等人,2023)和PhenoTagger(Luo等人,2021),以及基于大型语言模型(LLMs)的方法,如PhenoGPT(Yang等人,2024)和RAG-HPO(Garcia等人,2025),还有基于卷积神经网络(CNN)的模型,如NeuralCR(Arbabi等人,2019)。基于BERT的HPO提取器具有强大的上下文理解能力,并且参数规模相对较小,使得推理和微调在计算上高效。然而,它们的小输入窗口在处理长临床文本时需要文本分割或其他策略。相比之下,LLMs具有更强的语义理解能力和更大的输入窗口,但由于参数规模较大,全参数微调在计算和数据需求上较高。在生成唯一且精确对应于特定实体(如HPO标识符)的标识符时,LLMs经常会产生错误或不存在的标识符。这反映了LLM架构的一个固有局限性:LLMs通过概率扩展观察到的模式来生成标识符,而不是检索真实的条目,因此由于训练目标和分词限制,它们在唯一性和事实准确性方面容易出错。 在这里,我们介绍了LEAP(LLM增强型自动化表型分析),这是一个两阶段框架,它将从临床文本中提取HPO术语的任务分解为两个子任务:表型短语提取和HPO映射,分别由LLM和一个经过高度优化、在大规模数据集上微调的句子转换器(SBERT)模型处理(Reimers和Gurevych,2019)。这种设计能够处理长输入,同时确保生成有效且确定的HPO输出。LEAP显著提高了表型识别的准确性和可靠性,同时保护了患者隐私,并展示了强大的临床实用性,为社区提供了一个低成本、低幻觉的表型分析工具,充分利用了LLMs的优势。

LEAP概述

LEAP概述

LEAP将从电子健康记录(EHRs)中识别HPO实体的任务分解为两个子任务:表型短语提取和表型短语到HPO实体的映射。首先,LEAP利用LLMs(默认使用OpenAI提供的GPT-4o模型)从EHRs中提取有效的表型短语。然后,它使用一个经过微调的SBERT模型为这些表型短语计算嵌入向量,并使用余弦相似度将这些嵌入向量与预先计算出的HPO实体嵌入进行比较。根据比较结果对HPO实体进行排序。

讨论

在这项研究中,我们介绍并验证了LEAP,这是一个两阶段框架,显著提高了从非结构化EHR文本中自动提取表型的能力。我们的结果表明,通过结合LLMs在表型短语提取方面的上下文理解能力和SBERT的专门映射能力,LEAP实现了先进的性能。此外,我们还验证了其在下游基因优先级任务中的临床实用性。

数据集准备

训练集(5,330,557个实例)包含三个部分:57,036个数据对,包括从HPO数据库(hp/releases/2024-07-01)获取的HPO名称、定义和同义词;1,069,534个数据对,包括来自医学主题词(MeSH)数据库(v2024)的概念名称、定义和同义词;以及4,203,987个数据对,来自统一医学语言系统(UMLS)数据库(2024AB)的概念名称、定义和同义词(Bodenreider,2004)。

未引用的参考文献

DeepSeek-AI等人,2025年。

伦理声明

本研究遵循赫尔辛基宣言进行,研究方案已由北京协和医院伦理委员会审查并批准(批准编号I-23PJ008)。所有患者均书面同意在研究中使用他们的电子健康记录。

数据可用性

训练集、验证集、去标识化的真实世界测试集、重现结果的代码、基准测试结果以及LEAP源代码均已存放在由中国国家生物信息中心(CNCB)管理的BioCode数据库中(https://ngdc.cncb.ac.cn/biocode/)。分配的访问ID为BT008014。本研究中使用的工具和公开可用的数据集在材料和方法部分中有详细描述。

代码可用性

LEAP软件可通过基于Web的界面在https://phenogemini.org/extract获取。源代码和附带文档托管在GitHub上(https://github.com/Marker0707/LEAP),并已永久存档在Zenodo上(http://dx.doi.org/10.5281/zenodo.18311025)。

作者贡献声明

Jihao Cai, Guozhuang Li:概念化、数据管理、形式分析、调查、软件开发、验证、可视化、撰写-原始草案 Kexin Xu, Lina Zhao, Jianle Yang:数据管理、调查、验证、撰写-审阅与编辑 Yongxin Yang, Sen Zhao, Timothy Hospedales:方法论、撰写-审阅与编辑 Zhihong Wu, Terry Jianguo Zhang, Zefu Chen, Nan Wu:概念化、资源获取、项目管理、监督、撰写-审阅与编辑

利益冲突

作者声明没有利益冲突。

致谢

我们感谢Ran Fan提供计算资源。本研究是“Deciphering Disorders Involving Scoliosis and COmorbidities (DISCO)”研究小组的一部分。本研究部分由国家关键研发计划(2023YFC2507700,资助给T.J.Z.和N.W.);国家自然科学基金(82572698,资助给T.J.Z.;82402889,资助给Z.C.;82402760,资助给L.Z.);以及国家级高水平医院临床研究基金(2025-PUMCH-C-003,资助给T.J.Z.;2022-PUMCH-C-033,资助给N.W.)资助。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号