大语言模型赋能EHR跨国预测:GRASP框架突破医疗编码壁垒,实现百万级人群疾病风险迁移学习

《npj Digital Medicine》:Large language models improve transferability of electronic health record-based predictions across countries and coding systems

【字体: 时间:2026年01月24日 来源:npj Digital Medicine 15.1

编辑推荐:

  针对EHR数据跨系统迁移难题,作者提出GRASP框架,用LLM语义嵌入将OMOP/ICD-10-CM概念映射至共享空间,在三国百万队列中预测21病及死亡率,ΔC-index较传统模型提升88%(FinnGen)和47%(Mount Sinai),为无 harmonization 的跨国精准医学提供可扩展方案。

  当医疗AI雄心勃勃地想把算法从伦敦“搬到”赫尔辛基再“空降”纽约,现实却给它泼了一盆冷水:英国医院用SNOMED代码记录“急性上呼吸道感染”,芬兰同事写下“54398005”,而美国诊所甩出“ICD-10-CM J06.9”。编码差异、临床习惯、监管环境千差万别,导致再先进的预测模型也极易“水土不服”。更棘手的是,罕见概念在单中心数据里出现频次极低,传统嵌入方法学无法覆盖,模型一旦遇到“生词”就当场“宕机”。资源不足的中小型医疗系统因此难以共享大中心成果,精准医学的“全球梦”被卡在数据互通的“最后一公里”。
为拆掉这道墙,Kirchler M. 等作者提出GRASP(Generalizable Risk Assessment with Semantic Projection)。思路极简却犀利:让大语言模型(LLM)先读一遍医学概念的“人话”描述,把“高血糖”“hyperglycemia”统统映射到同一语义坐标;随后用轻量级Transformer读取患者病史的向量序列,一次性输出22种健康结局(21种疾病+全因死亡)的风险评分。由于LLM只需在脱敏环境下一次性生成“概念-向量”查表,后续训练与推理完全离线,既保护隐私又省算力。
研究基于英国UK Biobank(391 921人)、芬兰FinnGen(253 991人)和美国Mount Sinai(386 755人)三大真实世界队列,跨越12–26年随访。作者将UKB数据用于训练,在芬兰、美国外部验证,比较对象包括仅知年龄的基线、随机嵌入Transformer以及“表格数据王者”XGBoost。结果堪称“迁移学习高光时刻”:在未做任何微调的情况下,GRASP于FinnGen平均C-index达0.712,较XGBoost提升4.6%;在Mount Sinai亦达0.698,显著优于对照;若用少量美国数据微调,C-index可再升至0.721。更惊喜的是,当测试端改用完全不同的ICD-10-CM编码时,GRASP仍比基线提升0.036,实现“零映射”跨系统预测。小样本场景下,GRASP用1万例训练即可拉开XGBoost 0.1的ΔC-index差距,显示LLM归纳偏置对数据效率的放大效应。作者还用FinnGen的16种多基因风险评分(PRS)做“第三方公证”,证实GRASP对遗传高风险个体的识别力在10/16疾病里显著优于非语义模型,提示语义嵌入捕捉到更深层的疾病易感性线索。
关键技术方法:①利用OpenAI “text-embedding-3-large”把173 526条SNOMED条件、254 010条操作、200万条药品名称转为3072维语义向量,构建离线查表;②构建4层8头Transformer编码器,以64个概念为一批,联合训练22终点Cox损失;③在目标队列仅用年龄+性别+GRASP风险评分重拟Cox,实现跨人群校准;④用UMAP可视化嵌入聚类,解释“物质滥用”概念如何跨语料库协同预测抑郁;⑤对比GatorTron、SapBERT等生医LLM,验证通用模型已足够。
研究结果(保留原文小标题)
GRASP architecture——LLM查表+Transformer联合Cox损失,支持可变长病史输入,避免重复调用LLM。
Cohort characteristics and study design——三国百万人,平均随访6–12年,预测21疾病及死亡,洗出2年基线窗口防泄漏。
GRASP improves transferability across OMOP-mapped datasets——外部验证12/22(FinnGen)和5/22(Mount Sinai)终点显著优于XGBoost,哮喘、慢性肾病、心衰持续领先。
GRASP transfers well across datasets mapped to different data models——无映射OMOP→ICD-10-CM,ΔC-index仍增0.036,仅9终点显著下降,证明跨编码系统“零-shot”可行。
GRASP improves training-efficiency with small sample sizes——1万例训练即显优势,数据越少,提升越大,体现语义先验价值。
Impact of concept-specific text on GRASP performance——增加同义词、本体关系并未进一步增益,概念“人话”名称已足。
Models' calibration——经年龄+性别重校准后,ICI平均0.0013,与对照相当;若直接输出概率则校准下降,强调部署前需再校准。
Understanding how GRASP generalize medical concepts——UMAP显示“opioid abuse”与“opioid dependence”跨队列相邻,频率差异被语义距离抹平。
GRASP semantic embeddings result in a stronger association with polygenic scores——10/16疾病与PRS相关性显著提升,提示语言嵌入捕获可遗传致病机制。
结论与讨论
GRASP用“语义通用语”替代“编码通用语”,首次在大规模跨国队列中验证:LLM嵌入+Transformer可低成本破解EHR异构性,无需昂贵OMOP harmonization即可实现“一次训练,多国服役”。其轻量架构适配离线环境,对低资源地区尤为友好。研究亦指出局限:未利用纵向时序、未纳入低中收入国家、可能继承LLM隐含偏见、校准仍需本地化。未来若融入时序Transformer、自由文本及实验室值,GRASP有望升级为更全能的“全球数字健康通行证”。论文2026年1月见刊《npj Digital Medicine》,为医疗AI的“跨国互联互通”写下关键注脚。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号