大语言模型赋能EHR跨国预测：GRASP框架突破医疗编码壁垒，实现百万级人群疾病风险迁移学习

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《npj Digital Medicine》：Large language models improve transferability of electronic health record-based predictions across countries and coding systems

【字体：大中小】 时间：2026年01月24日 来源：npj Digital Medicine 15.1

编辑推荐：

　　针对EHR数据跨系统迁移难题，作者提出GRASP框架，用LLM语义嵌入将OMOP/ICD-10-CM概念映射至共享空间，在三国百万队列中预测21病及死亡率，ΔC-index较传统模型提升88%（FinnGen）和47%（Mount Sinai），为无 harmonization 的跨国精准医学提供可扩展方案。

　　当医疗AI雄心勃勃地想把算法从伦敦“搬到”赫尔辛基再“空降”纽约，现实却给它泼了一盆冷水：英国医院用SNOMED代码记录“急性上呼吸道感染”，芬兰同事写下“54398005”，而美国诊所甩出“ICD-10-CM J06.9”。编码差异、临床习惯、监管环境千差万别，导致再先进的预测模型也极易“水土不服”。更棘手的是，罕见概念在单中心数据里出现频次极低，传统嵌入方法学无法覆盖，模型一旦遇到“生词”就当场“宕机”。资源不足的中小型医疗系统因此难以共享大中心成果，精准医学的“全球梦”被卡在数据互通的“最后一公里”。

为拆掉这道墙，Kirchler M. 等作者提出GRASP（Generalizable Risk Assessment with Semantic Projection）。思路极简却犀利：让大语言模型（LLM）先读一遍医学概念的“人话”描述，把“高血糖”“hyperglycemia”统统映射到同一语义坐标；随后用轻量级Transformer读取患者病史的向量序列，一次性输出22种健康结局（21种疾病+全因死亡）的风险评分。由于LLM只需在脱敏环境下一次性生成“概念-向量”查表，后续训练与推理完全离线，既保护隐私又省算力。

研究基于英国UK Biobank（391 921人）、芬兰FinnGen（253 991人）和美国Mount Sinai（386 755人）三大真实世界队列，跨越12–26年随访。作者将UKB数据用于训练，在芬兰、美国外部验证，比较对象包括仅知年龄的基线、随机嵌入Transformer以及“表格数据王者”XGBoost。结果堪称“迁移学习高光时刻”：在未做任何微调的情况下，GRASP于FinnGen平均C-index达0.712，较XGBoost提升4.6%；在Mount Sinai亦达0.698，显著优于对照；若用少量美国数据微调，C-index可再升至0.721。更惊喜的是，当测试端改用完全不同的ICD-10-CM编码时，GRASP仍比基线提升0.036，实现“零映射”跨系统预测。小样本场景下，GRASP用1万例训练即可拉开XGBoost 0.1的ΔC-index差距，显示LLM归纳偏置对数据效率的放大效应。作者还用FinnGen的16种多基因风险评分（PRS）做“第三方公证”，证实GRASP对遗传高风险个体的识别力在10/16疾病里显著优于非语义模型，提示语义嵌入捕捉到更深层的疾病易感性线索。

关键技术方法：①利用OpenAI “text-embedding-3-large”把173 526条SNOMED条件、254 010条操作、200万条药品名称转为3072维语义向量，构建离线查表；②构建4层8头Transformer编码器，以64个概念为一批，联合训练22终点Cox损失；③在目标队列仅用年龄+性别+GRASP风险评分重拟Cox，实现跨人群校准；④用UMAP可视化嵌入聚类，解释“物质滥用”概念如何跨语料库协同预测抑郁；⑤对比GatorTron、SapBERT等生医LLM，验证通用模型已足够。

研究结果（保留原文小标题）
GRASP architecture——LLM查表+Transformer联合Cox损失，支持可变长病史输入，避免重复调用LLM。
Cohort characteristics and study design——三国百万人，平均随访6–12年，预测21疾病及死亡，洗出2年基线窗口防泄漏。
GRASP improves transferability across OMOP-mapped datasets——外部验证12/22（FinnGen）和5/22（Mount Sinai）终点显著优于XGBoost，哮喘、慢性肾病、心衰持续领先。
GRASP transfers well across datasets mapped to different data models——无映射OMOP→ICD-10-CM，ΔC-index仍增0.036，仅9终点显著下降，证明跨编码系统“零-shot”可行。
GRASP improves training-efficiency with small sample sizes——1万例训练即显优势，数据越少，提升越大，体现语义先验价值。
Impact of concept-specific text on GRASP performance——增加同义词、本体关系并未进一步增益，概念“人话”名称已足。
Models' calibration——经年龄+性别重校准后，ICI平均0.0013，与对照相当；若直接输出概率则校准下降，强调部署前需再校准。
Understanding how GRASP generalize medical concepts——UMAP显示“opioid abuse”与“opioid dependence”跨队列相邻，频率差异被语义距离抹平。
GRASP semantic embeddings result in a stronger association with polygenic scores——10/16疾病与PRS相关性显著提升，提示语言嵌入捕获可遗传致病机制。

结论与讨论
GRASP用“语义通用语”替代“编码通用语”，首次在大规模跨国队列中验证：LLM嵌入+Transformer可低成本破解EHR异构性，无需昂贵OMOP harmonization即可实现“一次训练，多国服役”。其轻量架构适配离线环境，对低资源地区尤为友好。研究亦指出局限：未利用纵向时序、未纳入低中收入国家、可能继承LLM隐含偏见、校准仍需本地化。未来若融入时序Transformer、自由文本及实验室值，GRASP有望升级为更全能的“全球数字健康通行证”。论文2026年1月见刊《npj Digital Medicine》，为医疗AI的“跨国互联互通”写下关键注脚。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号