借力大模型解锁病历“暗数据”:LLM精准提取行动功能状态,赋能老年精准医疗

《Scientific Reports》:Mobility functional status ascertainment in electronic health records using large language models

【字体: 时间:2026年01月24日 来源:Scientific Reports 3.9

编辑推荐:

  面对全球老龄化,行动功能评估是精准医疗关键,但电子健康记录(EHR)中大量非结构化文本难以利用。Mayo Clinic团队以开源Llama 3为核心,开发提示工程策略,在600份跨机构病历中提取并标准化行动功能状态,患者级F1达0.876。研究实现本地可复现、隐私安全,为临床决策与大规模老年研究提供可扩展新工具。

  全球人口正以前所未有的速度“变老”。当“活得久”成为常态,医疗的焦点必须从“救命”转向“好好生活”。行动能力——能否自己下床、走路、出门——直接决定老年人是否会跌倒、住院、失能,甚至影响社交与生命质量。然而,在临床现场,医生关于患者行动限制的观察、患者主诉、康复计划大多散落在电子健康记录(EHR)的自由文本里,像一座未被标引的“暗数据”金矿。传统人工翻病历既昂贵又不可扩展,早期自然语言处理(NLP)系统则在复杂临床语境面前频频“宕机”。如何低成本、高精度地把这些碎片化描述变成可计算的结构化信息,成为精准老年医学的“卡脖子”环节。
为回答这一问题,Mayo Clinic人工智能与信息学系的Xingyi Liu等六位学者把目光投向炙手可热的大语言模型(Large Language Model, LLM)。他们假设:经过巧妙提示的开源LLM无需重训练,就能像资深康复师一样“读懂”病历,自动完成行动功能状态的提取与分类。研究团队从明尼苏达与威斯康星三家医疗机构随机抽取600份临床笔记,覆盖物理治疗(PT)、作业治疗(OT)及普通门诊记录,共3 810个章节。依据世界卫生组织《国际功能、残疾和健康分类》(ICF)框架,作者把纷繁复杂的行动概念收敛为五类:改变与维持身体姿势(Changing and maintaining body position)、搬运与移动物体(Carrying, moving and handling objects)、行走与移动(Walking and moving)、利用交通工具移动(Moving around using transportation)以及未特指行动(Mobility, unspecified)。两位经培训的标注员逐句审读,给出“无障碍”“有障碍”或“未提及”标签,构建金标准。
随后,作者以Meta开源的Llama 3为底座,在本地服务器零温度(temperature=0)部署,确保输出可复现且患者隐私不外泄。他们系统比较了五种提示策略:零样本(zero-shot)、三种少样本(few-shot)示例选择法以及“误差知情提示精炼”(Error-Informed Prompt Refinement)。后者先让模型在训练集“犯错”,人工归纳错因——如把“患者将开始居家运动”误判为行动受限——再把“排除治疗计划语句”等明确规则写回提示词,形成迭代优化。为验证模型能否“举一反三”,团队还进行任务分解:先把“是否提及行动”作为任务一(Mobility Extraction),再把“是否障碍”作为任务二(Impairment Classification),并尝试单模型链式思维与双模型专精两种架构。
结果令人振奋:经过误差精炼的单一提示策略表现最佳,跨机构微平均F1在任务一达0.695(章节级)、0.819(笔记级)、0.876(患者级),任务二进一步提升至0.815、0.849、0.897。若把临床合理但无明确文字依据的推断也算作正确,“放松”标准下患者级F1跃升至0.962与0.948。误差分析显示,约75%错误属于“合理推断”,例如把“右腿疼痛”关联到“行走障碍”,提示LLM已具备一定临床语义联想能力。少样本提示反而因示例过长导致模型“遗忘”定义,未能超越零样本;任务分解亦未带来额外收益,证明“精准提示”比“复杂架构”更划算。跨机构测试证实,即便面对普通门诊稀疏、隐晦的行动描述,模型在分类层面仍保持稳健,展示良好迁移性。
关键技术方法:①跨三家医疗机构收集600份临床笔记,按ICF框架人工标注五类行动功能;②本地部署开源Llama 3,温度设为0保证确定性;③设计零样本、少样本及误差知情提示精炼策略;④采用链式思维与双模型任务分解对比;⑤以bootstrap计算95%置信区间,评估章节—笔记—患者三级F1。
研究结果如下:
2.1 数据分析
三家机构256例患者平均75.6岁,女性占53.5%。57%章节、48%整份笔记未提及行动,提示普通病历信息稀疏;“行走与移动”类最常见,跨机构分布一致。
2.2 零样本基线
零样本已在“行走与移动”取得F1 0.930–0.964,但“交通工具移动”仅0.649–0.755,显示类别差异大。
2.3 少样本与误差精炼对比
随机、K均值、相似度三种少样本多数未超越基线;误差精炼在几乎所有类别与机构显著提升,章节级微平均F1提高约6–9个百分点。
2.4 任务分解与集成
单模型链式思维与双模型专精均未稳定优于基线;与误差精炼集成亦未进一步增益,提示“策略简洁”优于“结构复杂”。
2.5 误差精炼最佳表现
患者级结果:任务一F1 0.876[95%CI 0.858–0.894],任务二F1 0.897[95%CI 0.878–0.917];若计入临床合理推断,分别升至0.962与0.948。
2.6 误差分析
推断错误占75%,多因模型把症状与功能自动关联;10%源于ICF类别重叠(如跌倒归类分歧);10%因治疗计划被误判;3%因LLM不识FOTO、TUG等专用量表;2%因“未特指行动”定义模糊。
2.7 可信度分析
温度=0保证结果可复现;本地部署避免PHI外泄;跨机构提升证实泛化能力;错误边界清晰、无荒诞输出,符合临床安全预期。
结论与讨论指出:本研究首次证明,仅凭提示工程的开源LLM即可在跨机构、跨文档类型场景下,高精度提取并标准化行动功能状态,为EHR“暗数据”点亮一盏明灯。该方法无需昂贵标注与复杂管道,即可直接嵌入临床决策支持:自动识别需康复评估、居家安全访视或辅具配置的高危患者;也可作为特征输入跌倒风险、住院或机构化预测模型,实现大规模纵向监测。未来扩大标注规模、引入轻量级微调、覆盖更多功能域,并开展真实世界前瞻性验证,将进一步提升模型公平性与可解释性。论文发表于《Scientific Reports》,为LLM落地老年精准医疗提供了可信、可复现的范式。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号