借力大模型解锁病历“暗数据”：LLM精准提取行动功能状态，赋能老年精准医疗

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：Mobility functional status ascertainment in electronic health records using large language models

【字体：大中小】 时间：2026年01月24日 来源：Scientific Reports 3.9

编辑推荐：

　　面对全球老龄化，行动功能评估是精准医疗关键，但电子健康记录（EHR）中大量非结构化文本难以利用。Mayo Clinic团队以开源Llama 3为核心，开发提示工程策略，在600份跨机构病历中提取并标准化行动功能状态，患者级F1达0.876。研究实现本地可复现、隐私安全，为临床决策与大规模老年研究提供可扩展新工具。

　　全球人口正以前所未有的速度“变老”。当“活得久”成为常态，医疗的焦点必须从“救命”转向“好好生活”。行动能力——能否自己下床、走路、出门——直接决定老年人是否会跌倒、住院、失能，甚至影响社交与生命质量。然而，在临床现场，医生关于患者行动限制的观察、患者主诉、康复计划大多散落在电子健康记录（EHR）的自由文本里，像一座未被标引的“暗数据”金矿。传统人工翻病历既昂贵又不可扩展，早期自然语言处理（NLP）系统则在复杂临床语境面前频频“宕机”。如何低成本、高精度地把这些碎片化描述变成可计算的结构化信息，成为精准老年医学的“卡脖子”环节。

为回答这一问题，Mayo Clinic人工智能与信息学系的Xingyi Liu等六位学者把目光投向炙手可热的大语言模型（Large Language Model, LLM）。他们假设：经过巧妙提示的开源LLM无需重训练，就能像资深康复师一样“读懂”病历，自动完成行动功能状态的提取与分类。研究团队从明尼苏达与威斯康星三家医疗机构随机抽取600份临床笔记，覆盖物理治疗（PT）、作业治疗（OT）及普通门诊记录，共3 810个章节。依据世界卫生组织《国际功能、残疾和健康分类》（ICF）框架，作者把纷繁复杂的行动概念收敛为五类：改变与维持身体姿势（Changing and maintaining body position）、搬运与移动物体（Carrying, moving and handling objects）、行走与移动（Walking and moving）、利用交通工具移动（Moving around using transportation）以及未特指行动（Mobility, unspecified）。两位经培训的标注员逐句审读，给出“无障碍”“有障碍”或“未提及”标签，构建金标准。

随后，作者以Meta开源的Llama 3为底座，在本地服务器零温度（temperature=0）部署，确保输出可复现且患者隐私不外泄。他们系统比较了五种提示策略：零样本（zero-shot）、三种少样本（few-shot）示例选择法以及“误差知情提示精炼”（Error-Informed Prompt Refinement）。后者先让模型在训练集“犯错”，人工归纳错因——如把“患者将开始居家运动”误判为行动受限——再把“排除治疗计划语句”等明确规则写回提示词，形成迭代优化。为验证模型能否“举一反三”，团队还进行任务分解：先把“是否提及行动”作为任务一（Mobility Extraction），再把“是否障碍”作为任务二（Impairment Classification），并尝试单模型链式思维与双模型专精两种架构。

结果令人振奋：经过误差精炼的单一提示策略表现最佳，跨机构微平均F1在任务一达0.695（章节级）、0.819（笔记级）、0.876（患者级），任务二进一步提升至0.815、0.849、0.897。若把临床合理但无明确文字依据的推断也算作正确，“放松”标准下患者级F1跃升至0.962与0.948。误差分析显示，约75%错误属于“合理推断”，例如把“右腿疼痛”关联到“行走障碍”，提示LLM已具备一定临床语义联想能力。少样本提示反而因示例过长导致模型“遗忘”定义，未能超越零样本；任务分解亦未带来额外收益，证明“精准提示”比“复杂架构”更划算。跨机构测试证实，即便面对普通门诊稀疏、隐晦的行动描述，模型在分类层面仍保持稳健，展示良好迁移性。

关键技术方法：①跨三家医疗机构收集600份临床笔记，按ICF框架人工标注五类行动功能；②本地部署开源Llama 3，温度设为0保证确定性；③设计零样本、少样本及误差知情提示精炼策略；④采用链式思维与双模型任务分解对比；⑤以bootstrap计算95%置信区间，评估章节—笔记—患者三级F1。

研究结果如下：

2.1 数据分析
三家机构256例患者平均75.6岁，女性占53.5%。57%章节、48%整份笔记未提及行动，提示普通病历信息稀疏；“行走与移动”类最常见，跨机构分布一致。

2.2 零样本基线
零样本已在“行走与移动”取得F1 0.930–0.964，但“交通工具移动”仅0.649–0.755，显示类别差异大。

2.3 少样本与误差精炼对比
随机、K均值、相似度三种少样本多数未超越基线；误差精炼在几乎所有类别与机构显著提升，章节级微平均F1提高约6–9个百分点。

2.4 任务分解与集成
单模型链式思维与双模型专精均未稳定优于基线；与误差精炼集成亦未进一步增益，提示“策略简洁”优于“结构复杂”。

2.5 误差精炼最佳表现
患者级结果：任务一F1 0.876[95%CI 0.858–0.894]，任务二F1 0.897[95%CI 0.878–0.917]；若计入临床合理推断，分别升至0.962与0.948。

2.6 误差分析
推断错误占75%，多因模型把症状与功能自动关联；10%源于ICF类别重叠（如跌倒归类分歧）；10%因治疗计划被误判；3%因LLM不识FOTO、TUG等专用量表；2%因“未特指行动”定义模糊。

2.7 可信度分析
温度=0保证结果可复现；本地部署避免PHI外泄；跨机构提升证实泛化能力；错误边界清晰、无荒诞输出，符合临床安全预期。

结论与讨论指出：本研究首次证明，仅凭提示工程的开源LLM即可在跨机构、跨文档类型场景下，高精度提取并标准化行动功能状态，为EHR“暗数据”点亮一盏明灯。该方法无需昂贵标注与复杂管道，即可直接嵌入临床决策支持：自动识别需康复评估、居家安全访视或辅具配置的高危患者；也可作为特征输入跌倒风险、住院或机构化预测模型，实现大规模纵向监测。未来扩大标注规模、引入轻量级微调、覆盖更多功能域，并开展真实世界前瞻性验证，将进一步提升模型公平性与可解释性。论文发表于《Scientific Reports》，为LLM落地老年精准医疗提供了可信、可复现的范式。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号