患者病历自动化审查：用于大规模识别散发非动脉炎性前部缺血性视神经病变(incident NAION)的隐私保护大语言模型(LLM)应用

《Ophthalmology Science》：Automated Review of Patient Records: Privacy-Preserving LLMs for identifying incident NAION at Scale

【字体：大中小】 时间：2026年06月06日 来源：Ophthalmology Science 4.6

编辑推荐：

　　目的(Purpose)：回顾性识别急性非动脉炎性前部缺血性视神经病变(non-arteritic anterior ischemic optic neuropathy, NAION)病例对于危险因素研究至关重要。然而依赖国际疾病分类第十版(ICD-10)编码进

目的(Purpose)：回顾性识别急性非动脉炎性前部缺血性视神经病变(non-arteritic anterior ischemic optic neuropathy, NAION)病例对于危险因素研究至关重要。然而依赖国际疾病分类第十版(ICD-10)编码进行病例识别准确性有限，而人工审阅纵向电子健康记录(longitudinal electronic health records, L-EHR)耗时费力。本研究旨在评估使用保护患者隐私的大语言模型(large language models, LLMs)，基于非结构化眼科记录自动回顾性识别急性NAION病例的方法。设计(Design)：回顾性横断面研究(retrospective cross-sectional study)。研究对象(Subjects)：某学术医学中心电子健康记录中至少含1条前部缺血性视神经病变(ischemic optic neuropathy, ION, H47.01*) ICD-10编码的165例患者。方法(Methods)：研究人员使用5种本地部署LLM模型(Mistral Small 3.1、Magistral Small、Gemma3、MedGemma、GPT-OSS 20B)，采用四种方法对非结构化眼科记录进行急性NAION诊断分类——基础提示(basic prompting)、检索增强生成(retrieval-augmented generation, RAG)、两步代理工作流(two-step agentic workflow)和三步代理工作流(three-step agentic workflow)。10%受试者用于提示词优化。将LLM/方法的诊断分类与神经眼科学家基于病历复习的专家诊断进行比较。主要结局指标(Main outcome measures)：以专家病历复习诊断为金标准，评估LLM方法识别急性NAION的阳性预测值(positive predictive value, PPV)。次要结局包括阴性预测值(negative predictive value, NPV)、灵敏度(sensitivity)、特异度(specificity)、准确度(accuracy)、F1分数及LLM/方法分类分布。结果(Results)：专家复查显示提示词优化组17人中有7例(41.2%)、测试组148人中有58例(39.2%)为急性NAION；≥1条ION ICD-10编码的PPV仅为0.39。LLM方法在测试集中平均正确识别20±12例急性NAION，平均PPV为0.78±0.16，平均准确度为0.69±0.06。Mistral模型采用三步代理法表现最佳(识别39例，PPV 0.85，准确度0.82，F1分数0.75)。结论(Conclusions)：隐私保护的代理大语言模型方法，基于非结构化眼科纵向电子健康记录识别急性NAION可获得较高阳性预测值，优于结构化ICD编码识别效果，为回顾性研究提供可扩展、高效且保持患者保密性及本地数据控制的病例识别方法，可提升NAION危险因素研究效率与准确性，并有望推广至其他需复杂诊断复核的疾病。

论文解读：患者病历自动化审查——隐私保护大语言模型用于大规模识别散发急性非动脉炎性前部缺血性视神经病变(incident NAION)

一、研究背景与立题依据

非动脉炎性前部缺血性视神经病变(non-arteritic anterior ischemic optic neuropathy, NAION)是老年人急性无痛性视力丧失的主要原因，准确诊断依赖临床特征（相对性 afferent瞳孔传入缺陷即relative afferent pupillary defect [RAPD]、视盘水肿optic disc edema [ODE]、突发视力丧失）并排除其他病因，无确诊金标准检查。临床诊断被记录于两部分：详细病程写入非结构化病历自由文本，同时临床医生赋予ICD-10编码存入结构化数据。然而NAION对应ICD-10编码H47.01缺乏急性期/慢性期区分及非动脉炎性/动脉炎性鉴别，编码准确度受限于编码习惯与特异性不足。既往报道H47.01总体阳性预测值(positive predictive value, PPV)约74.5%，神经眼科就诊人群可达86.8%，但未区分急性与陈旧（慢性）NAION，故急性NAION的真实PPV更低（本研究队列中为0.39）。单纯依靠ICD编码会导致回顾性研究病例错分与偏倚。人工病历复审是矫正手段但耗时、存在评分者间差异且难以规模化。近期药物相关NAION事件备受关注，亟需更精准的批量识别方法。大语言模型(large language models, LLMs)已展现从临床文本提取信息的潜力，但存在时序语境整合困难、复杂推理波动及云端隐私隐患；本地部署较小模型推理力弱。检索增强生成(retrieval-augmented generation, RAG)与代理(agentic)分步推理或可改善。NAION要求明确时间节点与体征组合，是检验自动化病历审查能力的严苛模型疾病。本研究由Nguyen Tuyet Thao、Li Kelvin Zhenghao等来自加州大学戴维斯分校的研究人员开展，论文发表于《Ophthalmology Science》，旨在验证隐私保护本地LLM结合多种策略能否超越ICD编码、接近专家水平完成急性NAION回顾性识别。

二、主要关键技术方法

研究人员回顾性纳入2018年单中心具≥1条ION ICD-10码(H47.01x)的165例受试者，以神经眼科专家双人独立病历复审（分歧第三人仲裁）为金标准，二分类标记为急性NAION阳性/其余阴性。眼科门诊非结构化临床笔记经去标识及时间平移处理后存入CSV。全部实验于本地NVIDIA RTX 4090 GPU使用llama.cpp运行，测试Mistral Small 3.1 24B（主模型）、Magistral Small、Gemma3 27B、MedGemma 27B及GPT-OSS 20B，最大输入8192 tokens，无微调。采用四种分类策略：①简单提示(basic prompting)直接问"是否患急性NAION"；②RAG按LangChain切片存入Chroma向量库检索相关片段再回答；③两步代理(2-step agentic)按时间顺序逐条笔记判断首条相关记录后再二次查询；④三步代理(3-step agentic)在两步骤间加入中间归纳总结步骤聚焦关键信息。10%样本(n=17)做提示词精炼，剩余148例为测试集。同时用最优模型/方法单独识别RAPD、ODE、突发起病等特征并组合逻辑判断。以准确度(accuracy)、PPV、NPV、灵敏度(sensitivity/recall)、特异度(specificity)、F1评估，并与≥1/≥2/≥3次ICD编码算法对照。

三、研究结果

Results——队列特征

165例(mean age 65.0±13.9岁，男61.8%)经专家复核急性NAION 65例(39.4%)、陈旧NAION 33例(20.0%)、非NAION 42例(25.5%)、可能NAION 17例(10.3%)等。测试集148例中急性NAION 58例。单纯≥1条ICD-10 ION编码PPV仅0.39（58真阳性，90假阳性）。

Results——LLM整体表现与最佳模型

各LLM-方法组合均未达完美识别。平均识别急性NAION 20±12例，平均PPV 0.78±0.16高于队列患病率0.39，平均准确度0.69±0.06。所有LLM方法PPV均超ICD编码。Mistral三步代理法平衡最佳：识别39例真阳性，PPV 0.85，准确度0.82，NPV 0.81，灵敏度0.67，特异度0.92，F1 0.75。简单提示PPV可达0.92但灵敏度仅0.38。多数假阳性源于将陈旧NAION误判为急性，极少将确证非NAION判为急性NAION。

Results——特征组合分析

用Mistral三步代理分别判断视盘水肿(optic disc edema, ODE)、RAPD、突发起病后逻辑组合发现：要求越多特征确诊降低真阳性率也降低召回率；单独存在ODE时表现最优——51真阳性，准确度0.91，F1 0.89，PPV 0.89，NPV 0.92，超过ICD编码及直接LLM急性NAION判别效果。

四、讨论与结论翻译

准确病例识别对回顾性临床研究避免错分与选择偏倚至关重要。结构化数据（如ICD-10编码）因编码遗漏、不准确及码集局限易出错，NAION尤甚（H47.01*无急性期/前位/非动脉炎性区分）。本研究中研究人员开发基于LLM的非结构化EHR审查方法，从具ION编码受试者中分类急性NAION，发现LLM方法准确度与PPV（49.1%–100%）优于本研究及既往报道ICD编码识别法（PPV 39%–57%），部分方法接近但不及专家复审金标准（PPV与准确度定义上为1.0）。LLM准确度与已报道非专家人工病历复审基准相当或更好（医学生0.69、实习医生0.75、住院医0.77、主治医师0.77），且在可扩展性上优势明显。大多数假阳性对应专家标记陈旧NAION，极少将非NAION误判为急性NAION，提示可通过改进提示词增强急性期时态识别进一步提升性能。ICD算法PPV对急+慢性NAION合并组(~74%)高于单纯急性组(~39%)，若研究不区分急慢性则ICD编码尚可接受。不同模型/方法存在权衡：PPV提升通常伴NPV降低，对于低患病率罕见病如NAION纳真阳性比排健康对照更关键，可接受NPV牺牲。各LLM在小尺寸本地部署下表现不均一，不可互换。RAG虽在其他场景有效，但向量检索割裂临床叙述时序与语境，不利需时态整合的NAION诊断；代理法按时间序处理较大文本块模拟临床推理，更适配此类任务并利于医患信任。局限性：单中心回顾性、文档风格差异影响泛化需外部验证；聚焦急性NAION回顾性研究识别，不直接适用于其他疾病或前瞻场景；需Python流水线操作及临床专家校验。未来应多中心、多病种验证，探索LLM判定急性发作时间点以识别新发(incident)病例，评估人机混合流程及真实部署。

研究结论(Conclusions)翻译：

隐私保护的代理大语言模型方法，利用非结构化眼科纵向电子健康记录对急性NAION进行病例识别可获得较高阳性预测值，优于使用结构化ICD编码识别病例，为回顾性研究提供可扩展、高效且在保持患者保密及本地数据管控前提下的病例识别方法。该方法可提升NAION危险因素研究的效率与准确性，并有潜力拓展至其他需复杂诊断复核的疾病。

热点排行