评估大型语言模型（Large Language Models, LLMs）从癫痫非结构化临床叙述中进行诊断推理的能力

《Communications Medicine》：Evaluating large language models for diagnostic reasoning from unstructured clinical narratives in epilepsy

【字体：大中小】 时间：2026年05月23日 来源：Communications Medicine 6.3

编辑推荐：

　　背景：大型语言模型（Large Language Models, LLMs）已被证实编码了临床知识。然而，许多评估依赖于结构化的问答（Question-Answering, Q&A）基准，忽视了在真实世界环境中解释和推理非结构化临床叙述的关键挑战。方

背景：大型语言模型（Large Language Models, LLMs）已被证实编码了临床知识。然而，许多评估依赖于结构化的问答（Question-Answering, Q&A）基准，忽视了在真实世界环境中解释和推理非结构化临床叙述的关键挑战。方法：在本研究中，研究人员对八种大型语言模型（包括两种医学模型：GPT-3.5、GPT-4、Mixtral-8×7B、Qwen-72B、LlaMa2、LlaMa3、OpenBioLLM、Med42）进行了一项癫痫核心诊断任务的测试：在经过针对性过滤和标准化后，将发作描述短语映射到七个可能的发作起始区（Seizure Onset Zone, SOZ）之一，并使用似然估计。研究人员进行了定量和定性分析，测量了正确性、置信度、校准度，以及由专家评估的推理质量和来源引用准确性。通过系统的提示工程（Prompt Engineering）和消融研究，研究人员评估了模型性能如何依赖于提示策略、临床角色扮演（Impersonation）、叙述长度和语言语境的变化。结果：研究表明，在经过提示工程后，大多数模型的准确率远高于随机水平，甚至接近临床医生水平的性能。具体而言，临床医生指导的思维链（Chain-of-Thought, CoT）推理带来了最一致的改进。性能还受到临床上下文扮演、叙述长度和语言语境的强烈调节（分别为13.7%、32.7%和14.2%的性能变化）。然而，临床专家的推理分析揭示，正确的预测可能基于幻觉知识和不准确的来源引用，这凸显了在临床使用中提高LLMs可解释性的必要性。结论：总体而言，SemioLLM提供了一个可扩展的、领域适应性强的框架，用于在非结构化言语描述编码诊断信息的临床学科中评估LLMs。通过识别LLMs的优势和局限性，研究人员的工作有助于测试基础AI系统在医疗保健中的适用性。

论文解读：评估大型语言模型在癫痫非结构化临床叙述中的诊断推理能力

研究背景与意义

目前，大型语言模型（Large Language Models, LLMs）在医疗领域的应用潜力备受关注，尤其是在结构化问答（Question-Answering, Q&A）数据集（如MedQA、PubMedQA等）上已显示出其编码临床知识的能力。然而，现有的评估大多依赖于高度结构化的基准测试，这简化了真实的临床决策过程。在现实临床场景中，医生往往需要从患者非结构化的访谈叙述中提取复杂的诊断信息，而这些叙述常包含无关或日常用语。神经系统疾病如癫痫（Epilepsy）是检验这一能力的理想场景，因为癫痫发作的行为和感觉症状（即发作症状学，Semiology）可直接关联到潜在的脑病理区域。正确解读这些症状对于指导脑成像、脑电图（Electroencephalogram, EEG）及手术规划至关重要，特别是对于药物难治性癫痫患者，准确定位发作起始区（Seizure Onset Zone, SOZ）是手术切除治愈的关键。尽管LLMs在其它领域已从非结构化文本中提取信息，但其在临床语境下的能力仍不明确。因此，研究人员开展了本研究，旨在系统评估LLMs如何利用非结构化的发作描述进行诊断推理，并发表于《Communications Medicine》。

主要关键技术方法

研究人员开发了名为SemioLLM的结构化自动评估框架，使用公开的Semio2Brain数据集（包含1,269条经过预处理的发作症状条目，链接至7个主要脑区：颞叶、额叶、扣带回、顶叶、枕叶、岛叶和下丘脑）。研究人员评估了八种LLMs（GPT-3.5、GPT-4、Mixtral-8×7B、Qwen-72B、LlaMa2、LlaMa3、OpenBioLLM-70B、Med42-70B），任务是输出七脑区的SOZ概率分布。采用五种提示策略：零样本（Zero-Shot, ZS）、少样本（Few-Shot, FS）、零样本思维链（ZS-CoT）、少样本思维链（FS-CoT）和自一致性（Self Consistency, SC）。通过F1分数（加权平均）、基于香农熵（Shannon entropy）的置信度、可靠性图和布赖尔分数（Brier Score）评估正确性、置信度与校准。此外，由癫痫专科临床专家对模型推理质量及引用准确性进行人工评估，并分析了症状描述长度、临床角色扮演（Persona adaptation）及多语言（英、法、西、中）对性能的影响。

研究结果

Prompt strategies significantly boost performance（提示策略显著提升性能）

研究人员通过比较零样本基线（ZS）与四种提示工程策略发现，大多数模型在零样本条件下仅略高于随机水平（下限38.21%），但Mixtral-8×7B和GPT-4分别达到51.66%和52.27%，可比拟临床医生性能（48.77%和46.75%）。引入提示工程后，所有模型的性能均有显著提升：少样本（FS）中位数提升6.49%，思维链（CoT）提升9.62%，专家引导的FS-CoT提升9.49%，自一致性（SC）提升10.02%。GPT-4在所有条件下均保持高水平（ZS 52.27%至SC 53.44%）。医学专用模型OpenBioLLM-70B在CoT和SC下表现较好，但未持续匹配顶级通用模型。

High confidence does not guarantee correctness（高置信度并不保证正确性）

研究人员利用基于输出的香农熵推导置信度得分（1-归一化熵）。结果显示，零样本条件下置信度最低，提示工程一致提升了置信度（FS提升13.75%，FS-CoT提升21%，SC提升35.25%）。校准评估（Brier分数）显示零样本下方差较大，精细提示（尤其是FS-CoT和SC）能更好对齐预测概率与实际准确性。GPT-4即使在零样本下也表现出最佳校准。综合准确性、置信度和校准三个维度，GPT-4和Mixtral-8×7B在任务中取得了最佳平衡。

Evaluating Clinical Reasoning and Source Attribution（评估临床推理与来源归因）

在81个随机选择的CoT响应子集中，临床专家评估显示GPT-4在正确性和完整性上显著优于Mixtral-8×7B（正确性：56.79% vs 29.63%；完整性：65.00% vs 34.57%）。维度细分表明，GPT-4在知识回忆（错误率17.28% vs 43.21%）和逻辑推理（正确率98.77% vs 80.25%；错误率20.99% vs 38.27%）上表现更强。引用准确性方面，GPT-4为76%，而Mixtral仅为19%，显示Mixtral存在严重的幻觉引用问题。

Factors influencing LLM performance in seizure diagnostics（影响LLM癫痫诊断性能的因素）

Symptom description length（症状描述长度）

按词数分箱分析显示，两种模型均呈明显的U型关系：极短和极长的描述性能最高，中等长度性能下降（Kruskal-Wallis检验 p<0.001），且经重排 surrogate 数据检验证实此为真实效应而非统计假象。

Clinical in-context impersonation（临床上下文扮演）

在零样本下前缀“你是{a persona}”，从AI助手、医疗助理、神经科医生到专家癫痫学家（Expert epileptologist），性能和置信度随角色专业性提升而提高。专家癫痫学家设定下，GPT-4性能提升13.68%，置信度提升9%；Mixtral性能提升4.47%，置信度提升8%。

Multilingual Performance（多语言性能）

在英文提示+英文描述（En→En）、英文提示+非英文描述（Cross-Language）、非英文提示+非英文描述（Same Language）三种设置下，模型在En→En表现最佳。Cross-Language下性能仅轻微下降（GPT-4: -1.91%; Mixtral: -2.41%），但在Same Language下Mixtral大幅下降8%，GPT-4则保持稳定（-1.4%），表明Mixtral在非英语语境下推理能力受限。

讨论与结论总结

以往癫痫领域的LLM研究多限于结构化Q&A或窄任务监督模型，且缺乏真实患者数据依据。本研究SemioLLM首次基于超过1200条非结构化发作描述对8种LLMs进行了大规模诊断推理评估。研究人员发现，大多数LLMs无需结构化输入或领域微调，即可显著以上概率推断SOZ，GPT-4和Mixtral-8×7B甚至在零样本下接近临床医生手动评估水平。提示工程（特别是临床医生指导的CoT）显著提升了准确性、置信度与校准。框架还结合了定量指标与专家对推理的定性评估，揭示出即便预测正确，其推理可能基于幻觉且引用不准（尤其Mixtral），强调仅性能指标不足以反映推理缺陷。研究进一步确定了症状描述长度（U型影响，差异达32%）、临床角色扮演（提升约14%性能、10%置信度）及语言语境（非英文全转换时Mixtral性能降8%）为关键影响因素。SemioLLM为利用自由文本临床叙述转化为结构化诊断推断提供了可扩展框架，并可迁移至其他医学领域（如皮肤病学）。但研究受限于单数据集（成人局灶性癫痫）、缺乏多人口文化元数据及原语料单语限制，未来需多语言多样化癫痫描述及更大规模多注释者推理评估。总之，该研究通过识别当前LLMs在临床叙事诊断中的优势与局限，为开发可靠、适用的医疗AI系统提供了重要依据。

热点排行