《Communications Medicine》:Evaluating large language models for diagnostic reasoning from unstructured clinical narratives in epilepsy
编辑推荐:
背景:大型语言模型(Large Language Models, LLMs)已被证实编码了临床知识。然而,许多评估依赖于结构化的问答(Question-Answering, Q&A)基准,忽视了在真实世界环境中解释和推理非结构化临床叙述的关键挑战。
方
背景:大型语言模型(Large Language Models, LLMs)已被证实编码了临床知识。然而,许多评估依赖于结构化的问答(Question-Answering, Q&A)基准,忽视了在真实世界环境中解释和推理非结构化临床叙述的关键挑战。
方法:在本研究中,研究人员对八种大型语言模型(包括两种医学模型:GPT-3.5、GPT-4、Mixtral-8×7B、Qwen-72B、LlaMa2、LlaMa3、OpenBioLLM、Med42)进行了一项癫痫核心诊断任务的测试:在经过针对性过滤和标准化后,将发作描述短语映射到七个可能的发作起始区(Seizure Onset Zone, SOZ)之一,并使用似然估计。研究人员进行了定量和定性分析,测量了正确性、置信度、校准度,以及由专家评估的推理质量和来源引用准确性。通过系统的提示工程(Prompt Engineering)和消融研究,研究人员评估了模型性能如何依赖于提示策略、临床角色扮演(Impersonation)、叙述长度和语言语境的变化。
结果:研究表明,在经过提示工程后,大多数模型的准确率远高于随机水平,甚至接近临床医生水平的性能。具体而言,临床医生指导的思维链(Chain-of-Thought, CoT)推理带来了最一致的改进。性能还受到临床上下文扮演、叙述长度和语言语境的强烈调节(分别为13.7%、32.7%和14.2%的性能变化)。然而,临床专家的推理分析揭示,正确的预测可能基于幻觉知识和不准确的来源引用,这凸显了在临床使用中提高LLMs可解释性的必要性。
结论:总体而言,SemioLLM提供了一个可扩展的、领域适应性强的框架,用于在非结构化言语描述编码诊断信息的临床学科中评估LLMs。通过识别LLMs的优势和局限性,研究人员的工作有助于测试基础AI系统在医疗保健中的适用性。
论文解读:评估大型语言模型在癫痫非结构化临床叙述中的诊断推理能力
研究背景与意义
目前,大型语言模型(Large Language Models, LLMs)在医疗领域的应用潜力备受关注,尤其是在结构化问答(Question-Answering, Q&A)数据集(如MedQA、PubMedQA等)上已显示出其编码临床知识的能力。然而,现有的评估大多依赖于高度结构化的基准测试,这简化了真实的临床决策过程。在现实临床场景中,医生往往需要从患者非结构化的访谈叙述中提取复杂的诊断信息,而这些叙述常包含无关或日常用语。神经系统疾病如癫痫(Epilepsy)是检验这一能力的理想场景,因为癫痫发作的行为和感觉症状(即发作症状学,Semiology)可直接关联到潜在的脑病理区域。正确解读这些症状对于指导脑成像、脑电图(Electroencephalogram, EEG)及手术规划至关重要,特别是对于药物难治性癫痫患者,准确定位发作起始区(Seizure Onset Zone, SOZ)是手术切除治愈的关键。尽管LLMs在其它领域已从非结构化文本中提取信息,但其在临床语境下的能力仍不明确。因此,研究人员开展了本研究,旨在系统评估LLMs如何利用非结构化的发作描述进行诊断推理,并发表于《Communications Medicine》。
主要关键技术方法
研究人员开发了名为SemioLLM的结构化自动评估框架,使用公开的Semio2Brain数据集(包含1,269条经过预处理的发作症状条目,链接至7个主要脑区:颞叶、额叶、扣带回、顶叶、枕叶、岛叶和下丘脑)。研究人员评估了八种LLMs(GPT-3.5、GPT-4、Mixtral-8×7B、Qwen-72B、LlaMa2、LlaMa3、OpenBioLLM-70B、Med42-70B),任务是输出七脑区的SOZ概率分布。采用五种提示策略:零样本(Zero-Shot, ZS)、少样本(Few-Shot, FS)、零样本思维链(ZS-CoT)、少样本思维链(FS-CoT)和自一致性(Self Consistency, SC)。通过F1分数(加权平均)、基于香农熵(Shannon entropy)的置信度、可靠性图和布赖尔分数(Brier Score)评估正确性、置信度与校准。此外,由癫痫专科临床专家对模型推理质量及引用准确性进行人工评估,并分析了症状描述长度、临床角色扮演(Persona adaptation)及多语言(英、法、西、中)对性能的影响。
研究结果
Prompt strategies significantly boost performance(提示策略显著提升性能)
研究人员通过比较零样本基线(ZS)与四种提示工程策略发现,大多数模型在零样本条件下仅略高于随机水平(下限38.21%),但Mixtral-8×7B和GPT-4分别达到51.66%和52.27%,可比拟临床医生性能(48.77%和46.75%)。引入提示工程后,所有模型的性能均有显著提升:少样本(FS)中位数提升6.49%,思维链(CoT)提升9.62%,专家引导的FS-CoT提升9.49%,自一致性(SC)提升10.02%。GPT-4在所有条件下均保持高水平(ZS 52.27%至SC 53.44%)。医学专用模型OpenBioLLM-70B在CoT和SC下表现较好,但未持续匹配顶级通用模型。
High confidence does not guarantee correctness(高置信度并不保证正确性)
研究人员利用基于输出的香农熵推导置信度得分(1-归一化熵)。结果显示,零样本条件下置信度最低,提示工程一致提升了置信度(FS提升13.75%,FS-CoT提升21%,SC提升35.25%)。校准评估(Brier分数)显示零样本下方差较大,精细提示(尤其是FS-CoT和SC)能更好对齐预测概率与实际准确性。GPT-4即使在零样本下也表现出最佳校准。综合准确性、置信度和校准三个维度,GPT-4和Mixtral-8×7B在任务中取得了最佳平衡。
Evaluating Clinical Reasoning and Source Attribution(评估临床推理与来源归因)
在81个随机选择的CoT响应子集中,临床专家评估显示GPT-4在正确性和完整性上显著优于Mixtral-8×7B(正确性:56.79% vs 29.63%;完整性:65.00% vs 34.57%)。维度细分表明,GPT-4在知识回忆(错误率17.28% vs 43.21%)和逻辑推理(正确率98.77% vs 80.25%;错误率20.99% vs 38.27%)上表现更强。引用准确性方面,GPT-4为76%,而Mixtral仅为19%,显示Mixtral存在严重的幻觉引用问题。
Factors influencing LLM performance in seizure diagnostics(影响LLM癫痫诊断性能的因素)
Symptom description length(症状描述长度)
按词数分箱分析显示,两种模型均呈明显的U型关系:极短和极长的描述性能最高,中等长度性能下降(Kruskal-Wallis检验 p<0.001),且经重排 surrogate 数据检验证实此为真实效应而非统计假象。
Clinical in-context impersonation(临床上下文扮演)
在零样本下前缀“你是{a persona}”,从AI助手、医疗助理、神经科医生到专家癫痫学家(Expert epileptologist),性能和置信度随角色专业性提升而提高。专家癫痫学家设定下,GPT-4性能提升13.68%,置信度提升9%;Mixtral性能提升4.47%,置信度提升8%。
Multilingual Performance(多语言性能)
在英文提示+英文描述(En→En)、英文提示+非英文描述(Cross-Language)、非英文提示+非英文描述(Same Language)三种设置下,模型在En→En表现最佳。Cross-Language下性能仅轻微下降(GPT-4: -1.91%; Mixtral: -2.41%),但在Same Language下Mixtral大幅下降8%,GPT-4则保持稳定(-1.4%),表明Mixtral在非英语语境下推理能力受限。
讨论与结论总结
以往癫痫领域的LLM研究多限于结构化Q&A或窄任务监督模型,且缺乏真实患者数据依据。本研究SemioLLM首次基于超过1200条非结构化发作描述对8种LLMs进行了大规模诊断推理评估。研究人员发现,大多数LLMs无需结构化输入或领域微调,即可显著以上概率推断SOZ,GPT-4和Mixtral-8×7B甚至在零样本下接近临床医生手动评估水平。提示工程(特别是临床医生指导的CoT)显著提升了准确性、置信度与校准。框架还结合了定量指标与专家对推理的定性评估,揭示出即便预测正确,其推理可能基于幻觉且引用不准(尤其Mixtral),强调仅性能指标不足以反映推理缺陷。研究进一步确定了症状描述长度(U型影响,差异达32%)、临床角色扮演(提升约14%性能、10%置信度)及语言语境(非英文全转换时Mixtral性能降8%)为关键影响因素。SemioLLM为利用自由文本临床叙述转化为结构化诊断推断提供了可扩展框架,并可迁移至其他医学领域(如皮肤病学)。但研究受限于单数据集(成人局灶性癫痫)、缺乏多人口文化元数据及原语料单语限制,未来需多语言多样化癫痫描述及更大规模多注释者推理评估。总之,该研究通过识别当前LLMs在临床叙事诊断中的优势与局限,为开发可靠、适用的医疗AI系统提供了重要依据。