利用真实世界中的胸痛病例和贝叶斯网络,对大型语言模型的逐步诊断推理能力进行了模拟评估

《BMC Medical Informatics and Decision Making》:Simulated evaluation of large language model stepwise diagnostic reasoning with real-world chest pain encounters and Bayesian networks

【字体: 时间:2026年02月25日 来源:BMC Medical Informatics and Decision Making 3.8

编辑推荐:

  急诊胸痛诊断中GPT-4o的模拟评估显示其存在罕见病误判率高(79.3%敏感度)、过度报警问题,且信息查询策略与贝叶斯最优路径和临床实践存在显著差异(如减少<2倍生命体征检查,增加30%+影像数据请求)。研究强调需通过整合概率模型和真实疾病分布优化LLM临床决策支持效能。

  

摘要

背景

将大型语言模型(LLMs)作为临床诊断辅助工具进行现实世界评估时,受到依赖于静态案例和回顾性数据的限制,这些方法无法充分反映临床决策的动态和迭代性质,可能会高估LLMs的性能。在这里,我们在一个逐步模拟的诊断环境中使用真实世界的临床数据对GPT-4o进行了基准测试,将其诊断准确性和信息检索策略与基于贝叶斯网络的最优策略以及观察到的医生实践进行比较。

方法

我们评估了GPT-4o在500次急诊科(ED)胸痛病例中的表现,这些病例来自涵盖三个急诊科的202,632个病例的队列。一个贝叶斯网络(BN)在结构化的队列数据上进行了训练,填补了原始就诊过程中未收集的临床数据,从而创建了一个更加可靠的模拟环境。该BN还能够推导出互信息最优的查询路径。GPT-4o在三种不同的提示机制下依次请求了136个结构化的临床变量信息,这些提示机制在疾病流行率提示和诊断类别约束上有所不同。诊断结果包括七种预定义的紧急情况之一或“其他诊断”。我们测量了每种提示策略下的诊断准确性,并计算了与BN最优路径的基于排名的重叠程度,以评估LLM的信息检索行为。

结果

在整个胸痛病例队列中,危及生命的病因仅占2.14%(从1.04%的急性冠状动脉综合征到0.01%的食管破裂)。在基线提示下,GPT-4o系统性地高估了罕见病症(敏感性为79.3%;特异性为45.2%);添加流行率提示或去除诊断类别约束分别提高了特异性(83.0%和94.7%),同时将误报率降低了107次和140次每500例,但代价是敏感性降低(30.4%和8.8%)。GPT-4o的信息检索序列与贝叶斯网络互信息最优路径之间的排名偏差在各个诊断中都很低(范围为0.060–0.097),并且该模型与医生行为存在差异:它请求的生命体征检查次数减少了(\( <2\)倍),实验室检查次数减少了(\( <10\)倍),同时请求的影像学数据增加了30%以上。

结论

在这项模拟评估中,GPT-4o表现出对罕见病症的诊断偏差,并与标准概率模型和医生实践模式有显著差异。这些差异可能导致不必要的过度分诊和资源浪费。将LLMs整合到更严格的概率框架中,并根据实际的疾病流行率对其进行校准,可能是有效利用其作为临床决策支持工具潜力的关键。

背景

将大型语言模型(LLMs)作为临床诊断辅助工具进行现实世界评估时,受到依赖于静态案例和回顾性数据的限制,这些方法无法充分反映临床决策的动态和迭代性质,可能会高估LLMs的性能。在这里,我们在一个逐步模拟的诊断环境中使用真实世界的临床数据对GPT-4o进行了基准测试,将其诊断准确性和信息检索策略与基于贝叶斯网络的最优策略以及观察到的医生实践进行比较。

方法

我们评估了GPT-4o在500次急诊科(ED)胸痛病例中的表现,这些病例来自涵盖三个急诊科的202,632个病例的队列。一个贝叶斯网络(BN)在结构化的队列数据上进行了训练,填补了原始就诊过程中未收集的临床数据,从而创建了一个更加可靠的模拟环境。该BN还能够推导出互信息最优的查询路径。GPT-4o在三种不同的提示机制下依次请求了136个结构化的临床变量信息,这些提示机制在疾病流行率提示和诊断类别约束上有所不同。诊断结果包括七种预定义的紧急情况之一或“其他诊断”。我们测量了每种提示策略下的诊断准确性,并计算了与BN最优路径的基于排名的重叠程度,以评估LLM的信息检索行为。

结果

在整个胸痛病例队列中,危及生命的病因仅占2.14%(从1.04%的急性冠状动脉综合征到0.01%的食管破裂)。在基线提示下,GPT-4o系统性地高估了罕见病症(敏感性为79.3%;特异性为45.2%);添加流行率提示或去除诊断类别约束分别提高了特异性(83.0%和94.7%),同时将误报率降低了107次和140次每500例,但代价是敏感性降低(30.4%和8.8%)。GPT-4o的信息检索序列与贝叶斯网络互信息最优路径之间的排名偏差在各个诊断中都很低(范围为0.060–0.097),并且该模型与医生行为存在差异:它请求的生命体征检查次数减少了(\( <2\)倍),实验室检查次数减少了(\( <10\)倍),同时请求的影像学数据增加了30%以上。

结论

在这项模拟评估中,GPT-4o表现出对罕见病症的诊断偏差,并与标准概率模型和医生实践模式有显著差异。这些差异可能导致不必要的过度分诊和资源浪费。将LLMs整合到更严格的概率框架中,并根据实际的疾病流行率对其进行校准,可能是有效利用其作为临床决策支持工具潜力的关键。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号