将ChatGPT-4o作为基于文本的临床决策支持工具用于初级耳鼻喉科住院医师的评估：一项随机对照试验

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《European Archives of Oto-Rhino-Laryngology》：Evaluation of ChatGPT-4o as a text-based clinical decision support tool for junior otolaryngology residents: A randomized controlled trial

【字体：大中小】 时间：2026年03月22日 来源：European Archives of Oto-Rhino-Laryngology 2.2

编辑推荐：

　　本研究通过随机对照试验，比较ChatGPT-4o与认证耳鼻喉科医生为PGY1住院医师提供临床决策支持的效果，发现两者在初步诊断和管理计划上表现相当，但ChatGPT-4o在鉴别诊断和检查完整性方面得分更高（p=0.001），表明其信息更全面。

摘要

目的

越来越多的住院医师在医疗实践中将大型语言模型（LLMs）作为辅助工具使用。这项初步的随机对照试验评估了ChatGPT-4o作为基于文本的临床决策支持工具对一年级住院医师（PGY1）的表现，并将其输出的结构和完整性与经过认证的耳鼻喉科医生的输出进行了比较。

方法

一年级住院医师的咨询结果被随机分配给ChatGPT-4o或经过认证的耳鼻喉科医生，以评估他们在制定初步诊断和鉴别诊断、治疗计划及治疗方案时对病史、临床表现和检查结果的处理情况。两名不知情的经过认证的耳鼻喉科医生使用人工智能性能评估工具（AIPI）独立评估了ChatGPT-4o和耳鼻喉科医生的建议。类内相关系数（ICC）被用来衡量评分者之间的一致性。

结果

ChatGPT-4o组（n=40）和耳鼻喉科医生组（n=40）的患者人口统计特征相当。盲法评估显示，在评估一年级住院医师对病史和临床表现的考虑方面，耳鼻喉科医生和ChatGPT-4o的表现相当。在记录鉴别诊断、补充检查的完整性以及治疗解释方面，ChatGPT-4o获得了更高的AIPI分数。ChatGPT-4o的平均AIPI分数显著高于耳鼻喉科医生（14.20±2.24对比12.34±1.91；p=0.001）。评分者间的可靠性是足够的（ICC=0.699）。

讨论

据我们所知，这是首次比较基于LLM生成的文本决策支持反馈与人类评审对一年级住院医师影响的研究。未来需要进一步的研究来确定在人类监督下AI作为辅助工具的作用。

实践意义

ChatGPT-4o在为一年级住院医师提供结构化的基于文本的决策支持反馈方面表现与经过认证的耳鼻喉科医生相当，在记录鉴别诊断和治疗解释方面表现更佳，这反映了其信息完整性更高，而非临床判断能力更优。

目的

越来越多的住院医师在医疗实践中将大型语言模型（LLMs）作为辅助工具使用。这项初步的随机对照试验评估了ChatGPT-4o作为基于文本的临床决策支持工具对一年级住院医师（PGY1）的表现，并将其输出的结构和完整性与经过认证的耳鼻喉科医生的输出进行了比较。

方法

一年级住院医师的咨询结果被随机分配给ChatGPT-4o或经过认证的耳鼻喉科医生，以评估他们在制定初步诊断和鉴别诊断、治疗计划及治疗方案时对病史、临床表现和检查结果的处理情况。两名不知情的经过认证的耳鼻喉科医生使用人工智能性能评估工具（AIPI）独立评估了ChatGPT-4o和耳鼻喉科医生的建议。类内相关系数（ICC）被用来衡量评分者之间的一致性。

结果

ChatGPT-4o组（n=40）和耳鼻喉科医生组（n=40）的患者人口统计特征相当。盲法评估显示，在评估一年级住院医师对病史和临床表现的考虑方面，耳鼻喉科医生和ChatGPT-4o的表现相当。在记录鉴别诊断、补充检查的完整性以及治疗解释方面，ChatGPT-4o获得了更高的AIPI分数。ChatGPT-4o的平均AIPI分数显著高于耳鼻喉科医生（14.20±2.24对比12.34±1.91；p=0.001）。评分者间的可靠性是足够的（ICC=0.699）。

讨论

据我们所知，这是首次比较基于LLM生成的文本决策支持反馈与人类评审对一年级住院医师影响的研究。未来需要进一步的研究来确定在人类监督下AI作为辅助工具的作用。

实践意义

ChatGPT-4o在为一年级住院医师提供结构化的基于文本的决策支持反馈方面与经过认证的耳鼻喉科医生表现相当，在记录鉴别诊断和治疗解释方面表现更佳，这反映了其信息完整性更高，而非临床判断能力更优。

联系信箱：

粤ICP备09063491号

摘要

目的

方法

结果

讨论

实践意义

目的

方法

结果

讨论

实践意义

热点排行