人工智能在精神病学培训中的应用:来自九种大型语言模型的跨文化和考试背景的比较分析

《Psychiatric Quarterly》:Artificial Intelligence in Psychiatry Training: Comparative Insights from Nine Large Language Models Across Cultural and Exam Contexts

【字体: 时间:2026年03月21日 来源:Psychiatric Quarterly 2.9

编辑推荐:

  本研究系统评估九种大型语言模型在精神科医学考试题中的表现,发现Claude Sonnet-4.5 Pro准确率最高(94%),但模型间稳定性和题目类型影响显著。结论强调LLMs擅长结构化知识,但不能替代临床能力,免费与付费模型适用于不同教育场景,精神科仍是AI理解人类需求的关键领域。

  

摘要

近年来,大型语言模型(LLMs)在医学知识任务中的表现大幅提升;然而,大多数比较性评估都集中在一般的医学领域,而精神病学——一个需要情境推理和细微差别的领域——则相对较少受到研究。本研究系统地比较了九种LLM在精神病学相关医学考试题目上的表现,以评估它们的准确性、可靠性和教育价值。

测试的模型包括ChatGPT-5、ChatGPT-4、Claude Sonnet-4(免费版)和Sonnet-4.5(高级版)、Gemini-2.5 Flash和Gemini-2.5 Pro、Grok-3和Grok-4以及DeepSeek-v3。共进行了100道精神病学选择题,其中包括25道USMLE类型的题目、25道TUS类型的题目和50道专家编写的题目。每个模型完成了五次独立的测试(总共4,500次回答)。统计分析评估了整体准确性、测试-重测的可靠性以及不同类型题目之间的表现差异。

结果显示模型之间的整体表现存在显著差异(χ2(8, N?=?4,500)?=?42.45, p<.001)。Claude Sonnet-4.5 Pro的准确率最高(94%),其次是Gemini-2.5 Pro(92.8%)和GPT-5(92.6%)。DeepSeek-v3和GPT-4表现出极高的可靠性(ICC>0.90),而Gemini-2.5 Flash和Grok-4的稳定性仅处于中等水平(ICC≈0.65)。题目格式对表现有显著影响(F(2,24)?=?16.19, p<.001, η2=0.57):USMLE类型题目的准确率(83.8%)低于TUS类型题目(95.6%)或专家编写的题目(92.1%)。免费版和高级版模型在事实性任务上的表现相当,但高级版系统在时间一致性方面表现更好。

这些发现表明,当前的LLM能够在以精神病学为内容的、类似考试风格的选择题上达到高准确率,这反映了它们在结构化事实知识任务中的强大能力,而非临床能力。在多项选择题上的高表现不应被解读为等同于临床专长,因为临床专长还需要综合推理、情境判断和人际交往能力,而这些超出了标准化考试的范围。因此,免费版模型可能对基础学习和考试准备有价值,而高级版系统则能在重复的教育评估中提供更高的一致性,但并不意味着具备独立临床应用的准备能力。精神病学作为一个需要同理心和细致推理的领域,仍然是测试AI从事实掌握向以人为中心的理解发展的关键领域。

近年来,大型语言模型(LLMs)在医学知识任务中的表现大幅提升;然而,大多数比较性评估都集中在一般的医学领域,而精神病学——一个需要情境推理和细微差别的领域——则相对较少受到研究。本研究系统地比较了九种LLM在精神病学相关医学考试题目上的表现,以评估它们的准确性、可靠性和教育价值。

测试的模型包括ChatGPT-5、ChatGPT-4、Claude Sonnet-4(免费版)和Sonnet-4.5(高级版)、Gemini-2.5 Flash和Gemini-2.5 Pro、Grok-3和Grok-4以及DeepSeek-v3。共进行了100道精神病学选择题,其中包括25道USMLE类型的题目、25道TUS类型的题目和50道专家编写的题目。每个模型完成了五次独立的测试(总共4,500次回答)。统计分析评估了整体准确性、测试-重测的可靠性以及不同类型题目之间的表现差异。

结果显示模型之间的整体表现存在显著差异(χ2(8, N?=?4,500)?=?42.45, p<.001)。Claude Sonnet-4.5 Pro的准确率最高(94%),其次是Gemini-2.5 Pro(92.8%)和GPT-5(92.6%)。DeepSeek-v3和GPT-4表现出极高的可靠性(ICC>0.90),而Gemini-2.5 Flash和Grok-4的稳定性仅处于中等水平(ICC≈0.65)。题目格式对表现有显著影响(F(2,24)?=?16.19, p<.001, η2=0.57):USMLE类型题目的准确率(83.8%)低于TUS类型题目(95.6%)或专家编写的题目(92.1%)。免费版和高级版模型在事实性任务上的表现相当,但高级版系统在时间一致性方面表现更好。

这些发现表明,当前的LLM能够在以精神病学为内容的、类似考试风格的选择题上达到高准确率,这反映了它们在结构化事实知识任务中的强大能力,而非临床能力。在多项选择题上的高表现不应被解读为等同于临床专长,因为临床专长还需要综合推理、情境判断和人际交往能力,而这些超出了标准化考试的范围。因此,免费版模型可能对基础学习和考试准备有价值,而高级版系统则能在重复的教育评估中提供更高的一致性,但并不意味着具备独立临床应用的准备能力。精神病学作为一个需要同理心和细致推理的领域,仍然是测试AI从事实掌握向以人为中心的理解发展的关键领域。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号