人工智能在精神病学培训中的应用：来自九种大型语言模型的跨文化和考试背景的比较分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Psychiatric Quarterly》：Artificial Intelligence in Psychiatry Training: Comparative Insights from Nine Large Language Models Across Cultural and Exam Contexts

【字体：大中小】 时间：2026年03月21日 来源：Psychiatric Quarterly 2.9

编辑推荐：

　　本研究系统评估九种大型语言模型在精神科医学考试题中的表现，发现Claude Sonnet-4.5 Pro准确率最高（94%），但模型间稳定性和题目类型影响显著。结论强调LLMs擅长结构化知识，但不能替代临床能力，免费与付费模型适用于不同教育场景，精神科仍是AI理解人类需求的关键领域。

摘要

近年来，大型语言模型（LLMs）在医学知识任务中的表现大幅提升；然而，大多数比较性评估都集中在一般的医学领域，而精神病学——一个需要情境推理和细微差别的领域——则相对较少受到研究。本研究系统地比较了九种LLM在精神病学相关医学考试题目上的表现，以评估它们的准确性、可靠性和教育价值。

测试的模型包括ChatGPT-5、ChatGPT-4、Claude Sonnet-4（免费版）和Sonnet-4.5（高级版）、Gemini-2.5 Flash和Gemini-2.5 Pro、Grok-3和Grok-4以及DeepSeek-v3。共进行了100道精神病学选择题，其中包括25道USMLE类型的题目、25道TUS类型的题目和50道专家编写的题目。每个模型完成了五次独立的测试（总共4,500次回答）。统计分析评估了整体准确性、测试-重测的可靠性以及不同类型题目之间的表现差异。

结果显示模型之间的整体表现存在显著差异（χ2(8, N?=?4,500)?=?42.45, p<.001）。Claude Sonnet-4.5 Pro的准确率最高（94%），其次是Gemini-2.5 Pro（92.8%）和GPT-5（92.6%）。DeepSeek-v3和GPT-4表现出极高的可靠性（ICC>0.90），而Gemini-2.5 Flash和Grok-4的稳定性仅处于中等水平（ICC≈0.65）。题目格式对表现有显著影响（F(2,24)?=?16.19, p<.001, η2=0.57）：USMLE类型题目的准确率（83.8%）低于TUS类型题目（95.6%）或专家编写的题目（92.1%）。免费版和高级版模型在事实性任务上的表现相当，但高级版系统在时间一致性方面表现更好。

这些发现表明，当前的LLM能够在以精神病学为内容的、类似考试风格的选择题上达到高准确率，这反映了它们在结构化事实知识任务中的强大能力，而非临床能力。在多项选择题上的高表现不应被解读为等同于临床专长，因为临床专长还需要综合推理、情境判断和人际交往能力，而这些超出了标准化考试的范围。因此，免费版模型可能对基础学习和考试准备有价值，而高级版系统则能在重复的教育评估中提供更高的一致性，但并不意味着具备独立临床应用的准备能力。精神病学作为一个需要同理心和细致推理的领域，仍然是测试AI从事实掌握向以人为中心的理解发展的关键领域。

近年来，大型语言模型（LLMs）在医学知识任务中的表现大幅提升；然而，大多数比较性评估都集中在一般的医学领域，而精神病学——一个需要情境推理和细微差别的领域——则相对较少受到研究。本研究系统地比较了九种LLM在精神病学相关医学考试题目上的表现，以评估它们的准确性、可靠性和教育价值。

测试的模型包括ChatGPT-5、ChatGPT-4、Claude Sonnet-4（免费版）和Sonnet-4.5（高级版）、Gemini-2.5 Flash和Gemini-2.5 Pro、Grok-3和Grok-4以及DeepSeek-v3。共进行了100道精神病学选择题，其中包括25道USMLE类型的题目、25道TUS类型的题目和50道专家编写的题目。每个模型完成了五次独立的测试（总共4,500次回答）。统计分析评估了整体准确性、测试-重测的可靠性以及不同类型题目之间的表现差异。

结果显示模型之间的整体表现存在显著差异（χ2(8, N?=?4,500)?=?42.45, p<.001）。Claude Sonnet-4.5 Pro的准确率最高（94%），其次是Gemini-2.5 Pro（92.8%）和GPT-5（92.6%）。DeepSeek-v3和GPT-4表现出极高的可靠性（ICC>0.90），而Gemini-2.5 Flash和Grok-4的稳定性仅处于中等水平（ICC≈0.65）。题目格式对表现有显著影响（F(2,24)?=?16.19, p<.001, η2=0.57）：USMLE类型题目的准确率（83.8%）低于TUS类型题目（95.6%）或专家编写的题目（92.1%）。免费版和高级版模型在事实性任务上的表现相当，但高级版系统在时间一致性方面表现更好。

这些发现表明，当前的LLM能够在以精神病学为内容的、类似考试风格的选择题上达到高准确率，这反映了它们在结构化事实知识任务中的强大能力，而非临床能力。在多项选择题上的高表现不应被解读为等同于临床专长，因为临床专长还需要综合推理、情境判断和人际交往能力，而这些超出了标准化考试的范围。因此，免费版模型可能对基础学习和考试准备有价值，而高级版系统则能在重复的教育评估中提供更高的一致性，但并不意味着具备独立临床应用的准备能力。精神病学作为一个需要同理心和细致推理的领域，仍然是测试AI从事实掌握向以人为中心的理解发展的关键领域。

联系信箱：

粤ICP备09063491号

摘要

热点排行