人工智能在生成结直肠外科考试题目方面的表现

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《The American Journal of Surgery》：Artificial intelligence performance in generating colorectal surgery board questions

【字体：大中小】 时间：2026年02月20日 来源：The American Journal of Surgery 2.7

编辑推荐：

　　大语言模型在结直肠手术考试题目生成中表现不足，CARSEP评分最高达65%，远超其他模型。LLM在清晰度、相关性等指标显著落后，仅ChatGPT-4o接近CARSEP水平。研究证实当前LLM无法独立生成符合考试标准的高质量题目。

作者：Jonathan Zuo, Makenna Marty, Seija Maniskas, Gabriel Akopian, Karen Zaghiyan, Phillip Fleshner, Adam Truong

美国加利福尼亚州帕萨迪纳市Cedars-Sinai附属机构Huntington Health的结直肠外科部门

摘要

背景

大型语言模型（LLM）能够通过医学执照考试和专业委员会考试，但它们生成高质量考试题目的能力尚不确定。

方法

三个LLM各自根据美国结直肠外科委员会的指南生成了20道结直肠外科考试题目。作为对照，使用了结直肠外科教育项目（CARSEP）提供的题目。经过认证的结直肠外科医生在不知道题目来源的情况下，对每个题目的清晰度、相关性、适用性、干扰项的质量以及理由的充分性进行了评分，并将题目分类为“通过委员会审核”、“作者需要修改”或“不予接受”。

结果

CARSEP的“通过委员会审核”率最高（65%），而ChatGPT-4o为7%，Copilot Pro为10%，Gemini Advanced也为10%。在所有评估维度上，CARSEP的表现均显著优于其他LLM（p < 0.001），仅在题目适用性方面，大多数LLM的得分在70%以上。

结论

尽管LLM显示出潜力，但目前它们还无法持续生成高质量的结直肠外科考试题目。

引言

2022年OpenAI发布了Chat Generative Pretrained Transformer（ChatGPT），这标志着公众能够更广泛地使用人工智能，使大型语言模型（LLM）的应用更加普及。¹ LLM是基于大量数据训练的高级自然语言处理系统，能够合成、生成和理解人类语言，通常通过直观的界面模拟与人类的对话。²它们的应用领域包括教育、研究，以及越来越多的医学领域。³ 在医学教育方面，ChatGPT已证明能够在美国医学执照考试³⁴和特定专业的委员会考试中取得合格成绩。⁵⁶⁷除了考试表现外，LLM在生成研究生水平和特定专业的考试题目方面也显示出潜力。⁸⁹¹⁰有研究表明，ChatGPT能够生成高质量的放射学考试题目，表现优于同类聊天机器人。¹⁰据我们所知，目前还没有关于结直肠外科的类似数据，也没有不同LLM之间的直接比较研究。利用LLM辅助开发考试题目有助于增加题目的多样性，并减轻负责题目创建和审核的专家的行政负担。尽管关于LLM生成题目的质量或有效性的证据有限，但考生越来越可能将其作为备考工具。因此，我们旨在评估LLM生成高质量结直肠外科选择题的能力。我们假设LLM生成的题目虽然可能不如美国结直肠外科协会（ASCRS）结直肠外科教育项目（CARSEP）提供的题目，但仍然具有一定的价值。

研究部分

题目来源和模型选择

本研究选择了三种广泛使用且易于获取的LLM：OpenAI的ChatGPT-4o、Google的Gemini Advanced和Microsoft的Copilot Pro。每种LLM都有免费版本和订阅版本，付费版本提供了更强大的功能和最新的模型更新。本研究使用的数据收集时可用的最新付费版本。这些模型没有经过专门训练或微调。

结果

CARSEP的题目正确率显著高于其他LLM（83%，p = 0.01；图1）。Copilot Pro（60%）和Gemini Advanced（60%）的题目正确率较低（p = 0.02）。ChatGPT-4o和CARSEP的正确率分别为71%和83%（p = 0.5）。评分者之间的共识度（ICC）为0.47（p < 0.001）。在所有评估维度上，CARSEP的表现均显著优于其他LLM，仅在题目适用性方面除外。

讨论

研究结果表明，目前测试的LLM尚不足以独立生成高质量的结直肠外科选择题。只有ChatGPT-4o在题目正确率方面与CARSEP相当，但在其他评估指标上表现较差。相比之下，Gemini Advanced在五个评估指标中的三个指标上与CARSEP的表现相当。

结论

我们的研究表明，LLM具有生成高质量结直肠外科选择题的潜力。然而，目前大多数LLM仍无法达到委员会考试或备考的标准。

作者贡献声明

Jonathan Zuo：撰写、审阅与编辑、可视化、项目管理、方法论设计、数据整理、概念构思。 Makenna Marty：撰写、审阅与编辑。 Seija Maniskas：撰写、审阅与编辑。 Gabriel Akopian：撰写、审阅与编辑、数据整理。 Karen Zaghiyan：撰写、审阅与编辑、数据整理。 Phillip Fleshner：撰写、审阅与编辑。 Adam Truong：撰写、审阅与编辑。

资金支持

作者们未收到任何与本研究、作者身份及文章发表相关的财务支持。

利益冲突声明

所有作者声明与本研究、作者身份及文章发表无关的潜在利益冲突。

致谢

无。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号