人工智能在生成结直肠外科考试题目方面的表现

《The American Journal of Surgery》:Artificial intelligence performance in generating colorectal surgery board questions

【字体: 时间:2026年02月20日 来源:The American Journal of Surgery 2.7

编辑推荐:

  大语言模型在结直肠手术考试题目生成中表现不足,CARSEP评分最高达65%,远超其他模型。LLM在清晰度、相关性等指标显著落后,仅ChatGPT-4o接近CARSEP水平。研究证实当前LLM无法独立生成符合考试标准的高质量题目。

  
作者:Jonathan Zuo, Makenna Marty, Seija Maniskas, Gabriel Akopian, Karen Zaghiyan, Phillip Fleshner, Adam Truong
美国加利福尼亚州帕萨迪纳市Cedars-Sinai附属机构Huntington Health的结直肠外科部门

摘要

背景

大型语言模型(LLM)能够通过医学执照考试和专业委员会考试,但它们生成高质量考试题目的能力尚不确定。

方法

三个LLM各自根据美国结直肠外科委员会的指南生成了20道结直肠外科考试题目。作为对照,使用了结直肠外科教育项目(CARSEP)提供的题目。经过认证的结直肠外科医生在不知道题目来源的情况下,对每个题目的清晰度、相关性、适用性、干扰项的质量以及理由的充分性进行了评分,并将题目分类为“通过委员会审核”、“作者需要修改”或“不予接受”。

结果

CARSEP的“通过委员会审核”率最高(65%),而ChatGPT-4o为7%,Copilot Pro为10%,Gemini Advanced也为10%。在所有评估维度上,CARSEP的表现均显著优于其他LLM(p < 0.001),仅在题目适用性方面,大多数LLM的得分在70%以上。

结论

尽管LLM显示出潜力,但目前它们还无法持续生成高质量的结直肠外科考试题目。

引言

2022年OpenAI发布了Chat Generative Pretrained Transformer(ChatGPT),这标志着公众能够更广泛地使用人工智能,使大型语言模型(LLM)的应用更加普及。1 LLM是基于大量数据训练的高级自然语言处理系统,能够合成、生成和理解人类语言,通常通过直观的界面模拟与人类的对话。2它们的应用领域包括教育、研究,以及越来越多的医学领域。3 在医学教育方面,ChatGPT已证明能够在美国医学执照考试34和特定专业的委员会考试中取得合格成绩。567除了考试表现外,LLM在生成研究生水平和特定专业的考试题目方面也显示出潜力。8910有研究表明,ChatGPT能够生成高质量的放射学考试题目,表现优于同类聊天机器人。10据我们所知,目前还没有关于结直肠外科的类似数据,也没有不同LLM之间的直接比较研究。 利用LLM辅助开发考试题目有助于增加题目的多样性,并减轻负责题目创建和审核的专家的行政负担。尽管关于LLM生成题目的质量或有效性的证据有限,但考生越来越可能将其作为备考工具。因此,我们旨在评估LLM生成高质量结直肠外科选择题的能力。我们假设LLM生成的题目虽然可能不如美国结直肠外科协会(ASCRS)结直肠外科教育项目(CARSEP)提供的题目,但仍然具有一定的价值。

研究部分

题目来源和模型选择

本研究选择了三种广泛使用且易于获取的LLM:OpenAI的ChatGPT-4o、Google的Gemini Advanced和Microsoft的Copilot Pro。每种LLM都有免费版本和订阅版本,付费版本提供了更强大的功能和最新的模型更新。本研究使用的数据收集时可用的最新付费版本。这些模型没有经过专门训练或微调。

结果

CARSEP的题目正确率显著高于其他LLM(83%,p = 0.01;图1)。Copilot Pro(60%)和Gemini Advanced(60%)的题目正确率较低(p = 0.02)。ChatGPT-4o和CARSEP的正确率分别为71%和83%(p = 0.5)。评分者之间的共识度(ICC)为0.47(p < 0.001)。 在所有评估维度上,CARSEP的表现均显著优于其他LLM,仅在题目适用性方面除外。

讨论

研究结果表明,目前测试的LLM尚不足以独立生成高质量的结直肠外科选择题。只有ChatGPT-4o在题目正确率方面与CARSEP相当,但在其他评估指标上表现较差。相比之下,Gemini Advanced在五个评估指标中的三个指标上与CARSEP的表现相当。

结论

我们的研究表明,LLM具有生成高质量结直肠外科选择题的潜力。然而,目前大多数LLM仍无法达到委员会考试或备考的标准。

作者贡献声明

Jonathan Zuo:撰写、审阅与编辑、可视化、项目管理、方法论设计、数据整理、概念构思。 Makenna Marty:撰写、审阅与编辑。 Seija Maniskas:撰写、审阅与编辑。 Gabriel Akopian:撰写、审阅与编辑、数据整理。 Karen Zaghiyan:撰写、审阅与编辑、数据整理。 Phillip Fleshner:撰写、审阅与编辑。 Adam Truong:撰写、审阅与编辑。

资金支持

作者们未收到任何与本研究、作者身份及文章发表相关的财务支持。

利益冲突声明

所有作者声明与本研究、作者身份及文章发表无关的潜在利益冲突。

致谢

无。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号