利用随机化方法比较医学教育中人工智能生成的形成性评估问题与专家生成的形成性评估问题

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Medical Education Online》：Using randomization to compare AI and expert-generated formative assessment questions in medical education

【字体：大中小】 时间：2026年05月11日 来源：Medical Education Online 3.8

编辑推荐：

　　摘要背景：人工智能生成的内容正在教育领域得到广泛应用，对于创建复杂的多项选择题（如医学教育中使用的那种）非常有益。然而，评估人工智能生成的内容具有挑战性，现有的测试和评估方法存在不足。本研究使用随机化方法来比较医学生在人工智能生成问题和专家生成问题上的表现以及他们对这些问题的主

　　摘要
背景：人工智能生成的内容正在教育领域得到广泛应用，对于创建复杂的多项选择题（如医学教育中使用的那种）非常有益。然而，评估人工智能生成的内容具有挑战性，现有的测试和评估方法存在不足。本研究使用随机化方法来比较医学生在人工智能生成问题和专家生成问题上的表现以及他们对这些问题的主观评价。我们假设学生在人工智能生成问题和专家生成问题上的表现或主观评价没有差异。

方法：我们设计了一项单中心、随机化研究，医学生参与者在四周内每天接收一个由人工智能生成的问题或一个由专家生成的问题。

结果：研究表明，参与者对人工智能生成问题和专家生成问题的看法相似（p=0.18），正确回答的比例分布没有显著差异。28天内正确回答问题的累计比例在两组问题中是一致的。然而，参与者将53%的人工智能生成问题评为非常容易或容易，而专家生成的问题中只有31%被如此评价。

讨论：随机化对于证明人工智能生成的问题与专家生成的问题几乎无法区分至关重要，这表明需要额外的评估方法来比较人工智能生成的内容和专家生成的内容在医学教育中的效果。

关键词：生成式AI；医学教育；形成性评估；多项选择题；随机化研究

引言：生成式AI的发展速度超过了现有的测试和评估方法，这为评估生成式AI内容带来了挑战 [Citation1]。此外，大多数研究集中在评估AI的可靠性上，而不是其可用性或与人类生成内容的比较 [Citation2]。生成式AI被用于开发教育评估内容，特别是多项选择题（MCQs），但缺乏与专家生成内容的对比。多项选择题在医学院的评估中广泛使用，使用生成式AI来创建这些问题比使用专家生成的问题更高效且成本更低。尽管之前有一些研究测试了人工智能生成问题的有效性，但结果并不统一 [Citation3]。本研究通过考察28天内随机生成的人工智能生成问题和专家生成问题的回答模式，填补了在比较这两种内容方面的空白，并假设参与者在感知和表现上没有统计学上的显著差异。

方法：我们设计了一项单中心、随机化研究，参与者在2024年3月学习了生殖系统课程后28天内每天接收一个由人工智能生成的问题或一个由专家生成的问题。参与者是德克萨斯大学休斯顿分校麦戈文医学院四年制MD项目的二年级医学生。问题通过QuizToo平台发送给学生 [Citation4]，该平台提供间隔式微学习（每日问题推送）[Citation5, Citation6]。参与是自愿的，并且该研究已获得人类受试者保护委员会 [UTHSC-H] 根据协议HSC-SBMI-23-1137的批准。所有参与者都收到了关于研究的说明信，并被要求同意参与。参与包括审阅并确认说明信、完成研究前后的调查问卷、注册QuizToo模块以及在研究期间至少回答一个问题。

2024年1月，我们基于生殖系统课程创建了两组问题：1）通过OpenAI、ChatGPT-4生成的人工智能生成问题；2）专家生成的问题。人工智能生成的问题经过生殖系统课程主任的审核后被批准或拒绝；被接受的人工智能生成问题未经编辑。QuizToo被配置为将参与者随机分为两组；每天一组接收一个人工智能生成的问题，另一组接收一个专家生成的问题。QuizToo每天重新随机分组；参与者和研究协调员都不知道每个参与者收到的问题类型。每个问题之后，参与者会立即收到关于他们的答案是否正确的反馈。参与者被鼓励对每个问题提供反馈，评估问题的难度（使用李克特量表）以及他们认为问题是人工智能生成的还是专家生成的。

我们在28天内收集了以下数据：1）准确性——我们比较了参与者在人工智能生成问题和专家生成问题上的答案，并测量了准确性在整个研究过程中的变化；2）猜测问题是否由人工智能生成或专家生成——我们要求参与者猜测每个问题是由人工智能生成还是专家生成的；3）问题的质量和难度感知——我们要求参与者使用难度李克特量表对每个问题进行评分；4）对生成式AI在教育中的感知——我们要求参与者完成关于他们对生成式AI的看法的前后调查问卷。调查问卷改编自Yilmazet及其同事（2023年）和Triana及其同事（2021年）的研究，详细内容见补充材料 [Citation7, Citation8]。

结果：共有36名参与者完成了前测问卷，30名参与者注册了研究，28名参与者回答了每日问题，22名参与者完成了后测问卷（见表1中的后测问卷结果）。

表1. 后测问卷的回答百分比（n=22）。

准确性：图1A的直方图与叠加的核密度曲线显示，问题的回答分布在不同的准确性水平上，其中在中等难度水平（大约0.5到0.7之间）的学生数量较多。由于这些分布的方差和分布范围可能不等，我们使用了Wilcoxon秩和检验来评估两个分布是否有统计学上的显著差异。根据我们的统计分析，人工智能生成问题的质量与专家生成问题的质量相似（p=0.18）。在图1B和C中，每条彩色线条代表了一位参与者在两组问题中的累计表现趋势。两张图表都没有显示出问题组之间的急剧上升或下降趋势，表明参与者没有随时间学习到问题回答的模式。

图1. 准确性。1A）不同表现分位数下的学生比例，分别对应专家生成问题和人工智能生成问题；1B）正确回答专家生成问题的累计比例的个体趋势。每条彩色线条代表了一位参与者在两组问题中的累计表现趋势。y轴上的累计比例反映了截至该点为止正确回答问题的比例。x轴上的时间戳表示问题的顺序或时间。粗黑线是总结所有参与者平均趋势的平滑趋势线。累计比例轴上0.5处的黑线表示随机猜测的模式。该图的结果表明，整体趋势远高于随机猜测；1C）正确回答人工智能生成问题的累计比例的个体趋势。每条彩色线条代表了一位参与者在两组问题中的累计表现趋势。y轴上的累计比例反映了截至该点为止正确回答问题的比例。x轴上的时间戳表示问题的顺序或时间。粗黑线是总结所有参与者平均趋势的平滑趋势线。累计比例轴上0.5处的黑线表示随机猜测的模式。该图的结果表明，整体趋势远高于随机猜测。

三个图表分别展示了准确性和累计比例。A面板展示了两个条形图，上面叠加了核密度曲线。水平轴表示准确性，范围从0到1；垂直轴表示百分比，范围从0到30。左侧的条形图标记为“Expert”，显示出一个双峰分布，峰值在0.25和0.75左右；右侧的条形图标记为“AI”，也显示出一个双峰分布，峰值在0.25和0.75左右，但0.75处的峰值更高。图例表示条形的百分比和曲线的核密度。B面板是一张线图，标题为“正确回答人工智能生成问题的累计比例的个体趋势”。水平轴表示时间戳；垂直轴表示累计比例，范围从0.00到1.00。多条细线代表个体趋势，通常在0.75附近增加或波动。一条粗黑线代表整体趋势，从0.70左右开始，稍微下降，然后在0.65到0.70之间稳定。C面板是一张线图，标题为“正确回答专家生成问题的累计比例的个体趋势”。水平轴表示时间戳；垂直轴表示累计比例，范围从0.00到1.00。多条细线代表个体趋势，通常在0.75附近增加或波动。

猜测：我们统计了参与者对他们认为问题是由人工智能生成还是专家生成的回答，结果显示他们44.4%的时间正确猜测了人工智能生成的问题，47.7%的时间正确猜测了专家生成的问题（见图2和表2）。尽管参与者正确猜测专家生成问题的频率略高，但差异不足以表明他们能够区分这两种类型的问题。这表明参与者无法区分人工智能生成的问题和专家生成的问题。

图2. 参与者对“你认为这个问题是由人工智能生成还是专家生成的？”这个问题的回答，按问题类型分类。

难度：我们统计了参与者对每个问题难度的感知，结果显示他们将53%的人工智能生成问题评为非常容易或容易，而将31%的专家生成问题评为非常容易或容易。这表明本研究选择的人工智能生成问题被感知为比专家生成的问题更容易（见图3和表3）。

图3. 参与者对人工智能生成问题和专家生成问题难度的感知。

总结：随机化人工智能生成问题和专家生成问题对于准确确定两者之间的相似性和差异至关重要。这项研究表明，生成式AI在为医学生创建形成性评估问题方面具有巨大潜力，但也存在一些局限性。本研究的样本量较小，且来自单一机构。未来的研究应包括至少400名来自多所医学院的参与者，以探讨生成式AI是否可以被广泛采用 [Citation9]。此外，在将医学院内容生成任务交给AI之前，我们必须无偏见地确定它是否与专家生成的内容相当或更好。这项研究强调了在测试人工智能生成内容与专家生成内容的效果时需要额外的评估方法。

生成式AI已经在教育领域的许多应用中迅速成为重要工具。通过在我们的研究中使用随机化方法，数据支持生成式AI可以用于创建医学教育中的形成性评估问题。所有参与者都收到了一封关于该研究的信息函，并被要求同意参与这项研究。在涉及人类参与者的研究中，所有程序均遵循德克萨斯大学休斯顿健康科学中心（UTHSC-H）机构审查委员会的伦理标准，以及1964年《赫尔辛基宣言》及其后续修订条款或类似的伦理标准。

**补充材料**
可下载MS Word格式的补充材料（文件大小：19 KB）：[Supplement.docx]

**资金情况**
本项研究未收取任何资金。

**数据获取声明**
支持本研究结果的数据可由通讯作者TAS提供，如需获取，请提出合理请求。

**补充数据**
本文的补充数据可通过以下链接获取：
https://doi.org/10.1080/10872981.2026.2671586

联系信箱：

粤ICP备09063491号

热点排行