《Computers and Education Open》:Student engagement with ChatGPT for educational tasks: Effects of inoculation training on verification intentions and behavior
编辑推荐:
随着生成式AI工具在教育领域的普及,其潜在的“幻觉”与误报风险日益凸显,尤其是对于学术支持需求更高的国际EFL学生。为此,研究人员采用2(学生身份:本土 vs. 国际EFL)×2(接种状态:接种 vs. 未接种)×2(时间:前测 vs. 后测)混合因子实验设计,探究了简短通用的接种训练能否提升学生在使用ChatGPT完成学术任务时的信息核查意愿与行为。研究发现,接种信息虽未显著改变学生的核查意愿,但在学术文献摘要任务中,接受接种的学生实际核查行为显著增多。然而,在数学任务中,接种效果不显著,这可能与学生普遍信任AI的数学输出有关。该结果为教育者设计更有针对性的AI素养培训项目提供了实证依据,强调了在学术任务中,通过预警式接种干预可有效提升学生对AI生成信息的审慎态度。
当ChatGPT等生成式人工智能(GenAI)工具如潮水般涌入课堂,成为学生们的“全能学术助手”时,一个潜藏的危机也随之浮出水面:这些工具可能生成看似合理实则错误的“幻觉”(hallucinations)信息,或传播偏见与不实内容。学生们,尤其是那些面临语言障碍、迫切需要学术支持的国际英语作为外语(EFL)学生,可能会过度依赖这些工具,从而在不知不觉中传播错误信息,甚至引发学术不端行为。虽然已有研究呼吁在教学中融入人类监督或“预揭穿”(prebunking)干预,但鲜有实证研究检验这些简短、可规模化培训措施对不同学生群体的实际效果。更关键的是,以往研究多聚焦于工具的应用本身,而忽视了如何引导学生对AI生成内容进行验证这一安全保障环节。
为此,波士顿大学传播学院的Chi B. Vu、James J. Cummings和Daniel Y. Park开展了一项研究,旨在探究一种名为“接种训练”(inoculation training)的干预措施,能否像疫苗一样,预先为学生构建对ChatGPT潜在风险的“免疫力”。这项研究发表在《Computers and Education Open》期刊上。研究人员想知道,一个简短的、通用的预警信息(即“接种信息”)能否增强学生核实ChatGPT所提供信息的意图,并最终促使他们付诸行动。
为了回答这些问题,研究团队采用了严谨的实证方法。他们设计了一个在线两阶段实验,招募了100名有ChatGPT使用经验的美国大学生(包括40名本土学生和60名国际EFL学生)。实验采用2(学生身份:本土 vs. 国际EFL)×2(接种状态:接种 vs. 未接种)×2(时间:前测 vs. 后测)的混合因子设计。在第一阶段(前测),所有参与者都填写了一份问卷,测量他们使用ChatGPT时核查信息的意愿。48小时后,进入第二阶段(后测)。参与者被随机分为两组:实验组在开始任务前会阅读一段关于ChatGPT可能产生不准确信息、存在局限性和偏见的简短警告文本(即“接种信息”);对照组则不接收此信息。随后,所有参与者被要求使用ChatGPT完成两项限时6分钟的学术任务,同时需要录屏以记录其行为。这两项任务分别是:1)学术文献摘要任务:要求ChatGPT查找并总结一篇在线学术文章的主要内容和一项关键发现;2)数学问题解答任务:包含两道已知可能引发ChatGPT出错的数学题(涉及指数运算和大数乘法)。任务完成后,参与者再次填写问卷,报告其核查意愿,并回答对接种信息有用性的看法。研究人员通过分析问卷数据和录屏中观察到的实际核查行为(即是否使用其他在线工具验证ChatGPT的答案),来评估接种训练的效果。
4.2. 学生身份对核查意愿与行为的影响(RQ1)
- •
4.2.1. 核查信息来自ChatGPT的意愿(RQ1a)
分析结果显示,本土学生与国际EFL学生在使用ChatGPT前后,其自我报告的核查意愿没有显著差异。这表明,不同学生群体在主观意愿层面可能都已意识到需要核查AI生成内容。
- •
4.2.2. 核查行为(RQ1b)
然而,在实际行为上出现了分化。对于数学问题,本土学生验证ChatGPT答案的几率显著低于国际EFL学生(优势比为0.16)。一个可能的解释是,国际EFL学生在STEM科目上可能更具优势或更为谨慎,从而更倾向于核查数学答案。而在学术文献摘要任务上,两组学生的核查行为没有显著差异。
4.3. 接种与非接种学生的核查意愿与行为(RQ2)
- •
4.3.1. 接收接种信息后的核查意愿(RQ2a)
接种信息并未显著改变学生们自我报告的核查意愿。无论是接种组还是对照组,其前后测的意愿评分均只有小幅、平行的增长。这可能存在“天花板效应”,即学生们在实验前就已普遍认同应谨慎对待AI输出。
- •
4.3.2. 接收接种信息后的核查行为(RQ2b)
这是研究的关键发现。在学术文献摘要任务中,接受接种训练的学生(34%进行了核查)比未接受的学生(18%进行了核查)表现出显著更高的实际核查率。这表明,尽管意愿未变,但接种信息成功地将学生的审慎态度转化为了具体行动。然而,在数学问题解答任务中,接种干预没有产生显著效果,两组学生的核查率都很低(接种组10%,对照组8%)。
4.4. 接种前后核查意愿的差异(RQ3)
从整体上看,从实验前到实验后,学生们的核查意愿并未发生显著变化。时间与接种状态、学生身份之间也不存在显著的交互作用。这再次印证了主观意愿的稳定性。
4.5. 接种信息的感知有用性(RQ4)
数据分析表明,参与者普遍认为接种信息是有用的。其感知有用性(PU)的平均得分(5.35)显著高于量表中值(4),效应量较大。
4.6. 参与者对接种信息及传递方式的看法(RQ5)
对开放式问题的定性分析揭示了更深层次的洞察。反馈主要围绕两个主题:一是对接种信息内容的反馈。部分学生表示,信息增强了他们对ChatGPT在学术任务中可能出错的“意识”,促使他们回溯核查来源。但同时,许多学生仍对ChatGPT解决数学问题的能力表现出高度“信任”,认为其“编码系统”理应正确,从而降低了核查动力。二是对接种训练传递方式的反馈。参与者建议,未来培训应包含更具体的错误实例(如截图),并采用更具互动性和视觉吸引力的形式(如视频培训辅以真人答疑)。此外,“时间压力”被多次提及,成为许多学生放弃核查、直接采纳AI答案的主要理由。
综合以上结果,本研究得出了明确且富有层次的结论。首先,简短的、通用的预警式接种信息,能够有效促使学生在完成学术文献摘要这类任务时,更频繁地实际核查ChatGPT生成的内容,尽管它未能提升学生自我报告的核查意愿。这证实了“接种理论”在应对AI生成信息风险方面的适用性,即预先的警告可以像疫苗一样,在一定程度上提升个体的“抵抗力”。其次,接种训练的效果具有“任务特异性”。它在需要定性判断、易产生“幻觉”的学术摘要任务中有效,但在被视为AI强项的数学计算任务中效果甚微。这提示我们,学生对不同领域AI能力的固有信任度,是影响干预效果的关键变量。最后,学生身份(本土 vs. 国际EFL)仅在数学任务核查行为上显示出差异,国际学生更谨慎,这可能与其学科背景或对AI工具的不同使用策略有关。
这些发现具有重要的理论与实践意义。在理论层面,它扩展了接种理论在AI与教育交叉领域的应用,证明了即使没有详细驳斥的“通用信息”也能引发行为改变,同时揭示了任务类型和用户背景是调节干预效果的关键因素。在实践层面,它为教育者、课程开发者和学校管理者提供了直接指导:1) 设计差异化培训:AI素养培训不能“一刀切”,需针对不同任务类型(如文、理科)和学生群体(如国际学生)设计侧重点不同的内容,特别是在学生过度信任的领域(如数学)加强风险警示。2) 优化干预形式:学生反馈表明,结合具体案例、采用视频等多媒体形式、并提供互动答疑的培训,可能比纯文本警告效果更好。3) 关注现实约束:研究揭示了“时间压力”是阻碍学生实践核查意愿的主要现实障碍。因此,教育培训除了传授“要核查”的观念,还需纳入时间管理策略,并考虑在课程设计中如何平衡任务量,为学生留出批判性思考的空间。总之,这项研究为实现“负责任地使用AI”这一教育目标迈出了实证的一步,指出了一条通过针对性、情境化的“接种”来提升学生AI批判性素养的可行路径。