《Computers and Education: Artificial Intelligence》:Less stress, better scores, same learning: The dissociation of performance and learning in AI-supported programming education
编辑推荐:
这项研究针对生成式AI在编程教育中的影响尚不明确的问题,研究人员开展了一项随机对照试验,比较了三种AI支持类型(支架式辅导Iris、无限制ChatGPT、无AI对照)对大学生编程任务表现、概念学习、认知负荷和内在动机的影响。研究发现,尽管AI辅助显著提高了任务完成分数并降低了挫折感,但并未带来显著的知识增益,且只有Iris能提高内在动机。结果表明,生成式AI主要充当了“表现助手”而非“学习增强器”,凸显了在编程教育中整合有教学法指导的AI与设计能抵御仅依赖表现评估的评估系统的重要性。
生成式人工智能如ChatGPT和GitHub Copilot的兴起,正在深刻重塑编程课堂。数以百万计的学习者习惯于将家庭作业题目粘贴到大型语言模型聊天窗口,然后收到语法完美的代码。高校对此反应迅速,有的彻底禁止,有的则热情拥抱。然而,关于这些工具究竟如何影响学习的实证证据仍然匮乏。争论两极分化:批评者认为无处不在的代码生成器会诱惑初学者将认知工作外包,从而阻碍真正的理解;支持者则强调AI在降低挫折感、通过复杂语法支持初学者以及提供专家级反馈方面的潜力。编程入门课程(CS1)通常以高退课率、高认知负荷和显著的学生挫败感而闻名,AI或许能通过提供及时的提示或完整的解决方案来缓解这些挑战,但即时获取答案的便利性也可能“短路”掉理论上能够培养强大心智模型的“生产性挣扎”。一个根本问题由此产生:AI工具能否在保留建立稳固心智模型所需的“生产性”挑战的同时,减少因混乱的语法错误和不透明的编译器消息造成的“非生产性”挫折感?还是说,方便的解决方案获取会同时消除两者,制造一种能力幻觉?
为了解决这一系列问题,来自德国慕尼黑工业大学的研究团队开展了一项三臂随机对照试验,研究结果发表在《Computers and Education: Artificial Intelligence》期刊上。他们设计了一个90分钟的并发编程练习,要求275名CS1课程的学生实现一个并行求和计算器。参与者被随机分配到三种条件之一:(1) 使用Iris,这是一个提供校准提示但保留完整解决方案的支架式辅导系统;(2) 使用不受限制的ChatGPT,可以按要求提供完整答案;(3) 无AI对照组,使用传统网络资源。研究通过自动化评分的测试覆盖率来测量表现,通过前后知识测试和代码理解任务来测量学习,并使用经过验证的量表来捕获内在、关联(germane)和外在(extraneous)认知负荷、挫折感以及内在动机。
关键研究方法
研究人员在一个本科入门编程课程中设计了包含275名参与者的三组随机对照实验。实验任务为一项90分钟的Java并发编程练习。通过课前课后知识测试、代码理解任务以及自动化评分系统收集表现与学习数据。同时,使用经过验证的心理测量量表(包括内在动机量表IMI和认知负荷分量表)收集认知负荷、挫折感及内在动机数据。所有数据收集均在课程管理平台Artemis上完成,确保了实验环境的整合与数据记录的完整性。
研究结果
AI辅助显著提高了练习成绩
实验结果显示,两个AI辅助组(Iris和ChatGPT)在编程练习中的得分均显著高于无AI对照组。具体而言,ChatGPT用户得分高度集中在高分区域,对照组参与者得分集中在低分区,而Iris用户的得分则分布在整个范围内。这表明AI工具在帮助完成任务方面具有显著效果。
但未带来显著的学习增益
尽管表现上存在差异,但在前后知识测试的增益上,两个AI条件均未产生比对照组更大的知识增长。在代码理解任务上,AI组也并未显示出优势。这一发现揭示了“表现”与“学习”之间的解离:AI主要帮助学生更快更好地完成任务,但并未同等有效地增强他们对底层概念的理解。
AI降低了挫折感和外部认知负荷
在心理体验方面,两个AI组报告的挫折感以及外部认知负荷(由混乱的指令或无关信息引起的负荷)均显著低于对照组。同时,关联认知负荷(投入于建构图式的生产性认知努力)也有所降低。然而,内在认知负荷(由学习材料固有的复杂性引起)在组间没有差异。这表明AI帮助减少了与任务本身无关的“摩擦”和努力,但可能也同时减少了投入到深层学习中的有益努力。
只有支架式AI提高了内在动机
在动机方面,只有使用Iris(支架式AI辅导)的学生报告了显著更高的内在动机(由兴趣和享受驱动)。相比之下,ChatGPT组虽然被学生评价为“更容易使用”和“更有帮助”,但在内在动机上与对照组没有显著差异。这意味着直接提供答案的便利性虽然受到学生欢迎,却可能无助于培养他们对学习内容本身的兴趣和投入感。
学生偏好与教学效果存在错位
一个引人深思的发现是学生的评价与客观学习结果之间的不匹配。尽管ChatGPT组在客观学习增益上与Iris组无差异,但学生却认为ChatGPT更容易使用且更有帮助。这揭示了一种“舒适陷阱”:学生倾向于偏好那些让他们感觉更轻松、能提供直接答案的工具,即使这些工具可能并不利于长期的知识建构。
结论与重要意义
本研究的核心结论是,在当前设置下,生成式人工智能主要充当了“表现助手”而非“学习增强器”。它能够有效地提升任务完成度并降低学生在过程中的负面体验,但未能转化为更深层次的概念学习。这一发现对编程教育乃至更广泛的教育领域具有多重重要意义。
首先,它强调了AI工具教学设计的关键作用。支架式、提示优先的设计(如Iris)保留了动机益处,而提供无限制解决方案的AI(如ChatGPT)则可能鼓励一种“舒适陷阱”,即学生的偏好与教学效果之间存在错位。这表明,简单地引入AI工具不足以促进学习;必须对其进行精心设计,以平衡支持与挑战,引导而非替代学生的认知过程。
其次,研究结果呼吁教育评估体系进行根本性的反思。在一个AI辅助无处不在的环境中,传统的基于任务完成度或代码正确性的表现评估可能不再能可靠地追踪学生对概念的理解。教育者需要开发更具韧性的评估设计,能够评估批判性思维、问题分解能力和对生成代码的理解,而不仅仅是最终产品。
最后,本研究揭示了认知负荷理论的复杂性在AI辅助学习中的体现。AI成功地减少了外部认知负荷(非生产性挫折),但也可能同时减少了关联认知负荷(生产性学习努力)。未来的教育AI设计需要更精细地瞄准不同类型的认知负荷,在消除障碍的同时,保留甚至激发对深层学习至关重要的认知投入。
总之,这项研究为在编程教育中负责任地、有教学法依据地整合AI提供了重要的实证依据。它指出,未来的方向不应是禁止AI,而是设计能够引导学生进行“生产性挣扎”的智能辅导系统,并重新构想能够衡量真实理解的评估方法,从而在AI时代真正实现“更少压力、更优表现”的同时,也能达成“更优学习”的目标。