《Computers and Education: Artificial Intelligence》:Undergraduate students’ learning outcomes with ChatGPT: A meta-analytic study
编辑推荐:
这篇荟萃分析综述了2023年1月至2025年5月间发表的66项实证研究(共129个效应量),定量评估了ChatGPT在提升本科生学业成果上的总体效果与影响因素。结果显示,ChatGPT应用对学习成果具有显著的积极影响(Hedges' g = 1.14),效应量为“大”级别。分析发现,学习效果的异质性可能与学生先前对ChatGPT的接触程度、专业背景(如STEM与非STEM)以及使用时是否获得指导等因素相关。该研究为人工智能(AI)在高等教育中的有效整合提供了基于证据的见解,并指出了未来研究与实践的方向。
引言
自问世以来,ChatGPT作为一种先进的大型语言模型(LLM),在高等教育领域引起了广泛关注并引发了激烈讨论。一方面,研究强调了其在提升学生参与度、理解力和整体学习成果方面的积极潜力;另一方面,也有声音对其效果的一致性及可能带来的负面影响表示担忧。这种讨论因现有研究在实验设计、样本规模和方法论上的多样性而加剧,导致学界对ChatGPT在教育环境中的真实影响缺乏共识。为应对这种不确定性并整合现有证据,本研究采用荟萃分析方法,系统性地综合了2023年1月1日至2025年5月31日期间发表的实证研究,旨在评估ChatGPT应用对本科生学习成果的影响,为教育工作者、管理者和政策制定者提供关键见解。
文献综述
人工智能在教育中的简史
人工智能在教育中的应用始于20世纪60年代的计算机辅助教学,并随着技术的发展不断演进。互联网学习和数据驱动教育工具的普及为人工智能在多种教育场景中发挥更核心的作用奠定了基础。自适应学习平台通过利用大数据和实时反馈优化学习路径,实现了学习体验的个性化。以ChatGPT为代表的大型语言模型的出现,进一步扩展了人工智能在教育中的潜力,为提供个性化反馈、灵活调整学习节奏和获取广泛信息开辟了新的可能性,从而能够以前所未有的灵活性满足广泛的教育需求和学习风格。
ChatGPT在本科生中的应用
自2022年11月发布以来,ChatGPT凭借其类人的文本生成能力,迅速在包括高等教育在内的多个领域获得广泛应用。其在教育环境中的应用主要由个性化学习和提升学生参与度的潜力所驱动。研究表明,ChatGPT已在商业、计算机科学、工程学、胃肠病学、医疗保健、语言学等多个学科领域得到应用。这种人工智能技术的更广泛采纳,正在推动学生与学习材料及课程内容互动方式的转变,从传统模式转向创新的、技术为中介的路径。
ChatGPT在高等教育中的当前应用
人工智能在高等教育中的整合正在改变教学方法,而ChatGPT凭借其先进的语言处理能力处于前沿。研究表明,ChatGPT能够增强学生参与度、促进协作学习,从而改善跨学科的学习成果。在语言教育中,它对英语作为第二语言(ESL)和英语作为外语(EFL)的学习者提供了显著的帮助。此外,ChatGPT在学术写作和反馈、复杂学科(如数学)的辅导与问题解决,以及课程内容和教材开发方面的应用,都突显了其在变革教育体验方面的多面性角色。
对ChatGPT及AI教育应用的争议性看法
尽管以ChatGPT为代表的人工智能技术在教育环境中益处显著,但其应用仍存在争议和复杂情绪。主要担忧包括:可能提供不准确信息从而负面影响学习;存在隐私和安全风险,可能导致个人信息泄露;并非所有学生都能平等获得人工智能技术,可能加剧数字鸿沟和教育不平等;过度依赖AI可能阻碍批判性思维和解决问题能力的发展;使学生减少自主探索信息和深入参与材料的动力;以及可能助长学术不端行为,如抄袭或作弊。此外,ChatGPT可能强化现有偏见,传播刻板印象和错误信息,若学生缺乏批判性思维能力,可能受到误导。这些争议凸显了需要在最大化AI教育潜力的同时,减轻相关风险的平衡方法。
本研究目的
ChatGPT问世后,相关学术研究激增,产生了大量且快速增长的文献。这种研究热潮需要一个综合性的整合来理解其在这些情境下的优势和局限。本研究旨在通过荟萃分析,填补现有系统综述在时间范围和焦点上的空白,专注于ChatGPT在本科生学习体验中的整合。通过评估更广泛的近期研究,本研究旨在更全面地理解ChatGPT在提升本科生教育成果中的作用和潜力,为制定知情的政策和有效使用ChatGPT的策略提供关键见解,并优化其作为辅助性教育工具的用途。
理论框架:教育中的人工智能整合(IAIE)框架
本研究采用了整合性人工智能教育(IAIE)框架作为理论指导。该框架综合了现有文献中的理论和模型,从三个层面概念化了教育中的人工智能整合:学习者导向(AI工具支持个性化学习体验)、教师导向(AI辅助教育者定制教学策略和监控学生进展)以及机构系统导向(AI为政策制定提供信息并优化教育环境)。人工智能在该框架内的角色包括作为提供定制化教学的智能导师、协助复杂认知任务的学习伙伴,以及帮助制定教育战略的政策顾问。IAIE框架强调创建适应性、透明且符合伦理的学习环境的重要性,确保AI工具不仅在个性化学习方面有效,而且具备可访问性、公平性并得到负责任的使用。
方法
研究识别
本荟萃分析的目标研究是报告ChatGPT使用对本科生学习成果影响的实证定量研究。检索时间范围为2023年1月1日至2025年5月31日,覆盖九个电子数据库。通过应用布尔运算符和关键词优化检索策略,并依据预定义的纳入/排除标准进行筛选。初始识别出5554项潜在研究,去除重复项后对3178篇摘要进行筛选,保留607篇进行全文审查,最终纳入66篇文章,共包含129个效应量,涉及5708个案例。
编码程序
为进行荟萃分析,我们制定了系统的编码表,以确保从纳入的研究中准确、一致地提取所有相关数据。我们确定了作为潜在调节因素调查的关键变量,包括“研究类型”、“专业”、“先前ChatGPT使用经验”以及“ChatGPT应用中是否存在指导”。学生先前使用ChatGPT的经验可能影响他们与工具的互动方式。此外,不同学科(如人文学科与STEM)与AI工具的交互方式可能存在差异,ChatGPT的相关性和效用也因此可能不同。学生被引入和使用ChatGPT的方式(例如是否有结构化指导)也可能对其效果产生重大影响。我们为每个变量建立了操作定义,并在对全部研究进行编码前,通过试点编码和讨论确保了编码者间信度高于90%。
效应量计算
由于所选文章的方法学和结局指标差异显著,为确保一致性,我们决定使用经过样本量调整的标准化均值差——Hedges' g作为效应量的通用度量。当研究中未报告效应量时,我们从现有的描述性统计数据中计算效应量,然后将其转换为Hedges' g。
具有多重效应量的研究处理
一些纳入的研究提供了多个效应量,这在使用来自同一样本的数据时可能导致依赖性。我们通过应用稳健方差估计(RVE)来处理这种依赖性。此外,对于与本荟萃分析目标(分析本科生学习成果)不相关的效应量,我们予以排除。
不同研究设计的效应量转换至通用度量
所选文章在研究设计上差异显著。其中7项研究采用了干预前/后重复测量设计,其余61项研究采用了独立的控制组/实验组设计。为使来自重复测量设计的效应量与独立组设计研究的效应量具有可比性,我们根据Morris和DeShon(2002)提出的公式进行了转换,并进一步转换为Hedges' g用于荟萃分析。
数据分析
我们应用了随机效应模型,并首先通过森林图可视化各研究间效应量的变异。在基于标准误的逆方差加权法计算了所检索效应量的加权平均值后,我们进行了Cochran's Q检验以评估效应量间的异质性,并计算了研究间变异百分比(I2)和研究间方差估计值(τ2)。我们通过漏斗图的视觉检查和Egger's检验来评估发表偏倚。为了进一步探索效应量异质性的来源,我们使用RVE和小样本校正,对四个潜在调节变量进行了调节效应分析:研究类型、先前ChatGPT使用经验、学生专业以及ChatGPT应用中指导的存在与否。
结果
效应量的异质性
在RVE模型下(设定ρ = .8),加权平均效应量(Hedges' g)为1.14,标准误为0.185(n = 66项研究,129个结果,95% CI [0.77, 1.51],p < .01)。这表明ChatGPT的使用对本科生的学习成果有显著的积极影响,超过了Cohen关于大效应量的常规阈值(g > 0.8)。敏感性分析表明这一发现具有稳健性。
森林图展示了66项纳入研究中129个独立效应量的分布,可视化地呈现了ChatGPT对学习成果影响的异质性。加权平均效应量(g = 1.14)由图底部的菱形表示。分布显示各研究间的效应量大小和精确度存在相当大的变异性,Hedges' g效应量范围从-4.04到11.69。与森林图的观察一致,异质性检验表明效应量之间存在显著变异(Q(128) = 2959.03, τ2= 1.92, I2= 97.62%, p < .01)。尽管Q检验在大样本下容易得出显著性结果,但森林图和高异质性指数共同支持了研究间方差对观察到的效应量异质性有系统性贡献的观点。
发表偏倚
我们使用漏斗图来评估纳入研究中的发表偏倚。图表显示,大多数效应量集中在图中心附近,但存在明显的不对称性。Egger's漏斗图不对称性检验的结果也表明纳入研究存在发表偏倚的证据(z = 9.06, p < .001)。如图所示,那些样本量较小(即置信区间较宽)的研究倾向于报告不成比例的大正向效应,而样本量较大、更精确的研究则倾向于报告更小或更中性的效应。
调节效应分析
为了进一步探索效应量异质性的来源,我们基于RVE对四个变量进行了调节效应分析:研究类型、先前ChatGPT使用经验、专业以及ChatGPT应用中指导的存在与否。每个调节因素的显著性均通过Wald检验得出的综合F检验进行评估。
研究类型
综合F检验表明,研究类型对效应量的总体变异性没有显著的调节作用(F = 0.18, df = 35.5, p = .68)。定量研究产生了大且统计显著的效应(g = 1.07, 95% CI [0.76, 1.38], p < .01)。尽管混合方法研究中的定量成分似乎平均产生略大的效应,但这种差异在统计上不显著(βg= 0.23, SE = 0.54)。因此,无论研究类型或方法论设计如何,ChatGPT的影响在各研究中保持一致的大幅积极效应。
先前ChatGPT使用经验
显著的综合性F检验(F = 3.59, df = 16.5, p = .04)表明,使用经验水平有意义地调节了纳入研究间效应量的变异性。在参与者之前没有ChatGPT使用经验(无)的研究中,平均效应量大且统计显著(g = 1.73, 95% CI [1.13, 2.33], p < .01),表明首次接触ChatGPT能带来显著的学习成果增益。虽然所有参与者都有先前经验(全部)的研究似乎显示出更大的平均效应量,但由于该类别内效应量变异较大,其平均差异并不统计显著(βg= 0.57, SE = 1.62)。相比之下,参与者经验水平混合(部分)的研究显示出显著较低的效应量(βg= -1.07, SE = 0.32, p < .01),表明当参与者对ChatGPT的熟悉程度不同时,学习收益会减弱。同样,未指定经验水平(未指定)的研究报告了显著但较低的平均效应(βg= -0.93, SE = 0.38),进一步表明ChatGPT的效应似乎在参与者首次接触该工具时最大,而先前经验不明确或不一致则与减少的学习益处相关。
专业
综合性F检验(F = 0.66, df = 26.2, p = .58)表明,学术专业并未显著调节各研究间效应量的总体变异性。对于STEM(科学、技术、工程和数学)专业,平均效应量大且统计显著(g = 1.81, 95% CI [0.48, 3.13], p < .01),表明ChatGPT的应用在STEM相关领域产生了实质性的学习收益。相比之下,非STEM专业的系数不显著(βg= -0.89, SE = 0.63)。因此,尽管STEM专业显示出更强的积极效应,但专业间的差异并未达到统计显著性水平。
ChatGPT应用中指导的存在与否
综合性F检验(F = 0.12, df = 35.8, p = .89)表明,ChatGPT应用中指导的存在与否并不是效应量变异的显著调节因素。在有指导存在的情况下,平均效应量大且统计显著(g = 1.20, 95% CI [0.80, 1.60], p < .01)。然而,与无指导或指导未指定的情况相比,平均效应量的差异在统计上不显著。这一发现表明,虽然指导可能存在潜在的益处,但它并未成为本荟萃分析中所观察到的效应量差异的主要驱动因素。
结论
本荟萃分析综合了66项实证研究(包含129个效应量),旨在评估ChatGPT应用对本科生学习成果的影响。主要发现表明,ChatGPT对本科生的学习成果具有显著的大效应量积极影响(Hedges' g = 1.14)。然而,研究间存在高度异质性,表明效应量因研究背景而异。调节效应分析进一步揭示,学生先前对ChatGPT的接触程度是一个显著的调节因素,当学生首次接触该工具时,学习收益最大。尽管STEM专业的学生显示出更强的积极效应趋势,但专业背景的调节作用未达到统计显著性。此外,ChatGPT应用过程中是否存在指导,在本分析中并非显著的调节变量。这些结果为教育工作者和决策者将ChatGPT整合到本科课程中提供了实证依据,并强调了考虑学生先验经验和学科背景对于优化其教育效益的重要性。未来的研究应致力于设计更严谨的研究,探索更广泛的调节变量,并制定最佳实践指南,以最大限度地发挥ChatGPT在高等教育中的潜力,同时减轻潜在风险。