探究学习者在ChatGPT辅助写作任务中的能力与参与度的作用:来自孟加拉国大学生的证据

《Computers in Human Behavior Reports》:Exploring the Role of Learner Aptitude and Engagement in ChatGPT-assisted Writing Tasks: Evidence from Bangladeshi Undergraduates

【字体: 时间:2026年05月10日 来源:Computers in Human Behavior Reports 5.8

编辑推荐:

  Md. Sifat Hossain Khan | Rabeya Binte Habib 英语系,Daffodil International University,Daffodil Smart City,Birulia,Savar,Dhaka 1216,孟加拉国 **摘

  Md. Sifat Hossain Khan | Rabeya Binte Habib
英语系,Daffodil International University,Daffodil Smart City,Birulia,Savar,Dhaka 1216,孟加拉国

**摘要**
本探索性混合方法研究探讨了学习者能力和参与度在ChatGPT辅助的英语写作表现中的独立和比较预测作用,研究对象为孟加拉国大学生。通过选取45名参加英语本科课程的学生作为目的性样本,我们使用了一个简化的10项能力测试(α = 0.761,源自现代语言能力测试)、一个基于三维参与模型的12项参与度量表(α = 0.905),以及一个具有高评分者间可靠性的写作任务(ICC = 0.988)。回归分析表明,参与度是写作表现的显著预测因素(β = 0.320,p = 0.032,R2 = 0.102),而简化的能力测试则不具有这一作用(p = 0.369)。定性访谈(n = 10)发现,迭代修改、批判性反馈处理和元认知反思是高度参与学习者的特征行为。这些发现应被视为初步的、特定情境的证据,表明在ChatGPT辅助的写作环境中,参与度可能比能力测试更能有效预测写作表现。然而,由于样本量小、简化能力测试的局限性、依赖自我报告的参与度以及缺乏对照组,这些结果的普遍性受到很大限制。强烈建议使用更大、更多样化的样本和经过充分验证的能力测试工具进行复制研究。

**引言**
1.1 研究背景
人工智能(AI)的整合为教育带来了新的可能性,使学习变得更加个性化、高效和主动(Zawacki-Richter等,2019)。在语言学习中这一点尤为明显,因为基于AI的应用可以根据个人水平和学习进度进行调整(Macias Loor等,2024;Zhai,2022)。生成式AI(GenAI)模型(如ChatGPT)的出现是一个重大发展,它为学习者提供了生成类似人类文本的工具、实时反馈和支持交互式对话的能力(Barrot,2023)。英语作为外语(EFL)的学习者迅速采用了这项技术,以解决个性化反馈不足和高级写作技能(如规划和组织)支持不足的问题(Aldabbus & Almansouri,2022;Bouteraa等,2024;Tsai等,2024)。

**表1. 参与者的人口统计特征**
| 特征 | 频率(N) | 百分比(%) |
|----------------|--------|--------|
| 性别 | 男 | 18 | 40.0% |
| 性别 | 女 | 27 | 60.0% |
| 年龄范围 | 18–24岁 | 45 | 100.0% |
| 学术阶段 | 第一至第八学期 | 45 | 100.0% |
| 总计 | 45 | 100.0% |

**表2. 写作评分标准组分的平均分数(N = 45)**
| 标准 | 评分者1(分数)| 评分者2(分数)| 平均分数 |
| 语法与准确性 | 2 | 2.0 | |
| 连贯性与流畅性 | 2 | 2.0 | |
| 词汇使用 | 2 | 1.5 | |
| 总分 | 6/10 | 5/10 | 5.5/10 |

**图1. ChatGPT辅助写作中学习者变量的理论模型**
ChatGPT可作为第二语言(L2)学习者的有效写作辅助工具,支持头脑风暴、扩展词汇范围、纠正语法错误和提高文本连贯性(Zhai,2022;Barrot,2023)。它还可以通过提供即时、情境敏感且非评判性的反馈来减少写作焦虑并维持学习动机(Escalante等,2023;Song & Song,2023)。然而,这类工具的教育价值并非一致;不同学习者的效果差异显著。长期以来,学习者能力和参与度被认定为影响第二语言学习成功的关键因素(Skehan,1998;Li,2016b;Fredricks等,2004),两者都已被证明能在多种教学环境中预测L2学习结果。

传统上,第二语言学习研究强调语言能力(包括音素编码能力、语法敏感性和机械记忆等相对稳定的认知能力)的预测作用(Carroll,1981;Skehan,1998)。但在AI辅助的学习环境中,许多与这些能力相关的认知支持(如语法校正、词汇建议)由技术分担,因此先天能力的相对贡献可能会发生变化。同时,参与度作为一个多维结构(包括行为努力、情感投入和认知持续性)在技术中介学习中变得越来越重要(Fredricks等,2004;Shen等,2023)。高度参与的学习者可能会主动寻找、批判性处理并策略性地应用AI反馈,从而部分弥补能力不足;而不参与的学习者可能无论能力如何都无法充分利用该工具(Wigfield & Eccles,2000;Zimmerman,2002)。这种关系在资源匮乏的教育环境中尤为明显,例如孟加拉国。孟加拉国的EFL大学生经常面临诸多限制,如班级规模大、教师授课时间有限、以考试为导向的教学方法以及个性化书面反馈机会少(Alam等,2022;Alam,2025;Rahnuma,2023)。在这种情况下,AI工具(如ChatGPT)可以通过提供按需学习辅助来弥补这些教学差距(Hossain & Rezwana,2023;Kasneci等,2023)。如果可以通过AI使高质量反馈普及化,学生的成功可能较少依赖于机构资源或先天能力,而更多依赖于他们主动利用这些辅助工具的意愿。这种可能性被称为“参与度平等桥梁”,使得在孟加拉国研究这些变量既具有学术意义也具有现实意义。

在孟加拉国的EFL环境中,师生比例为1:32(孟加拉国教育信息与统计局[BANBEIS,2023]),某些高校的比例甚至高达1:2,691(Staff Correspondent,2026;University Grants Commission [UGC],2023),因此提供个性化书面反馈在结构上受到限制(Alam,2025)。大学课堂通常有60至90名学生(Hossain & Rezwana,2023;Kabir,2014),进一步限制了持续、个性化的写作支持。AI工具(如ChatGPT)可能有助于部分解决这一限制,因此研究学习者如何使用这些工具以及哪些因素能预测他们的写作表现至关重要。

1.2 研究问题
尽管学术界对ChatGPT辅助学习的兴趣日益增加,但关于核心学习者特征如何影响其效果的研究仍有限。现有研究往往将能力和参与度视为独立变量,而非在同一AI中介环境中比较它们的预测作用。此外,大多数研究集中在北美、欧洲和东亚等技术先进的地区,对资源匮乏的南亚地区(如孟加拉国)的挑战和机遇关注较少。尽管这些地区学生的能力和动机参与度存在显著差异,但对其如何通过AI影响写作表现了解甚少。本研究通过探究孟加拉国大学生在ChatGPT辅助英语写作中的能力和参与度的独立和比较预测作用,填补了这一研究空白(Kasneci等,2023;Zhai等,2021)。本研究不是测试统计交互效应(这需要更大的样本),而是通过回归分析探讨每个预测因素与写作表现之间的双变量关联及其相对预测强度。

1.3 研究目标
主要目标是确定能力和参与度分别能在多大程度上预测ChatGPT辅助任务中的英语写作表现,并在单一回归框架内比较它们的相对预测强度。此外,研究还探讨了学生在使用ChatGPT支持完成任务时的体验和挑战,以期为在多样化学习环境中引入AI工具的教育工作者提供教学启示。

1.4 研究问题
本研究的主要和子研究问题如下:
**主要问题**:学习者的能力和参与度在多大程度上独立预测ChatGPT辅助的英语写作表现?哪个变量表现出更强的预测关联?
**子问题1**:本研究使用的简化工具所测量的学习者能力在多大程度上预测ChatGPT辅助任务中的英语写作表现?
**子问题2**:学习者的参与度在ChatGPT辅助环境中在多大程度上预测英语写作表现?

1.5 假设
根据理论文献和研究问题,提出了以下假设:
**H1**:学习者能力的提高将与ChatGPT辅助写作任务中的英语写作表现呈正相关。
**理论基础**:H1基于第二语言学习的经典理论,认为语言学习能力是一种恒定的认知特征,能预测各种学习情境下的L2学习成功(Carroll,1981;Skehan,1998)。能力包括音素编码能力、语法敏感性和机械记忆,能够有效吸收、存储和利用语言输入。大量研究表明能力与L2学习结果存在相关性(Li,2016a)。在技术增强型学习(TEL)课堂中,能力较高的学习者能更快吸收教学干预,因为他们处理输入更有效,更能发现潜在的语言模式(Skehan,2016;Chapelle,2001)。即使在AI工具减轻部分认知负担的情况下,能力较强的学习者在批判性评估AI反馈、生成更复杂的提示和将建议融入自己的中介语言方面仍具有优势(Bin-Nashwan等,2024)。

**实证先例**:类似环境中的研究表明,即使有技术辅助,能力差异也会影响语言学习表现。研究发现,认知能力差异会影响语言学习效果,特别是在语法学习和处理效率方面(Li,2016a;Skehan,2016)。然而,关于高等教育中AI应用的更广泛文献表明,能力的预测价值可能受参与度和动机因素的影响(Kasneci等,2023;Zhai,2022)。Bin-Nashwan等(2024)对学术人员的调查显示,在采用ChatGPT之前,个人最佳目标与学术诚信呈正相关;而当ChatGPT作为调节因素时,这种关系减弱或逆转,表明AI工具的整合可能会改变现有的动机动态。

**应用于当前研究**:尽管我们假设ChatGPT可以外化某些认知过程,但H1仍将认为能力仍会起作用,因为:(a) 能力较强的学生能生成更好的提示;(b) 能力较强的学生能更好地分析和整合AI反馈;(c) 基础语言知识仍可用于区分好建议和坏建议。因此,即使在AI辅助的情况下,我们也预计能力和写作表现之间存在正相关。
**H2**:学习者参与度的提高将与ChatGPT辅助写作任务中的英语写作表现呈正相关。
**理论基础**:H2基于关于学习者参与度的理论和技术增强型学习(TEL)的研究。Fredricks等(2004)将参与度定义为一个多维结构,包括行为参与(努力、持久性、参与)、情感参与(兴趣、乐趣、归属感)和认知参与(深度处理、自我调节、策略学习)。在AI辅助的学习环境中,这些参与维度尤为重要:AI反馈的教育价值并非技术本身固有的,而是取决于学习者与技术的互动质量。自我决定理论也预测自主动机强的学习者的学习效果更好(Liu, Wang, & Wang, 2025;Wigfield & Eccles, 2000)。在TEL环境中,技术的有效性取决于学习者与技术的互动深度和质量,因此参与度是AI辅助学习转化为实际成果的主要机制。

**实证先例**:多项研究表明,当EFL学生使用计算机生成的反馈时,这种互动是写作结果的关键预测因素(Shen等,2023;Zhang和Hyland,2023)。Han等(2023)发现,积极提问和批判性分析ChatGPT提供的建议的学生写作质量更高。Wang和Xue(2024)证明,AI辅助的聊天机器人可以激发参与度并促进学习效果。重要的是,关于ChatGPT在高等教育中应用的最新研究表明,这种伦理取向和动机以一种反映我们框架所重视的参与方面的方式影响了AI的使用性质。Bouteraa等人(2024年)发现,学生的诚信度对ChatGPT的采用有负面的总体预测作用,但诚信度调节了努力预期与采用之间的关系,那些真正投入努力使用ChatGPT的学生更有可能以有目的的方式使用它。Bin-Nashwan等人(2024年)对学术人员的研究发现,在AI采用之前,个人最佳目标在诚信度方面起着支持作用,但这种关系因ChatGPT的普及而被打破,表明当AI变得普遍时,积极、目标导向的用户在维护其伦理标准方面面临独特的挑战。这些结果与我们理论框架中的行为和认知参与维度相似:学习者与AI互动的质量和意图性,而非其频率,是关键变量。

应用于当前研究:可以预期,参与度能够预测在ChatGPT辅助写作情境中的表现,因为:(a) 行为上投入的学生会根据反馈付出更多努力进行修改;(b) 情感上投入的学生会有动力继续修改;(c) 认知上投入的学生不会盲目接受建议。结果应基于学习者与AI之间的互动质量,而不是AI的存在。在ChatGPT辅助写作的背景下,学习者的参与度将与写作表现有更强的独立关联。

理论基础:关于技术中介学习中动机-能力动态的研究表明,动机和行为驱动因素可以抵消有限先天能力的影响,因此高度投入的学习者可能比能力更强但参与度较低的同龄人表现更好(Wigfield & Eccles, 2000; Henrie et al., 2015)。外部化假说认为,随着AI工具执行传统上与能力相关的认知任务(如语法检查、模式识别、词汇检索),能力的预测能力下降,而学习者使用这些工具的方式的重要性上升(Wood et al., 1976; Kasneci et al., 2023)。

实证先例:直接支持这一假说的证据有限,但汇总的研究结果提供了暗示性的支持。在技术辅助的语言学习中,随着技术支持的增强,能力和通过动机及参与度的相关性也增强了(Wigfield & Eccles, 2000; Zimmerman, 2002; Henrie et al., 2015)。Yan(2023)和Han等人(2023)发现,在ChatGPT支持的写作中,学习者的参与度比认知能力测量更能预测结果,尽管没有进行正式的能力测试。更重要的是,最近关于AI采用和学术行为的研究从另一个角度提供了进一步的支持:Bouteraa等人(2024)发现,学生的诚信度是ChatGPT采用的重要负面预测因素,诚信度高的学生采用ChatGPT的意愿较低且更具选择性,这表明用户的伦理取向影响了AI的使用方式而非使用频率。在学术人员中,Bin-Nashwan等人(2024)发现,个人最佳目标与学术诚信度之间的正向关联因ChatGPT的使用而被调节和中断,这表明AI的普及改变了个人动机与行为后果之间的关系。实证上,Bin-Nashwan等人(2023)在702名研究者中发现,诚信度与学术界中的ChatGPT使用呈负相关,而感知压力和自尊心是采用AI使用行为的积极预测因素,表明动机和情感因素可能比认知因素在定义AI使用行为方面起着更重要的作用。综合这些结果表明,在这种AI支持的写作情境中,参与度质量而非能力本身将是更关键的区分变量。

与当前研究的相关性:在这种特定的ChatGPT辅助背景下,假设参与度比此处测量的能力更能预测写作表现。这一假设并不是说能力无关紧要;相反,它反映了许多以前与能力相关的认知过程(如语法纠正和模式识别)部分被ChatGPT外化了,可能在这种环境中减弱了它们的区分作用。在这种条件下,学习者与AI反馈的行为和认知质量可能成为表现差异的更重要来源。在孟加拉国背景下,这一区别尤为明显,因为获得ChatGPT的机会可能有助于缩小一些基于资源的差异,使学习者愿意并有能力积极地与AI反馈互动成为主要的区分变量。因此,H3直接比较了这种特定样本和背景下能力和参与度的相对预测强度,正如Kasneci等人(2023)所指出的一个研究空白。这需要重新评估当前基于能力的外语学习方法在AI中介情境中的适用性,特别是在资源匮乏的环境中,AI甚至可以平衡竞争格局。

值得注意的是,这些假说在一个特定情境(ChatGPT-3.5辅助的孟加拉国本科生段落写作)中得到了证实,但结果可能与其他AI工具、写作任务或学生群体不同。研究设计使我们能够了解理论和先前研究提出的趋势在这种特定的社会教育设置中的有效性程度。

2. 文献综述
2.1. ChatGPT在第二语言写作中的应用:一把双刃剑
本文解释了ChatGPT在第二语言写作中的应用是一把双刃剑。GenAI的实现(尤其是ChatGPT)对第二语言写作课程的教学方法带来了重大变革(Barrot, 2023; Yan, 2023)。作为写作助手的ChatGPT提供了全面而多方面的支持,可以用于头脑风暴以获得想法,作为扩展词汇多样性的改写工具,作为语法校对工具,以及作为使作品更简洁的摘要工具(Han et al., 2023; Zhai, 2022)。最近的研究证实,使用ChatGPT进行迭代修改的学习者能够创作出更加流畅和复杂的文本,因为它能够提供即时、个性化和情境敏感的反馈(Shen et al., 2023; Han et al., 2023; Zhang et al., 2025)。研究表明,这种类型的AI生成反馈在改进写作的某些方面(包括语法和连贯性)可以与常规教师反馈一样有效(Yoon et al., 2023)。

然而,文献中也存在严重问题。主要问题包括过度依赖,这可能会减缓独立写作能力和自我调节能力,威胁学术诚信(Cotton et al., 2024; Bin-Nashwan et al., 2023);有时反馈过于复杂,缺乏文化敏感性,以及不准确(Barrot, 2023; AlAfnan et al., 2023)。这些挑战要求学习者具备足够的熟练度和批判性素养,以有效评估AI反馈,强调了学习者能动性和个体差异在塑造结果中的重要性。

2.1.1. ChatGPT使用中的学术诚信和治理考虑
首先是与ChatGPT使用中的学术诚信和治理问题相关。ChatGPT在学术机构中的快速应用引发了关于学术诚信、机构政策以及AI在学术行为发展中的角色的重大关切。在写作教育中,可接受的帮助与学术不诚实的界限可能不明确。最近的研究考察了个人目标和工作场所条件对ChatGPT时代学术诚信的影响。Bin-Nashwan等人(2024)调查了学术人员,发现在没有ChatGPT采用的情况下,个人最佳目标对学术诚信有正面预测作用;然而,一旦引入ChatGPT作为调节因素,这种正面关系变成了负面。学术能力对诚信没有显著直接影响。工作场压力对诚信有显著的负面影响。关键的是,当考虑ChatGPT的采用时,学术能力和工作场压力对诚信的调节作用变得显著。这些发现表明,AI的采用可能会干扰个人动机原本对诚信的维护作用,突显了在AI工具普及的情况下维持伦理标准的复杂性。

ChatGPT也可以作为教学工具使用,但其成功取决于教师在课程设计中的使用方式。Bin-Nashwan等人(2025)对全球的学术教师进行了调查,使用整合的STS-TPACK模型来测试ChatGPT生成内容在课堂准备中的有效性。教师的信心和使用频率对有效性有正面预测作用,而学术工作强度则有负面影响。在机构层面,培训和支持、机构文化以及课程复杂性都有积极影响。重要的是,课程复杂性和使用频率成为显著的调节因素:课程复杂性调节了教师信心与有效性之间的关系,而使用频率调节了机构因素与个体因素之间的关系。这些发现表明,ChatGPT的教学价值不仅仅取决于工具本身,还受到教师使用质量及其频率的塑造——这一动态与我们的研究中的学习者参与过程类似。

在机构层面,ChatGPT的使用改变了学术人员的表现,并引发了治理问题。Sadallah等人(2024)观察到,在机构和学术表现层面,ChatGPT的采用引入了复杂的动态。Sadallah等人(2024)利用来自402名学术研究人员的定量数据,研究了学术诚信、能力、个人最佳目标和感知压力对学术人员表现的影响。学术诚信和学术能力对表现有正面预测作用,而ChatGPT的采用显著调节了这两种关系。出乎意料的是,在ChatGPT辅助的环境中,个人最佳目标与表现呈负相关。此外,在ChatGPT采用下,表现提高与感知压力增加相关——这表明AI整合的生产力提升并非没有代价,可能会给学术人员带来额外的心理负担。这些发现直接关联到当前研究的背景:如果高效率的AI辅助工作伴随着更大的认知和情感负荷,参与质量就会成为一个关键的调节因素。

从采纳-行为的角度审视了ChatGPT在高等教育中的传播,诚信在这方面起到了反直觉的调节作用。Bouteraa等人(2024)使用UTAUT-SCT模型研究了东盟大学中921名学生的ChatGPT采用情况,将学生诚信度作为直接预测因素和调节因素。表现预期、社会影响、教育自我效能、技术自我效能和个人焦虑对ChatGPT的使用有正面预测作用。然而,学生诚信度是采用的显著负面预测因素,具有较强伦理承诺的学生总体上不太可能使用ChatGPT。在调节作用方面,诚信度对努力预期与ChatGPT使用之间的联系有正面调节作用,但对表现预期、技术自我效能与ChatGPT使用之间的联系有负面调节作用。这些表明,注重诚信的学生在AI采用上更加挑剔和克制,这与我们的参与框架直接相关:具有较强伦理取向的学习者可能会以不同的方式使用AI,使他们与工具互动的质量而非数量成为关键变量。最后,Bin-Nashwan等人(2023)讨论了ChatGPT及其对传统学术诚信概念的影响,并指出该技术促使人们重新定义什么是原创工作以及在AI增强时代如何定义学术诚信。Bin-Nashwan等人认为,学术诚信处于一种不确定的状态,机构需要重新设计评估和学习目标以适应AI的现实。

这些治理、诚信和行为考虑为当前研究的结果提供了重要的背景。在ChatGPT迅速普及的教育环境中,学生的互动标准不仅包括努力和毅力,还包括批判性评估和道德应用,这些都变得至关重要。ChatGPT作为写作工具的成功,并非本质上取决于学生的技术能力或认知能力,而更多地取决于学生和机构如何应对AI所带来的伦理、教学和实践方面的挑战。在明确了ChatGPT在第二语言写作中的机会与障碍后,我们现在可以关注那些能够影响其使用的学习者特定因素。语言学习能力作为成功的关键指标之一,一直是第二语言学习(SLA)研究的传统焦点,但AI支架的出现使得我们有必要重新评估这种基于能力的模型是否仍然适用。当前部分包含的五项研究(Bin-Nashwan等人,2024;Bin-Nashwan等人,2025;Sadallah等人,2024;Bouteraa等人,2024;Bin-Nashwan等人,2023)共同得出了本研究的主要结论:ChatGPT在学术环境中的有效性和伦理质量并非仅仅由工具的可获得性决定,而是受到个人、机构及动机因素的相互作用的影响。无论是在ChatGPT使用对学习者个人目标的影响(Bin-Nashwan等人,2024)、教学效果与使用者频率和信心之间的关系(Bin-Nashwan等人,2025)、AI辅助学术表现的压力与产出性质(Sadallah等人,2024),还是学生使用ChatGPT时的诚信传播问题(Bouteraa等人,2024),以及学术领域中AI使用所面临的诚信压力实证记录(Bin-Nashwan等人,2023),这些研究都表明,AI互动的结果取决于人们如何处理和利用这项技术。这种共识为我们将注意力集中在学习者参与度这一关键变量上提供了坚实的理论依据,并使我们的研究能够为南亚地区这一资源匮乏地区内的参与度与学习成果之间的联系提供实证和定量-定性的证据——这一领域此前研究不足。更重要的是,这五项研究都没有直接测试过参与度与写作任务表现结果之间的关系,而这正是本研究旨在填补的实证空白。

2.2 人工智能时代中学习者能力地位的转变
语言学习能力是一种稳定的认知特质,包括语法敏感性和机械记忆等技能,长期以来一直被认为是传统SLA理论中成就预测的核心因素(Carroll, 1981; Skehan, 1998)。大量研究证实,具有较高语言学习能力的学习者能够更高效地掌握词汇和语法(Li, 2016a; Skehan, 2016; Linck等人, 2014)。然而,强大的人工智能学习支架的引入对以能力为中心的理论提出了根本性挑战。例如,ChatGPT等工具将许多传统上由能力衡量的认知过程外化:实时语法纠错减少了对语法敏感性的要求,词汇建议则减少了机械记忆的需求(Sweller, 2011; Kasneci等人, 2023)。如果技术承担了大部分认知支持,那么表现的焦点将从先天能力转移到学习者利用可用技术支持的准备程度和能力上。这种模式表明,在这种特定的人工智能辅助环境中,传统的能力测量方法的有效性可能会减弱,而在某些情境下,其他基于学习者的因素,尤其是参与度,可能成为更重要的预测因子。这一理论转向得到了人工智能采用与学术表现相关文献的支持:Bin-Nashwan等人(2025)发现,教师层面的因素(信心和使用频率)是影响ChatGPT在课堂准备中效果的关键因素,这意味着技术的价值是通过用户与工具之间的互动质量实现的,而不仅仅是工具本身。Sadallah等人(2024)发现,在ChatGPT时代,学术能力是学习表现的积极预测因子,而个人最佳目标则表现出相反的关联,这表明个体属性与AI辅助结果之间的关系比基于能力的模型所假设的更为复杂——进一步证明了参与度与能力并列为主要预测因子的观点。尽管在人工智能辅助的情境下能力的影响可能正在发生变化,但学习者的参与度已成为一个日益重要的变量。参与度是一个多维度的概念,不同于相对稳定的认知特质,它能够成为实现AI教学潜力的主要途径。

2.3 学习者的参与度:人工智能辅助学习的关键
随着对能力角色的重新评估,学习者的参与度已成为技术辅助学习领域中的关键变量(Fang, 2025; Shen等人, 2023)。基于Fredricks等人(2004)提出的三维模型,参与度被划分为三个相互关联的要素:行为参与度指学习者在学习活动中的努力程度、持久性和积极性;情感参与度反映了学习者对学习过程的兴趣、享受感和自信程度;认知参与度则指学习者对深度处理、批判性思维和战略学习的兴趣。然而,最新研究表明,AI工具能够在很大程度上提升这三个参与维度。AI聊天机器人具有更高的激励作用,减少语言焦虑感,并且由于更加互动、个性化且不那么评判性,因而能促进更强的主动参与感(Song & Song, 2023; Fang, 2025)。研究表明,积极利用AI反馈的学习者——即那些能够主动提问、应用和反思的学习者——会写出更加连贯、经过批判性修改且高质量的文章(Han等人, 2023; Shen等人, 2023)。因此,参与度是实现AI教学潜力的关键机制。它不仅促进了这一过程,而且本身就是以行为上积极、情感上积极和认知上具有挑战性的方式与工具互动的过程(Fredricks等人, 2004; Wigfield & Eccles, 2000; Zimmerman, 2002; Henrie等人, 2015)。最近的经验研究也证实了参与度在人工智能辅助语言学习中的关键作用。Wang和Xue(2024)针对中国英语作为外语(EFL)的学习者进行的研究表明,AI驱动的聊天机器人能够帮助他们在行为、情感和认知三个维度上提高学术参与度。他们发现,聊天机器人的使用与学习成果的提高之间存在正相关关系,并且这种关系通过参与度的提升得以中介。此外,Wang、Wu和Wang(2025)还发现,L2学习中的参与度和沟通意愿与学习成就之间存在系统性的关联。情绪状态越积极,学习效果越好,沟通意愿也越高,这表明参与度既是学习成果的预测因子,也是积极学习体验的结果。自我决定理论也被用来分析参与度的动机基础。Liu、Wang和Wang(2025)的研究考察了基本心理需求的满足在激发英语学习行为中的作用,发现这两个变量在动机与 boredom(无聊感)之间起到了中介作用。当学生的自主性、能力和关联性需求得到满足时,内在动机增加,无聊感减少,从而导致行为参与度的提升。这直接适用于人工智能辅助学习的应用:像ChatGPT这样的工具可以通过满足人们感到有能力(通过即时反馈)和自主(通过自主学习)的需求来促进参与度,但感受到的关联性需求可能需要被谨慎地融入教学设计中。

上述论点将能力和参与度视为独立的预测因子;然而,新的理论观点提出,这两个变量在技术辅助的情境中以有趣的方式相互作用,尤其是在稳定特质与可变行为之间的关联可以被重新定义的情况下。

2.4 人工智能辅助环境中能力与参与度的比较作用
尽管大量文献分别关注能力和参与度,但新的研究表明,这两个变量并非孤立存在,而是以复杂的方式相互关联。补偿假说认为,较弱或中等程度的能力可以通过高水平的参与度和动机得到补偿(Skehan, 1998; Wigfield & Eccles, 2000; Zimmerman, 2002)。在人工智能辅助的情境下,这种相互作用尤为明显。一个能力较强但参与度较低的学习者可能表现不如一个通过努力练习和反思与AI反馈持续互动的学习者。然而,直接比较人工智能辅助写作情境下能力和参与度预测能力的实证证据仍然有限。尽管最近的几个关键研究展示了参与度在改善ChatGPT写作结果中的重要性(Shen等人, 2023; Han等人, 2023; Kasneci等人, 2023),但没有研究将能力和参与度同时作为预测因子进行定量建模。当前文章旨在填补这一空白:本研究不是试图检验统计上的交互效应(这需要更大的样本量),而是尝试单独和比较地测试能力和参与度的预测能力,以确定在ChatGPT辅助写作情境中哪一个更为有效。这种方法的差异在方法论上具有重要意义,它揭示了以往相关文献中理论定义和分析结构上的矛盾。尽管能力、参与度和人工智能辅助学习之间的理论联系逐渐清晰,但这些联系必须在教育环境的特定背景下进行解读。大多数此类研究都是在资源丰富的条件下进行的,这使得它们在资源匮乏、基础设施和教育条件不同的环境中适用性存疑。

2.5 南亚/资源匮乏环境下的AI应用
尽管关于教育中AI的国际讨论日益增多,但将其应用放在具体情境中考虑是很重要的。大多数关于ChatGPT的研究都是在资源丰富和技术发达的环境下进行的,其结果可能不太适用于资源匮乏的环境,如孟加拉国(Zawacki-Richter等人, 2019; Kasneci等人, 2023; UNESCO, 2023)。数字鸿沟——即获取技术、可靠互联网和数字素养方面的不平等——成为这些环境中公平实施AI的主要障碍之一(Mokgata等人, 2026)。此外,大多数南亚地区的语言教学文化倾向于注重机械学习,且以教师为中心,这也可能影响学习者与自主学习工具之间的互动(Zhang & Hyland, 2023)。例如,在越南进行的一项研究表明,尽管学生们认可AI反馈的价值,但他们更愿意接受教师的反馈,因为当地的教育环境更倾向于教师主导的学习方式(Kohnke等人, 2023)。这些情况突显了需要将AI整合研究作为具体实践来进行的重要性,因为它涉及到当地基础设施、文化和教学法的构建。文献综述指出了许多重叠的主题和空白,这些主题和空白激发了当前研究的动机。下一节将梳理这些主题,并解释本研究将填补的具体研究空白。

2.6 本研究的研究空白和理论依据
前述综述指出了四个推动本研究的关键空白。首先,尽管能力在SLA中是一个核心概念,但在人工智能辅助写作情境中,由于关键认知过程被技术外化,其预测作用在理论上仍不明确,并且在实证研究中也未得到充分探讨(Carroll, 1981; Skehan, 1998; Kasneci等人, 2023)。其次,虽然学习者参与度的益处已经得到充分证实,但在人工智能辅助写作中,哪种特定的参与类型能够推动成功,以及参与度是否能够预测学习者的能力,目前尚不清楚(Shen等人,2023年;Han等人,2023年)。第三,关于孟加拉国等地区的研究仍然不足,尽管这些环境可能存在独特的情况和挑战(Hossain & Rezwana,2023年;Kasneci等人,2023年)。第四,还没有研究直接比较过能力和参与度作为人工智能中介下的第二语言习得(SLA)写作表现的同时预测因素的相对重要性(Han等人,2023年;Tsai等人,2024年;Kasneci等人,2023年)。第五个问题是与教育中人工智能使用的治理和诚信方面相关。Bouteraa等人(2024年)、Bin-Nashwan等人(2023年)、Bin-Nashwan等人(2025年)、Sadallah等人(2024年)以及Bin-Nashwan等人(2024年)的研究表明,人工智能的引入受到诚信取向、动机干扰、压力动态和参与频率等因素的影响,而不仅仅取决于访问权限。特别是Bouteraa等人(2024年)发现,学生的诚信程度对ChatGPT的采用有负面影响,并且这种影响对努力预期与采用之间的联系具有一定的调节作用。Bin-Nashwan等人(2024年)基于学术人员的观点得出结论,ChatGPT的采用颠覆了支持个人最佳目标的诚信原则;Bin-Nashwan等人(2023年)通过实证研究证实,学术能力能够预测人工智能辅助下的表现,但会带来更大的感知压力。然而,还没有研究从实证角度探讨参与度作为一个多维概念是否能够预测可测量的写作表现。正是这项研究旨在填补这一空白。它通过验证的定量方法和定性佐证,比较了能力和参与度在第二语言习得这种资源匮乏的南亚环境中的相对预测作用,将参与度-诚信文献与实际学习成果联系起来。根据现有资料,当前研究的动机基于以下假设:首先,当语法检查、词汇建议等认知过程外包给技术时,传统的能力衡量标准可能会失去部分预测能力。其次,Fredricks等人(2004年)提出的三维参与模型认为,行为参与度、情感投入和认知持久性可能是学习者实现人工智能工具教学潜力的主要机制。第三,Skehan等人(1998年;Wigfield & Eccles,2000年;Zimmerman,2002年)的补偿假设认为,在技术中介的环境中,较高的参与度可以部分弥补较低的能力。最后,孟加拉国等资源匮乏环境中的特定情境特征,如有限的传统反馈、大班级规模和不同的数字素养水平,可能会强化以学习者为中心的因素(如参与度)的相对重要性。这些理论前提激发了研究问题,探讨了能力和参与度在决定ChatGPT辅助写作表现中的相对作用。本研究通过探索能力和参与度如何共同影响孟加拉国大学生的写作质量,填补了这些空白。它为人工智能在第二语言习得研究中的成就提供了更广阔的视角,并通过关注资源匮乏的教育环境,提供了特定于情境的教学见解。最重要的是,它关注与学习者相关的变量,评估人工智能的实用性,而不是一味夸大其优势,而是考察学习者与技术之间的复杂互动。

2.7. 理论框架和假设关系
本研究要提出的理论模型如图1所示。该模型假设学习者的能力和参与度是ChatGPT辅助写作条件下写作表现的预测因素,但它们的预测能力可能低于传统第二语言习得环境中的预测能力。

下载:高分辨率图片(94KB)
下载:全尺寸图片

图1. 学习者能力、标准化参与度和写作表现的比较。注意:所有变量均以0-10的尺度呈现。参与度分数从原始的60分尺度进行了标准化处理,以确保比较的一致性。

下载:高分辨率图片(280KB)
下载:全尺寸图片

图2. 能力、参与度和写作分数的相关性矩阵

*注:*p < 0.05

该模型的理论基础基于三个理论前提,这些前提来自文献综述:
首先,外部化假设(Kasneci等人,2023年;Zhai,2022年)认为,当人工智能工具被用于解决传统上与语言能力相关的认知任务(如语法检查、词汇建议)时,在人工智能辅助和传统学习环境中,预测能力可能会减弱。
其次,三维参与模型(Fredricks等人,2004年)认为行为努力、情感投入和认知持久性是学习者实现人工智能教学潜力的核心促进过程。在这个模型中,参与度是连接人工智能反馈和学习成果的关键。
第三,补偿假设(Skehan,1998年;Wigfield & Eccles,2000年;Zimmerman,2002年)认为,在技术相关因素的影响下,较低的能力可以通过高参与度得到部分补偿,表明参与度影响了其重要性和影响力。
最后,孟加拉国等资源匮乏环境的特定情境特征,如大班级规模、减少的传统反馈和不同水平的数字素养,可能会增强以学习者为中心的因素(如参与度)的重要性。这些理论前提导致了三个假设:(H1)能力将是写作表现的正向预测因素;(H2)参与度将是写作表现的正向预测因素;(H3)在ChatGPT辅助的情境下,参与度将比能力更具预测作用。为了评估这一模型,将进行相关性和多元回归分析,并使用定性数据来阐明这些关系背后的机制。

3.1. 研究设计
本研究采用了混合方法设计,同时平等地收集和分析定量和定性数据(Creswell & Plano Clark,2018)。选择这种方法是为了深入理解研究问题。定量部分包括能力测试、参与度量表和写作评分,以便对学习者的能力水平、参与度和写作分数之间的关系进行统计分析。定性部分包括半结构化访谈,能够提供关于参与者使用ChatGPT的主观体验和策略的详细信息。数据独立分析后,在解释阶段进行结果三角验证,以提高研究的有效性和深度,这符合在第二语言习得中开展人工智能整合研究的建议(Han等人,2023年;Zawacki-Richter等人,2019年)。

3.1.1. 混合方法整合策略
定量和定性数据分别收集和分析,然后在解释阶段进行整合(Creswell & Plano Clark,2018)。整合过程遵循收敛平行设计:(1)收敛——直接支持定量模式的定性发现被识别出来。例如,当回归分析表明参与度预测写作表现时,会通过访谈数据来探讨这种关联的机制。具体来说,关于努力依赖结果的访谈主题(主题3)有助于解释参与度在过程层面上预测写作表现的结果;关于能力和个人因素的主题(主题4)使能力的结果显得不那么显著,因为研究表明,即使能力较低的学生在积极参与的情况下也能在人工智能辅助的环境中取得有意义的进步。当定性和定量发现一致时,会明确指出它们是互相加强的;当它们互补时,也会被明确指出。

2. 分歧:我们对不一致之处敏感——即定性解释与统计数据不一致的地方会被清晰地指出并作为需要进一步研究的领域。

3. 互补性:我们利用定性数据来阐释定量结果的原因和方式。访谈记录被用来展示统计关系是如何形成的。整合标准包括:定量分析中的统计显著性以及定性数据中的主题饱和度(多个参与者在访谈中提到)。仅由单一数据来源支持的结果被视为初步或提示性的。这种整合在第5节(讨论)中有明确报告,每个关键的定量发现都直接引用支持性定性结果。这种方法的使用将确保结论基于多种形式的证据,从而最大化解释的有效性和可靠性。

3.2. 参与者和抽样
这些参与者是45名在孟加拉国的一所大学攻读英语学士学位的大学生。参与者是根据一个关键标准(即之前使用ChatGPT的经验)通过目的性抽样选出的,以便他们对该技术有所了解(例如,Han等人,2023年;D?rnyei,2007年)。样本包括男性(n = 18)和女性(n = 27)学生,代表了不同的学术表现水平。整个分析过程完全是自愿的,所有参与者在数据收集前都被告知相关信息。为了确保信息的保密性和匿名性,所有参与者的隐私都得到了保障。
从统计功效的角度来看,N = 45低于通常推荐的简单回归分析的最低样本量。根据Green(1991)的经验法则,建议至少有50 + m(m为预测因子的数量)名参与者才能获得足够的统计功效,对于单预测因子模型来说,最低样本量约为58名参与者。事后功效分析显示,N = 45时的回归分析具有约45-50%的功效,能够识别中等大小的效果(f2 = 0.15)。这是一个重要的限制,但根据探索性应用语言学研究的既定惯例(D?rnyei,2007),该样本量被认为适合于初步的假设生成研究,而不是确认性测试。因此,任何结论都应被视为探索性证据,需要在更大的样本上进行重复验证。需要注意的是,这种目的性抽样方法存在明显的选择偏差。我们仅选择了之前有过ChatGPT使用经验的学生,这预设了一定的群体特征,因为这些学生已经被证明是主动且乐于使用人工智能资源的。从未使用过ChatGPT的学生(无论是因为不了解、技术原因、犹豫还是希望使用其他方法)被系统性地排除在外。这种抽样策略对我们发现的解释有重要影响。首先,之前有过ChatGPT使用经验的学生可能在技术上更先进、数字素养更高,对人工智能工具的接受度也更好。因此,我们的样本可能是早期采用者或对技术较为熟悉的学生,他们的经验和表现可能不适用于那些持怀疑态度或数字素养较低的学生。其次,也是对本文整体发现最重要的影响是,那些早期主动使用ChatGPT的学生可能从一开始就具有更高的参与度。这种抽样偏差可能导致我们的样本平均参与度得分较高(M = 43.98/60)和负偏度较大(-1.88)。也就是说,我们可能会选择那些本来就倾向于积极使用学习工具的学生。第三,这种选择偏差限制了研究的普遍性,因为我们的样本可能主要包含那些已经有AI使用经验的学生或参与度较高的学生。在未来的研究中将使用概率抽样方法,并将招募具有不同预先AI使用经验的参与者(包括完全没有使用过AI的参与者)来进行调查,以确定我们的研究结果是否可以推广到所有学生群体。特别重要的是,要对初次使用ChatGPT的用户和有使用经验的用户进行比较研究,以了解先前的使用经验是否会影响他们的能力、参与度和表现之间的关联。

3.3. 仪器
数据收集使用了四种主要工具:能力测试、参与度量表、写作任务和访谈协议。

3.3.1. 能力测试
我们使用了一种基于现代语言能力测试(MLAT)原则的简化工具(Carroll, 1981; Skehan, 1998)来测试学习者的能力。该工具用于测量潜在的语言学习能力,包括语法敏感性、语音记忆和模式识别,而不是当前英语水平。在实际研究之前,我们对8名学生进行了试点研究,以确定MLAT标准组件的适用性。试点结果显示,传统MLAT活动对目标群体来说过于具有挑战性和复杂性(平均得分51.25%),因此我们开发并应用了一个简化且具有情境敏感性的版本。10项能力测试最终量表的重测信度较高(Cronbach’s alpha =.761)。需要注意的是,尽管这个简化的10项工具具有可接受的内部一致性,但其有效性证据相对较低。由于不同的模型可能提供不同质量的反馈,这反映了现实生活中的应用情况——学生能够使用到任何可用的ChatGPT版本。

3.3.2. 参与度量表
我们使用的参与度量表基于Fredricks等人(2004)提出的三维学生参与度模型,共包含12个项目。该量表从行为(4项)、情感(4项)和认知(4项)三个层面评估参与度。为了适应使用ChatGPT完成英语写作任务的情境,我们对每个项目进行了重新表述。例如,将“我努力学习以在学校取得好成绩”这样的通用陈述修改为“在使用ChatGPT时,我会付出很大努力来提高我的英语水平”。这项量表的总体内部可靠性很高(Cronbach’s alpha =.905)。

3.3.3. 写作任务和评分标准
参与者被要求在ChatGPT的帮助下写一段100-120字的段落,并寻求反馈和修改,最终提交版本。写作表现的评价依据Tsai等人(2024)制定的评分标准进行,该标准涵盖了语法、词汇多样性和连贯性三个基本方面。为了确保评分的客观性,两位独立评分者对每个段落进行了评分。评分者间的相关性很高(Intraclass Correlation Coefficient ICC =.988,95% CI = [0.950, 0.997],p < .001),表明评分结果的一致性良好。

3.3.4. 半结构化访谈
我们对10名具有不同能力和参与度水平的参与者进行了半结构化访谈,以更深入地了解他们的使用经验。访谈内容包括开放式问题,旨在探讨使用ChatGPT的多种模式、面临的挑战、动机和参与度、对能力的认知,以及反馈行为等主题。

3.4. 数据收集程序
参与研究的对象是在2024年7月至8月期间使用手机的参与者。数据收集分为三个阶段:
- 第一阶段:参与者首先完成在线调查,包括能力测试和参与度量表。
- 第二阶段:完成调查后,参与者接受关于ChatGPT辅助写作任务的指导并完成任务。
- 第三阶段:最后,选择10名参与者进行个别半结构化访谈,以进一步了解他们的使用体验。

3.5. 数据分析
- **定量分析**:使用SPSS(版本28)对定量数据进行统计分析。首先通过可靠性测试验证了所有量表的内部一致性(SLA研究中常用的方法,如Shen等人,2023)。计算了能力测试和参与度量表的相关系数(Cronbach’s Alpha),并利用Intraclass Correlation Coefficient(ICC)评估了写作成绩的评分者间可靠性。此外,还计算了描述性统计量(如平均值、标准差和偏度),以描述样本在主要变量上的表现。通过这些分析,我们得出结论:对于这个特定样本而言,这种能力测试的简化版本对写作表现的预测能力有限。

3.5.2. 结论
虽然当前研究使用的是较为简化的能力测量方法,但在未来的研究中使用更全面的能力评估工具将有助于确定我们的结果是否适用于其他能力维度。这种测量的局限性对结果的解读具有重要意义。我们发现,这种简化的能力测试(主要衡量语法敏感性和短期记忆)对特定写作任务的预测能力较弱,并不能说明全面的语言学习能力(如MLAT所测量的能力)具有类似的无关性。同样,也不能确定其他能力维度(如音素编码、归纳学习能力和联想记忆)在ChatGPT辅助学习中的作用。在这种情况下,这种测量工具更像是一种针对特定情境设计的实用工具,因为它是在试点测试表明完整MLAT组件过于复杂的情况下进行调整的。虽然这种做法提高了实用性,但可能会忽略部分能力维度。未来的研究应同时使用经过验证的全面能力测量方法,以更全面地评估能力在AI辅助学习中的贡献。在完成此类研究之前,关于能力的发现只能被视为提示性的和初步的,而不能作为最终定论。这强调了避免过度概括的重要性。我们的发现并不支持“在AI时代能力无关紧要”或“传统SLA模型过时”的观点,而是支持“在这种特定的ChatGPT辅助写作情境中,参与度指标比能力测试更能有效预测参与度”的观点。

总体而言,本研究的结果提示我们在AI时代仍需谨慎解读能力的作用,并不能排除其他能力维度在AI辅助学习中的重要性。这是应用于该领域的一种典型方法,用于研究学习者变量与表现结果之间的双变量相关性(Li,2016a)。为了探讨这两个变量在独立性和比较预测作用方面的主要研究问题,进行了多元线性回归分析。这种方法与之前的研究一致,这些研究估计了学习者变量对表现结果的预测能力(Li,2016a;Shen等人,2023)。最后,进行了独立样本t检验,以比较男性和女性组参与者的分数,确保在性别基础上没有差异。

3.5.1.1 变量选择和模型规范的合理性
变量选择和模型估计的理由是合理的。选择能力(aptitude)和参与度(engagement)是因为它们在语言习得(SLA)和技术中介学习中都证明了其作用。将能力加入预测变量中是为了检验一个假设,即当人工智能(AI)外化认知过程时,这一潜在的预测因素仍然具有相关性(Carroll,1981;Skehan,1998;Li,2016a)。参与度被更重视,因为它是一个灵活的、决定性的成功因素(Fredricks等人,2004),可以作为一种实现AI潜力的手段。通过同时研究这两个因素,可以检验所谓的补偿假说(Skehan,1998;Wigfield & Eccles,2000;Zimmerman,2002),即参与度是否可以抵消天生的能力差异。其他适用的变量(例如,先前的熟练程度、数字素养)由于实际需求和研究的探索性质而被省略,但这些变量可能是未解释方差的原因。多元线性回归模型被指定为加性模型。这种探索性模型必然没有考虑一些理论上重要的变量,这可能是未解释方差比例较高的原因(R2 =.102,89.8%未解释)。最突出的是:(1)先前的英语写作技能——这可能是衡量写作质量的最佳单一预测因素——没有被评估或控制;(2)数字素养可能会影响与ChatGPT互动的质量和效果;(3)提示的质量,这表明学生构建ChatGPT问题的复杂程度;(4)超出参与度量表所评估范围的元认知自我调节技能;(5)第一语言素养,它本身会影响第二语言(L2)的写作迁移。为了在未来进行验证性研究,应该包括这些变量,以生成更全面的预测模型。尽管从理论上讲,交互作用是合理的,但由于样本量(N=45)较小,缺乏能力来处理交互作用项或复杂的结构方程建模,因此选择了加性模型。

3.5.2 定性分析
访谈文本的主题分析是根据Braun和Clarke(2006)提出的六阶段框架进行的。研究主题是通过这种方式系统性地获得的,首先是通过反复阅读文本熟悉数据,并形成重复出现和显著特征的初步代码。接下来的步骤包括寻找模式并将代码归类为可能的主题,审查和缩小可能的主题范围,最后最终确定并命名主题,从而生成分析结果。这是一种严格的方法,能够基于参与者的经验识别出深刻且重叠的模式。第一作者进行了编码过程,他首先独立地对十份访谈文本进行了编码。最初的代码是使用归纳方法产生的,并尽可能贴近参与者的用语,并发现了与研究问题相关的模式。然后通过将类似的代码分组并观察代码在文本中的频率和显著性来识别主题,从而确定了潜在的主题。为了确保可靠性,每五份文本(n = 20)中有一份由另一位熟悉定性方法的编码员独立审查,直到达成一致。保留了编码审计跟踪,记录了代码到主题的发展过程。这种循环活动确保了最终确定的四个主题既基于数据又在分析上是一致的,并且符合研究的目的。

3.6 伦理考虑
研究遵循了教育研究的伦理指南以及机构批准的伦理标准。在开始数据收集之前,所有参与者都被告知他们有权参与研究,并确保他们的参与完全是自愿的,且可以随时撤回而不受任何形式的处罚。所有收集的数据都进行了匿名处理,并安全保管,以确保隐私和保密性。研究计划的制定确保没有提出任何个人和敏感的问题。

4. 结果
以下部分讨论了定量和定性研究的结果。结果分为五个部分,分别是对工具的可靠性、描述性统计、相关分析、回归分析、性别比较以及定性见解的讨论。

4.1 工具的可靠性
在回答主要研究问题之前,首先需要确定测量工具的可靠性和一致性。这将使得用于评估能力、参与度和写作表现的数据可靠。可靠性测试验证了本研究中使用的所有工具的强度。能力量表有10个项目,其内部一致性令人满意(Cronbach’s alpha =.761)。参与度量表有12个项目,内部一致性也很好(Cronbach’s alpha =.905)。此外,计算了组内相关系数(ICC),以提供两名评分者之间的一致性。分析显示,评分者之间的可靠性非常高(ICC =.988,95% CI = [0.950, 0.997]),这意味着评分是客观的,没有偏见。所有这些发现都证实了工具的有效性,收集的数据是一致的,为回答研究问题提供了充分的基础。

4.2 描述性统计
进行了描述性分析,以概述样本(N=45)中三个关键变量的数据。表4显示,参与者通常具有较高的能力、参与度和写作表现。为了直接比较这三个变量的分数,计算了它们的平均分数,采用了一个等效的10分制(见图1)。能力的平均分为8.44(SD = 2.28),标准化的参与度平均分为7.33(SD = 1.29)。写作表现的平均分为8.20(SD = 2.25)。这三个变量的偏度均为负值,表明大多数参与者集中在0-10分数范围的上半部分。

4.3 回答研究问题:相关性和回归分析
4.3.1 相关性分析
进行了皮尔逊相关分析,以考察能力、参与度和写作分数之间的双变量关联。参与度和写作表现之间的相关性为中等且具有统计显著性(r = .320,p = .032),表明在这个样本中参与度和写作表现之间存在正相关。能力与参与度之间的关联为正,但没有达到统计显著性(r = .236,p = .118)。能力与写作表现之间的相关性可以忽略不计且不显著(r = .137,p = .369)。需要注意的是,这一无显著性的发现仅适用于这种简化的10项能力测量方法;这并不证明作为更广泛概念的能力与写作表现无关。总体而言,相关性模式表明,在这个特定的数据集中,参与度与写作表现之间的关联比这种能力的测量方式更强。

4.3.2 简单线性回归分析
使用的回归测试是简单的线性回归分析,旨在确定学习者的参与度在ChatGPT辅助任务中对写作表现的预测程度。初步分析中未将学习者的能力纳入模型,因为学习者的能力与因变量之间没有显著关联。总结结果(表5)显示,参与度是写作表现的统计学上一个显著的预测因素(β =.320,p =.032)。该模型解释了写作分数中的10.2%的方差(R2 =.102)。整个模型在统计上是显著的(F(1, 43) = 4.905,p =.032),这验证了在写作过程中与AI工具的互动是影响写作表现的主要因素之一。然而,需要注意的是,该模型仅解释了写作表现中大约10.2%的方差,表明仍有相当一部分方差可归因于其他未测量的因素。因此,这些发现应被视为初步的、探索性的证据,而不是关于AI辅助环境中写作表现决定因素的最终结论。

表5. 简单回归分析:参与度作为写作表现的预测因子
预测因子 β(标准化) p值 95%置信区间(下限,上限)
参与度 320 0.320 [0.030, .610] *p < .05
模型总结:R2 = .102,F(1, 43) = 4.905,p = .032

图3展示了参与度与写作分数之间的散点图。所有参与者的点都在图表上,累积参与度分数位于x轴上,累积写作分数位于y轴上。图表明显表现出正向趋势,数据点从左向右总体上呈上升趋势。这种视觉证据支持相关分析的结果,表明随着自我报告参与度分数的增加,写作表现分数也倾向于上升。虽然数据有些变异,但总体趋势表明参与度与写作表现之间存在正相关。

下载:高分辨率图像(114KB)
下载:全尺寸图像

图4. 按性别划分的平均能力、写作和标准化参与度分数的比较
注:为了便于直接比较各个变量,总参与度分数从原来的60分制标准化为10分制。能力和写作分数最初也是根据10分制评估的。

4.3.2.1 回归假设检验
在解释简单回归结果之前,我们使用SPSS提供的诊断测试检查了主要的统计假设是否得到满足。
- 线性和独立性:通过可视化散点图(图3)和部分回归图,证实了参与度和写作表现的均值是线性的。Durbin-Watson统计量为2.183,位于可接受的1.5到2.5范围内,因此确认残差是独立的。
- 正态残差:对标准化残差的核P-P图的视觉检查表明,观察到的累积概率接近对角线,因此假设残差呈正态分布是成立的。
- 同方差性:回归标准化残差与回归标准化预测值的散点图没有明显的模式或漏斗形状,表明回归标准化残差符合同方差性(残差方差相等)的假设。
- 总体评估:分析是有效的,因为简单线性回归中的所有主要假设都得到了满足。**性别比较**
独立样本t检验用于确定男性和女性参与者在写作(t = 0.202,p = .841)、能力(t = 0.032,p = .975)和参与度(t = -0.282,p = .779)方面的得分是否存在差异。研究未发现写作得分、能力和参与度存在显著差异。效应量非常小,这意味着性别并未显著影响学习者在ChatGPT辅助任务中的表现。需要注意的是,由于仅有45名受访者(18名男性,27名女性),该研究的统计功效不足以识别出微小到中等的性别差异。因此,这种无差异的结论应理解为在该样本中不存在显著的性别差异,而不是绝对性地认为男性和女性在基于ChatGPT的写作任务中没有差异。

**4.5 定性发现:主题分析**
主题分析数据是通过内容分析和主题分析相结合得到的关于某一特定主题的资料。除了定量分析外,还通过对十名参与者进行了半结构化访谈。采用Braun和Clarke(2006)开发的主题分析框架,识别出四个主要主题。这些主题补充了定量结果,提供了学习者在使用ChatGPT进行写作任务时所经历、感知和采取的方法的宝贵见解。

**主题1:使用模式与体验**
受访者提到了ChatGPT的多种应用,如语法检查、写作提升、文献分析、摘要制作、词汇辅助和对话练习。一名参与者表示:“我使用ChatGPT来获取文学知识、学习语法,并练习写作。它帮助我完成摘要、解释和翻译。”(参与者1)其他人也将ChatGPT视为教学工具(参与者4)或辅助伙伴(参与者5),认为其具有教学和激励作用。

**主题2:挑战与改进建议**
尽管认为ChatGPT很有用,但仍存在一些局限性。常见问题包括冗长复杂的回答(参与者1、2、3、7)、偶尔的准确性问题(参与者4、5)、在文学任务中使用直白的语言( participant 2)以及需要稳定的网络连接(参与者6)。改进的建议包括根据学习者水平进行个性化调整、添加视觉元素、互动测验、语音支持和多媒体功能。例如,参与者5说:“如果能让它根据我们的学习水平调整答案,那将非常有用。”

**主题3:积极参与与策略性运用**
访谈的一个关键发现是,有效使用ChatGPT需要积极主动的策略,而不仅仅是被动接受。这一主题涉及动机、努力投入、批判性思考和依赖性。

**动机与减少焦虑**
研究发现,ChatGPT使参与者感到更加有动力,并减少了与学习相关的焦虑。工具的非评判性反馈和即时性为学习者创造了安全的学习环境:“ChatGPT能迅速给出反馈,让我无惧评判,从而持续学习。”(参与者1)

**结果与努力相关**
学习者强调,表现与个人努力密切相关。他们认为被动复制毫无成效,而主动改写、应用纠正措施和自我反思才能带来显著的学习收获:“通过复制,你什么都学不到;但通过主动参与,学习效果显著。当你阅读它的建议,思考其原因,并用自己的语言重新表达时,它确实很有帮助。”(参与者4)

**批判性反馈处理**
学生表示,他们会有意使用ChatGPT的反馈,将自己的原稿与修改后的版本进行对比以吸收改进:“我会将原句与修改后的句子进行对比,以避免再次犯同样的错误。”(参与者7)

**混合依赖性**
尽管参与者将ChatGPT称赞为教师的替代者(参与者4)、聪明的朋友(参与者2)或“学习伙伴”(参与者5),但他们也认为不应过度依赖它:“ChatGPT已经在一定程度上取代了我的教师,但我不能完全依赖它。我可以借鉴它的想法,但不必完全依赖它。”(参与者4)

**主题4:学习者能力与个人因素**
学习者的能力和热情决定了他们通过使用ChatGPT能获得多少收益。英语水平较高的学生表示能提出更好的问题并获得更有用的答案(参与者5、6、7)。参与者1称:“我的好奇心和学习潜力使我能够更熟练地使用ChatGPT,更快地掌握知识。”有趣的是,即使那些英语水平较低的学生(参与者4)也表示有所进步,这表明能力有助于有效使用工具,但参与度才是更关键的因素。

**5. 讨论**
**5.1 主要发现概述**
本研究探讨了学习者能力和参与度在Bangladeshi大学生AI辅助英语写作表现中的独立和相对预测作用。主要定量结果显示,参与度是写作表现的统计学上显著的预测因子(β = 0.320,p = 0.032),而简化的能力测量指标则没有这种效果(p = 0.369)。这一结果部分支持了H2(参与度预测表现)和H3(参与度的关联强度大于能力)的假设,但H1(能力预测表现)并未得到证实。整体参与度模型在统计上显著(F(1, 43) = 4.905,p = 0.032),解释了写作得分10.2%的方差。在各变量中均未观察到显著的性别差异。定性数据与定量结果大体一致:参与者普遍认为积极修订、对AI反馈的批判性处理和元认知反思是学习的重要因素。这些发现应谨慎解读,因为模型仅解释了10.2%的方差,样本量较小(N = 45且为选择性样本),能力测量指标较为简化,且参与度完全通过自我报告获得。因此,所有结论都具有临时性和特定于该数据集的特性,而非普遍适用的理论主张。

**5.2 参与度作为成功的主要驱动因素:定量证据**
研究发现,参与度(r = 0.320,p < .05)是写作表现的显著预测因子,而非我们简化的能力测量指标,这与越来越多的关于技术增强学习的文献一致(Fang, 2025; Shen et al., 2023)。尽管效应程度为中等到较小,模型仅解释了约10%的方差,但仍需谨慎解读。这一趋势与Shen et al.(2023)和Han et al.(2023)的研究结果一致,他们发现深度参与AI反馈的学生产生了更高质量的写作。定性数据揭示了这一关联的机制:参与者不会被动接受AI建议,而是会将其与原文进行对比,反思错误的原因,并有意识地将改进应用到未来的写作中。例如,通过比较原文和修改后的句子,学生能够认识到具体的错误,这是一种将AI反馈转化为学习的元认知过程。Bouteraa等人(2024)的研究发现,学生的道德观是影响其是否使用ChatGPT的重要因素——道德观念较强的学生更不倾向于使用ChatGPT。Bin-Nashwan等人(2024)在学术员工中的研究也表明,个人目标对AI使用的态度有积极影响,尤其是在AI尚未整合的情况下;而ChatGPT的整合可能会影响这种积极性。Sadallah等人(2024)和Bin-Nashwan等人(2025)的研究还表明,AI利用的成功结果取决于与工具互动的质量和目的性。在这方面,当前研究的定量结果与这些文献有直接的实证联系,为资源匮乏的南亚地区提供了新的数据支持。在Bangladeshi教育背景下,这种模式尤为重要,因为传统教学方法可能更倾向于被动学习方式;初步发现参与度与更好的写作成果相关,表明在资源有限的情境下,促进与AI的积极、批判性互动可能是一种有价值的教育策略。

**5.2.1 定性证据:参与度如何推动成功**
定性证据进一步丰富了定量结果,表明参与度是写作表现的显著预测因子(β= 0.320,p = .032)。访谈数据显示,参与度不仅仅是努力程度的体现,还涉及特定的策略行为、元认知和动机导向,这些因素将AI反馈转化为学习成果。例如,参与者系统地比较ChatGPT的建议与原文,以了解自己的错误并避免重复。这种分析活动将单一错误的纠正转化为持久的学习体验。一些参与者指出,ChatGPT可能被用于无效方式:“你只是复制粘贴,什么也学不到。”(参与者4)这种有效使用与无效使用的差异与能力无关,而与参与度有关,表明学生可能将工具视为提供答案的工具,或是将其作为学习的辅助工具。

**努力与修订**
积极参与的学生强调,用自己的语言重新写作比直接复制AI生成的文本更为重要。参与者4解释道:“只需阅读提示内容,思考后用自己的话表达出来,这非常有帮助。”这种细致的阅读、思考、理解逻辑和再创作的过程体现了参与度的行为和认知方面。定性数据表明,参与度是将AI反馈转化为学习的过程。ChatGPT可以给出正确答案,但单纯理解而不进行参与则无法形成元语言意识和技能。参与度的心理安全感也很重要,非评判性和即时性反馈让学生保持学习动力(参与者1)。

**5.3 结论**
总体而言,本研究探讨了学习者能力和参与度在AI辅助英语写作表现中的作用。主要定量结果表明,参与度(β = 0.320,p = 0.032)是写作表现的显著预测因子,而简化的能力测量指标则不然。参与度模型在统计上显著(F(1, 43) = 4.905,p = 0.032),解释了写作得分10.2%的方差。定性数据与定量结果一致,表明积极参与、对AI反馈的批判性处理和元认知反思是学习的关键因素。尽管模型解释的方差比例较低,且样本量有限,但这些发现仍提示在资源有限的情境下,促进与AI的积极互动可能是一种有效的教学策略。这种趋势在全球范围内也有类似的研究支持,特别是在资源有限的地区。平衡的依赖与批判性评估:值得注意的是,大多数参与度高的人表现出对人工智能正确应用的元认知意识。他们将ChatGPT描述为教师的替代品或学习伙伴(参与者4、5),但他们强调必须对其进行批判性评估:“ChatGPT现在越来越成为我学习的一种方式,但我不能完全信任它。我可以借鉴ChatGPT的想法,但我并不一定需要完全依赖它”(参与者4)。这种参与度是高级的,因为它是一种平衡的观点,既考虑了对工具的谨慎使用,也保持了批判性的距离。这意味着成功的人工智能应用不仅需要努力和决心,还需要判断什么可以接受、改变或排除。当人工智能设备变得更加先进和令人信服时,这种元认知方面的参与尤为重要。

综合:参与是一种过程,而不是一种特质:累积的定性数据表明,参与在这方面不是特质(例如有动力的学生)的属性,而是一个由不同行为组成的战略过程,即比较、分析、反思、重写、提问和评估。这种基于过程的参与解释说明了为什么在定量分析中它比能力更具预测性。在ChatGPT辅助下的写作表现的基本问题是,学习者是否执行了这些参与过程,无论他们的初始认知能力如何。定性数据也有助于解释为什么整体模型仅解释了10.2%的变异。我们自我报告量表测量的参与程度可能只是趋势的汇总统计数据,而参与过程的质量、学生对提示的构建程度、他们对反馈的考虑程度以及对错误的反思程度是多样化的,这些可能解释了额外的未解释变异。在未来的研究中,如果包括对提示、修订和反思协议的过程测量,这些细微差别可能会得到更好的体现。

5.3. 能力悖论:解释非显著的能力发现
本文的一个有趣结论是,在这种特定的ChatGPT-3.5辅助环境中,写作表现(r =.137, p =.369)并没有被我们的简化能力测量显著预测。首先需要强调的是,这一发现应该非常谨慎地理解,它并不意味着能力在人工智能辅助的语言学习过程中不再是一个重要因素。相反,我们发现在这种特定情况下,使用这种特定的测量工具,在这种特定的写作活动中,能力与表现之间的关系在统计上并不显著。这一发现的解释受到许多方法论因素的限制。首先,能力分数(平均分=8.44/10,偏度=-1.85)的范围有限,因此大多数参与者在我们的测量中得分较高,这可能造成了上限效应,从而扭曲了真实的能力-表现关系。从统计学上讲,范围的限制会降低相关性,因此关系的缺失可能是由于我们的样本问题,而不是能力效应的真正缺失。在能力差异更大的异质样本中,可能会发现不同的模式,包括样本中更多能力较低的学生。其次,我们简化的10项能力测量并没有涵盖语言学习能力的所有方面(理想情况下包括语法敏感性和短期记忆),与完整的才能测试(如MLAT)不同。也许其他未在此评估的能力方面(如音素编码能力、归纳语言学习能力、词汇的联想记忆)可以预测在ChatGPT辅助下的写作表现。因此,我们报告了我们特定操作化的局限性,这并不能构成关于能力作为一个更广泛概念的决定性证据。第三,这个简短的个人叙事写作任务可能不够具有挑战性,无法显现出与能力相关的优势。在需要更高阶分析技能的体裁中,如论证性文章或研究报告,即使有人工智能的支持,能力效应也可能更易检测到。考虑到这些限制,可以提出哪些暂定的解释?观察到的模式——非显著的能力和显著的参与——与一种理论观点一致,即人工智能可能部分地将个体差异的优势从稳定的认知特质转移到更灵活的行为和动机倾向上。这种可能性可以称为“能力减弱模式”,反映了随着人工智能工具执行以前与能力相关的功能(如语法校正、模式识别、词汇检索),高能力所带来的独特优势在某些情境下可能会减弱,而与人工智能支架的参与质量可能成为更重要的变异来源。

在这种解释框架内,区分学习者的因素与其基线能力的关系较小,而更多地与他们有效利用人工智能提供的认知支架的能力有关。ChatGPT有效地根据需求提供了语法敏感性、模式识别和词汇检索;区分因素变成了学习者是否积极寻求、批判性评估以及有意义地整合这些帮助。本研究的定性数据总体上与这一解释一致:参与者强调结果取决于努力、批判性反思和战略性修订,而不是天生的语言能力。然而,这种解释仍然应保持暂定的性质。我们不能得出结论认为能力在人工智能中介的语言学习中无关紧要,或者现有的语言学习理论已被推翻。更准确地说,这一初步模式表明,在人工智能提供实质性认知支持的相对简单任务中,当能力测量涉及的变异较小时,参与可能成为这个数据集中更明显的预测因素。这种模式是否适用于其他人工智能工具、更具认知挑战性的任务、更多异质性的样本或更全面的能力测试,仍然是一个开放的实证问题。因此,这里提出的能力减弱解释应该被视为一种暂定的、探索性的假设,而不是理论结论;在任何更强的结论之前,都需要通过带有对照组、经过验证的能力测量工具、多样化的任务类型和更大异质性样本的实验设计来进行系统测试。

5.3.1. 零能力发现的方法论解释
能力发现不显著的原因可能是由于方法论的局限性,而不一定是理论上的变化。首先,由于70%的参与者得分在8分或以上,因此不存在足够的变异来与结果共变。其次,10项工具可能不够可靠,无法捕捉到任何微小的效应,统计功效(N=45)太低,无法识别小到中等程度的相关性。此外,叙事任务的简单性可能导致上限效应,而有ChatGPT使用经验的用户的抽样可能是已经能够克服能力不足的人的结构化样本。因此,这样的方法学问题与假设语言学习发生根本变化的理论描述同样具有建设性。

5.4. 对资源匮乏环境中的公平性的影响
这些发现在孟加拉国这种资源匮乏的教育背景下具有特别的意义。初步证据表明,参与——一种可塑且可教的学习倾向——可能是比相对稳定的能力更强的预测因素,这对教育公平性具有重要意义。在传统环境中,由于获得专家反馈的机会有限,能力较高的学生可能具有内在优势。然而,像ChatGPT这样的人工智能工具原则上可以向所有学生提供高质量的个人化反馈,无论班级规模或教师是否可用(Hossain & Rezwana, 2023; Kasneci et al., 2023)。在这种环境中,本研究建议,积极的参与成为主要的区分因素,从而在资源受限的环境中创造出与资源更丰富的环境中相当的学习成果的潜在平等桥梁。零性别发现的进一步支持了这种可能性,表明ChatGPT不会放大现有的基于性别的表现差异(参见Kasneci et al., 2023)。同时,这种积极的框架也应附带重要的前提。实证研究表明,Bin-Nashwan等人(2023)发现学术诚信对其样本中的702名学术研究人员的ChatGPT采用产生了负面影响,而且诚信在感知压力和自尊方面的间接调节作用显著积极——换句话说,即使是具有学术意识的研究人员也可能使用ChatGPT来减轻工作负担,机构的管理结构必须精心设计以确保这种使用是合乎伦理的。同样,Sadallah等人(2024)发现,在人工智能辅助的环境中,学术能力确实能预测表现,但人工智能辅助下的较高表现伴随着更高的感知压力,这表明整合ChatGPT的生产力收益可能会给机构带来心理上的代价。对于孟加拉国的机构来说,只有在数字基础设施得到公平发展(Mokgata et al., 2026; Kasneci et al., 2023)并且积极实施了促进这种批判性、迭代参与的教学策略的情况下,才能实现这种平等桥梁。

5.5. 理论与实践意义
这些发现对语言学习理论和教学实践都有暂定的启示,尽管这些启示的意义应结合研究的小样本、目的性设计和探索性质来理解。从理论上讲,数据提供了初步的、特定情境的证据,与这样的观点一致:在某些人工智能中介的学习情境中,能力的预测作用可能会减弱,行为和动机因素(如参与)可能变得更加显著。这大致符合外部化假设(Kasneci et al., 2023; Zhai, 2022)和补偿假设(Kasneci et al., 2023; Wigfield & Eccles, 2000; Zimmerman, 2002),尽管本研究无法确认这两个框架;它提供了一个可能需要进一步探索的探索性数据点。该研究还为人工智能在教育中的应用增加了地理广度,提供了来自孟加拉国的特定情境证据,该国家的基础设施和教学条件与现有文献中主导的高资源环境有很大不同。在实际应用方面,这些初步发现表明,鼓励与人工智能反馈进行积极、批判性参与的学习活动,例如结构化的修订日志或指导性反思协议,可能值得作为教学设计进行探索。这些方法原则上可以促进人工智能素养,并减少被动过度依赖的风险。这些建议是实践性的,并不与关于高等教育中人工智能治理的研究相矛盾。Bin-Nashwan等人(2023)基于702名学术研究人员的发现表明,诚信一致的使用是可能的,但并不稳固:节省时间的功能、自尊和感知压力都受到AI使用的积极影响,但诚信起到了直接的负面影响,某些关系受到了诚信的积极调节,这意味着机构不能单独依赖诚信,而必须指定指导AI使用的结构。当前研究中使用的基于参与的任务设计可以代表这样一种结构响应,这将允许在人工智能时代进行基于证据的评估设计改进。正如Bin-Nashwan等人(2025)所示,教师的信心和使用频率是ChatGPT生成的课堂准备效果的主要因素——这一结果可以在学生写作表现领域得到推广,表明类似的参与质量预计会产生可量化的结果。Sadallah等人(2024)表明,学术能力在人工智能辅助的环境中促进了表现,但人工智能辅助下的更高表现伴随着更高的感知压力——在资源受限的环境中,如孟加拉国。这些结果表明,为学生提供参与策略以使用AI可以是一种更高杠杆和更可持续的干预措施,相比尝试提高平均能力或仅仅增加AI的使用权限。

5.5.1. 对语言学习理论的启示
从理论上讲,本研究为关于人工智能是否从根本上改变了个体差异格局的持续辩论做出了贡献。虽然一些学者认为人工智能工具只是扩展了现有的教学方法,而没有改变已建立结构的预测作用,但其他人提出人工智能可能会使基于能力的模型过时。当前的研究发现提出了一个更为谨慎、具体情境化的立场:在这一特定的ChatGPT辅助写作环境中,以及在这些样本和测量方法下,参与度与写作表现之间存在显著关联,而简化的能力测量则没有显示出这种关联。这种模式与某些人工智能中介学习情境下参与度可能成为更为突出预测因素的可能性一致,但并未予以证实。这些初步证据大致符合外化理论(Kasneci等人,2023年;Wigfield & Eccles,2000年;Zimmerman,2002年)和补偿理论(Kasneci等人,2023年;Wigfield & Eccles,2000年;Zimmerman,2002年),并为关于人工智能辅助语言习得(SLA)中个体差异的不断讨论增添了新的数据点。应当明确区分实证建议与理论确认之间的区别:这项单点探索性研究无法确定人工智能是否系统性地改变了不同情境下SLA构念的预测力。本研究提供了初步的、具体情境化的证据,表明在人工智能辅助学习环境中某些SLA构念的运作方式可能发生变化,但并未实际证明这种变化。

5.5.2 对教学实践的启示
从实践角度来看,这些探索性发现具有一些暂时的教学启示,尽管它们应被视为来自一个小规模、单点研究的建议,而非基于坚实因果关系的规定性建议。在人工智能辅助写作环境中工作的教学设计师可以考虑任务结构是否明确促进了与更好结果相关的参与行为,例如Rahnuma(2023年)所提出的针对孟加拉国传统学术写作体验中的迭代修订、对原始文本与AI修正文本的批判性比较,以及对错误性质的元认知反思。一种可以鼓励此类行为的方法是使用结构化的修订日志,让学习者记录他们的提示、收到的反馈以及他们选择做出或拒绝的修改。关于人工智能素养的明确指导,包括如何构建有效的提示、如何批判性地评估AI建议,以及对生成式AI限制的认识,可能进一步支持高质量的参与度。这类支架有可能帮助将ChatGPT从被动修正工具转变为更积极的学习助手。这与Alam等人(2022年)的研究结果一致,他们发现学习者缺乏信心和害怕犯错导致参与度降低,并且学生更喜欢以学生为中心、具有支持性和互动性的环境以促进参与。同时,也可以考虑混合反馈模型,其中AI处理语法和词汇等低阶特征,而教师反馈则关注论证和组织等高阶技能。在资源匮乏的环境中,如孟加拉国,解决数字接入不平等问题(包括可靠的互联网连接和设备可用性)仍然是任何教学创新的先决条件。

5.5.3 本研究的具体贡献
尽管这是一项方法上有缺陷的探索性研究,但它仍然在多个方面为语言学习中的人工智能研究做出了贡献:
**理论贡献:**
1. 直接测试人工智能情境下的能力-参与度层次结构:本文是首批定量研究之一,比较了能力和参与度作为人工智能辅助写作过程中的同时预测因素。虽然之前的研究独立考虑了这些变量,但本研究直接比较了它们的重要性,从而深化了关于人工智能是否改革传统SLA模型的理论讨论。
2. 拓展了人工智能教育研究的地理和社会经济范围:本研究通过聚焦资源匮乏的南亚国家孟加拉国,扩展了人工智能教育研究的地理和社会经济范围,有助于确定人工智能的研究结果是否具有普遍性,还是仅限于特定的文化/经济背景。
3. 整合学术诚信考虑:与大多数主要关注教学效率的研究不同,本研究将ChatGPT的使用置于更广泛的学术诚信、治理和人工智能伦理采纳问题背景下(Bin-Nashwan等人,2024年;Bouteraa等人,2024年;Bin-Nashwan等人,2023年),因为人工智能在教育中的应用与学生和大学处理伦理困境的方式密不可分。

**方法论贡献:**
4. 混合方法三角验证:本研究结合了定量测量(能力测试、参与度量表和写作评分标准)和定性访谈,不仅揭示了参与度的重要性,还通过具体战略行为解释了其原因和机制。
5. 通过日志验证过程:记录ChatGPT互动的过程日志是方法论上的创新之一,用于验证真实的人工智能互动,而不是依赖于自我报告或最终产品。

**实践贡献:**
6. 参与度-公平性桥梁概念:研究得出结论,即在人工智能情境下,参与度(可塑的)可能不如能力(稳定的)重要,这意味着旨在提高参与度的干预措施有潜力在资源有限的环境中实现优质学习支持的普及。这重新构建了关于工具获取的数字鸿沟讨论,将其发展为获取与参与度培养的议题。
7. 具体的教学策略:定性数据指出了具体的参与行为(比较原始文本/修正文本、用自己的话重写、批判性评估、元认知提问),这些行为可以由教师明确教授,而不仅仅是泛泛而谈(批判性使用AI),而是通过具体的指导来实施具体的干预措施。

**实证贡献:**
8. 孟加拉国背景的基线数据:本文将提供孟加拉国本科生使用ChatGPT的基线数据,为未来的比较研究提供基线和结果效应量。
9. 复制目标:通过详细描述方法论,本研究可用于在其他资源匮乏的环境中复制这项研究,从而促进跨文化的系统比较。

**与最新文献的关系:**
本研究的结果与多项近期研究问题相关并进行了扩展:
- 参与度研究:本研究扩展了Wang和Xue(2024年)的研究,通过在另一个国家背景(孟加拉国与中国)验证参与度的预测有效性,并比较了不同的AI工具(ChatGPT写作与一般AI聊天机器人)。
- 技术增强情境中的能力:通过直接分析能力,提供了相对重要性的测试(Kasneci等人,2023年;Zhai等人,2023年)。
- 学术 integrity 考虑:本研究在Bin-Nashwan等人(2023年)和Bouteraa等人(2024年)的研究背景下解释了人工智能使用的学术诚信问题,并指出没有技能和伦理导向,人工智能的使用是不可能的。
- 低资源情境的重点:本研究回应了Rahman和Karim(2023年)以及Salas-Pilco等人(2022年)的呼吁,即在数字不平等和资源限制存在独特挑战的情况下进行研究。

**局限性作为贡献:**
讽刺的是,研究的局限性也起到了一定作用。R2值(10.2)表明参与度是一个重要的预测因素,但其他变量也在结果变异中发挥作用。值得注意的是,整体模型(p =.032)被认为足够显著,为人工智能辅助写作中参与度的作用提供了坚实的实证基础。下面列出的方法论局限性为未来进行更严格的研究提供了指导。

总体而言,本文是一项关于ChatGPT辅助写作中学生特征特定情境性的实证研究,有助于更清晰地了解这一现象。尽管结论基于复制和扩展,但研究通过定性分析揭示了核心机制,并预定了关于人工智能中介学习在各种教育情境中的研究方向。

**这项研究如何建立在五篇重要近期论文的基础上?**
当前研究基于评论者提到的所有五篇近期论文得出了独特的发现。除了Bin-Nashwan等人(2024年)调查学术人员,评估ChatGPT使用如何调节个人最佳目标、学术能力、工作场所压力和学术诚信之间的相关性外,本研究还将焦点从学术人员转向学生层面的参与度评分及其与写作任务实际表现之间的关系。与Bin-Nashwan等人(2025年)的研究不同,后者通过STS-TPACK模型研究了教师在课堂准备中使用ChatGPT的情况,并发现教师的信心和使用频率是决定效果的因素,本研究则通过定量结果测量考察了学生在表现任务中的参与度。与Sadallah等人(2024年)发现学术能力对基于AI的学术表现有正面预测作用,而个人最佳目标以及对压力的增加有负面影响不同,本研究提供了学生在写作任务中的参与度测量结果与其表现之间的相关性。此外,除了Bin-Nashwan等人对702名学术研究人员的实证研究发现诚信与ChatGPT使用呈负相关外,本研究还提供了积极参与、批判性和迭代性AI使用与更好写作结果之间的统计关联——这是将促进参与度的任务设计作为可行制度响应的实证基础。

**研究的局限性和未来研究的方向**
这项研究也存在一些严重限制,这些限制影响了结果的普遍性和解释。这些限制并非简单的局限,而是对可做出的推论具有重大影响,所有发现都应谨慎解读:
- **抽样和普遍性限制:**首先,仅在一所大学选取的45名参与者样本严重限制了结果的普遍性。不能假设这些结果适用于孟加拉国的其他大学、其他南亚地区或其他国家的EFL学生。这项研究更多是对这一群体的发现性证据,而不一定适用于所有ChatGPT辅助写作的普遍结论。
- **目的性抽样导致的选择偏差:**之前使用ChatGPT的经历导致样本选择存在较高偏差,参与ChatGPT的学生在技术上更为熟练、数字意识更强,可能更倾向于使用数字学习工具。这种抽样偏差可能是平均分数较高(M = 43.98,SD = 7.73)和偏度较低(-1.88)的原因。此外,ChatGPT的使用者可能是一个倾向于使用这类工具的自我选择的群体。
- **样本规模有限:**样本中只有18名男性和27名女性,不足以揭示小到中等的性别差异。因此,零假设结果意味着样本中没有显著的性别差异,并不能证明男性和女性在ChatGPT辅助写作任务中的效果相同。
- **测量限制:**尽管简化的10项能力测量在内部一致性方面(α = .761)是可以接受的,但其有效性历史较弱。该量表仅测量了语言学习能力的一些维度(主要是语法敏感性和短期记忆),而不是整个能力结构。这是一个非常重要的测量弱点:我们所发现的是写作表现与能力操作化之间的相关性,并不能确凿地证明能力是一个整体的结构。能力得分(平均分=8.44/12,偏度=-1.85)也受到了限制,这进一步限制了我们检测能力效应的能力,因为大多数参与者的得分都很高。如果使用一个能力得分差异更大的异质样本,模式可能会有所不同。使用更大规模、更可靠的能力测试工具进行进一步的研究将有助于阐明我们的结果是否适用于其他能力测量。第五,虽然(Fredricks等人,2004年)提出了一个有效的三维模型来测试参与度量表,但我们没有进行验证性因素分析来确保该三维结构适用于我们的数据。因此,我们只是在做假设,并没有从实证上验证行为、情感和认知方面。未来的研究应该进行CFA(验证性因素分析),以确认AI中介学习情境中参与度的维度结构。第六,参与度的测量仅通过自我报告方法进行,这种方法容易受到社会期望偏差的影响。自我认为参与度高的学生可能在访谈中给出更高的评分,从而可能夸大了参与度与写作表现之间的关系。未来的研究应包括客观的行为测量方法(例如,通过检查提供给ChatGPT的提示的质量和频率、因反馈而花费的编辑时间,或者修改过程的重复次数)。基于真实ChatGPT互动的日志数据将提供更客观的参与度测量。现有的参与度测量仅依赖于自我报告(李克特量表和访谈),这些方法容易受到社会期望偏差、自我感知偏差和记忆偏差的影响。最重要的是,自我报告的参与度可能与自我报告的表现质量相关,这可能会夸大两者之间的关系。未来的研究还应结合客观的行为测量来验证这一点。

这项研究的一个重大局限性是没有对照组或基线比较。除非我们将ChatGPT辅助写作与未辅助写作进行比较,并使用相同的学生,否则我们无法得出关于ChatGPT对能力、参与度和表现关系影响的任何结论。我们只能描述AI辅助环境内的关联,而不能确定因果关系或区分ChatGPT的具体影响。一个更强的设计应该包括随机分配的AI辅助和非AI条件,以消除技术的特殊效应。第八,这项研究仅进行了横断面研究,时间跨度为一个月,因此无法了解在长期使用ChatGPT的情况下,能力、参与度和表现关系如何发展。发展模式以及初始参与度是否会随时间持续存在需要纵向研究,这些研究需要跟踪学生在整个学期或学年中的表现。第九,写作任务被限制为100-120字的个人叙事段落。尽管这种形式适合这项探索性研究,但这种简短形式的写作可能无法反映更复杂、更具挑战性的学术任务(如议论文、研究论文)中的能力作用。能力、参与度和表现之间的关系可能在不同类型任务、体裁和复杂性水平上存在显著差异。这里采用的个人叙事体裁可能特别有利于基于参与度的成功,但更具分析性的写作(需要更高认知能力的任务)可能会显示出更明显的能力效应。一个基本的局限性是缺乏对照组。由于没有对比ChatGPT辅助写作和未辅助写作,我们无法得知:(a)ChatGPT在多大程度上改变了能力-参与度-表现的关系;(b)它是否提高了整体表现,还是仅仅改变了学生成功的预测特征;(c)或者AI对低能力但高参与度的学生是否有特别的好处。当前的设计仅描述了AI辅助环境中的关联,而非因果关系。例如,可以随机分配学生分别在有无ChatGPT支持下完成任务,然后比较在不同条件下的关系是否显著不同。未来的研究应更加重视使用对照组进行实验或准实验设计,以强化因果推断。

统计/解释上的局限性:第十,总体回归模型解释了写作分数21%的变异。尽管模型在统计上显著(p=0.032),但R2表明约89.8%的写作表现变异无法用测量变量解释。其他不可测量的变量,包括之前的写作熟练度、第一语言素养、提示制定的具体策略、特定情境下ChatGPT反馈的质量、学生的批判性 literacy 能力以及情境变量,可能是重要影响因素。较低的R2极大地限制了这些发现的实际应用价值,并强调了这些发现的初步性质。所有这些可能表明结果具有提示性和情境性,而不是决定性和普遍性。这项研究提供了一些早期证据,表明在这种特定的ChatGPT辅助情境中,互动可能比能力更为重要,但没有在更大、更多样化的样本中进行重复实验,也没有使用全面的测量方法和对照组及长期跟踪,因此无法得出强有力的结论。这些局限性不仅限制了研究结果,也界定了关于这项研究可以和不能推断的内容。研究的時間跨度(2025年7月至8月)是一个主要的时间限制,仅能捕捉ChatGPT使用的短期后果,无法回答关于长期使用模式、持续使用效果或长期学习成果的问题。有几个关键问题尚未得到解答:为了解释低R2的原因,最重要的变量包括(1)之前的英语写作熟练度——最有可能预测写作质量的因素,但在当前研究中未被测量;(2)数字素养和即时提示制定技巧,这些因素影响了学生通过ChatGPT生成有用反馈的有效性;(3)超出参与度项目的元认知自我调节能力;(4)第一语言素养对第二语言写作迁移的影响。这些可以成为未来多变量验证模型的优先变量。

首先,初始的参与度水平是否会在长期使用ChatGPT的过程中保持不变,还是会随着新鲜感的减弱而下降?关于聊天机器人互动的实证证据表明,用户的初始热情通常会随时间减弱(Croes & Antheunis, 2021)。在这种情况下,如果参与度的本质决定了它的下降趋势,那么这种关系可能无法在整个学期或学年中持续。其次,能力或参与度是否会随着时间的推移变得越来越不重要?有可能在ChatGPT的初步使用阶段,参与度是最重要的因素,但一旦学生学会了有效使用该工具,能力会在更高级的应用中重新发挥作用。或者,随着长期参与,即使是低能力的学生也能逐渐缩小表现差距。第三,ChatGPT的短期使用和长期使用在学习过程和结果上是否存在差异?本文讨论的短期写作任务可能涉及多种心理和动机活动,而较长的写作任务可能需要数周时间完成。这种横断面设计增加了这一局限性——我们只在某个时间点观察了参与者,而没有跟踪他们的长期发展。如果能够跟踪学生在整个学期或学年中的变化,并记录他们的能力-参与度-表现相关性的变化,将对这一领域有重要贡献。重复测量实验设计将允许在不同时间点比较有无ChatGPT支持的写作情况,从而分离出该工具的发展效应。写作任务被限制为100-120字的个人叙事段落,这虽然适合这项探索性研究,但它限制了结果的普遍性。个人叙事只需要较少的分析思维,形式相对简单,因此容易通过描述取得成功,而无需复杂的论证或综合。这可能导致高能力学生的优势在简单任务中无法体现。更复杂的学术写作(如议论文、文献综述、研究报告、批判性分析等)则需要更高的认知能力。一个基本的局限性是缺乏对照组。由于没有对比ChatGPT辅助写作和未辅助写作,我们无法知道:(a)ChatGPT在多大程度上改变了能力-参与度-表现的关系;(b)它是否提高了整体表现,还是仅仅改变了学生成功的预测特征;(c)或者AI是否特别有利于低能力但高参与度的学生。当前的设计仅描述了ChatGPT辅助环境中的关联,而非因果关系。诸如“ChatGPT将认知功能外化”这样的说法并非基于实证,而是理论性的。未来的研究应包括将学生随机分配在有无ChatGPT支持下完成任务,并比较不同条件下的关系是否显著不同。未来的研究应更加强调使用对照组的实验或准实验设计,以增强因果推断。定性证据表明,积极参与的学生对比了原始文本和修正后的文本,用他们自己的话重新写作,并对建议进行了批判性评估。然而,有几个重要的限制因素显著限制了我们可以得出的推论:样本量小且仅来自一个地点,所使用的能力测量工具较为简化且范围有限,依赖自我报告的参与度,缺乏对照组,数据收集时间较短,以及使用了简单的个人叙事写作任务。对于在资源有限环境中工作的教育工作者来说,初步观察到的结果表明,参与度可能比这种在人工智能辅助下的能力量化更为重要。这提出了一个尚未得到证实的可能性,即明确培养学生对人工智能反馈的主动、批判性和策略性参与的教育方法可能特别值得研究。无论如何,实现这种潜力需要精心整合的教学法,引导学生能够有效地、批判性地、道德地使用人工智能工具。本研究通过提供来自一个代表性不足的地区(孟加拉国)的探索性且具体情境的证据,使用了一个快速发展的工具(ChatGPT),为知识界做出了贡献。鉴于解释后的方差很小(R2 = .102)以及文中提到的众多方法学限制,这些发现应被视为初步的调查步骤,而不是广泛结论的基础。或许最坦诚的结论是认识到仍有许多未解释的部分:在这个由ChatGPT辅助的写作环境中,大约90%的写作表现差异无法通过能力和参与度的结合来解释。要全面理解影响人工智能中介语言学习的各种因素,需要在不同样本、任务和测量方法上进行系统性的多方法研究。

根据研究结果,向主要利益相关者提出了一些建议。作为教师,首要任务应该是发展学生的批判性参与度,这可以通过设计超出简单错误纠正范围的任务来实现。例如,教师可以要求学生提供关于他们如何以及为何接受或拒绝人工智能建议的修改日志,或者写下他们的修改过程。另一个建议是采用混合反馈模式,即利用人工智能生成初稿,从而将宝贵的课堂时间用于培养学生的更高层次技能,如论证和批判性思维。此外,还应该直接教授教师人工智能素养,例如如何编写有效的提示,如何批判性地评估人工智能生成的内容的准确性和偏见,以及了解学术诚信的伦理标准。

对于学术机构而言,制定一套关于在学术工作中负责任和道德使用人工智能的指导方针非常重要。这些政策有望促进批判性互动,并划定学术不当行为的界限。其中一个主要建议是投资教师培训,通过专业发展研讨会来解决如何成功将人工智能融入教学法的问题。这种培训必须侧重于设计有趣的人工智能辅助活动,并利用技术来补充而非替代传统的教学方法。在资源有限的环境中,如孟加拉国,机构在解决数字鸿沟问题上也起着关键作用,包括提供可用的校园无线网络、计算机实验室,并帮助那些没有个人设备或互联网连接不稳定的学生。最后,这项工作为未来的研究指明了几个方向。应进行纵向和比较研究,以超越短期、单一机构的研究,探讨人工智能在各种文化和ocio-economic环境中对写作发展的长期影响。研究还应包括口语和听力等领域,以及更复杂的学术活动,如研究报告。为了更客观、深入地了解学习者与人工智能互动期间发生的心理活动,未来的研究应采用过程相关的方法,如屏幕录制、按键日志和出声思考程序。

本文表明,ChatGPT为英语作为外语的学生提供了强有力的支持,尽管其教育效果更多地与学习者与技术的互动方式相关,而不是技术与本身的复杂性。ChatGPT有可能对孟加拉国(以及其他地区)的本科生产生变革性的影响,因为在这些地方,由于资源匮乏,个性化反馈往往受到限制。然而,这种潜力需要通过有目的的教学变革来实现。我们可以将讨论转向一个假设学生主动性、动机和积极参与学习过程的模型,重点放在主动互动、批判性反思和负责任的整合上。人工智能不会带来教育的未来,但它可能帮助学生提出更好的问题,成为更加积极主动和批判性的思考者。

**作者贡献声明:**
- Rabeya Binte Habib:写作 - 审稿与编辑、验证、监督、资源管理、项目管理、方法论、概念化
- Md. Sifat Khan:写作 - 原稿撰写、可视化、软件使用、方法论设计、调查研究、数据分析、概念化

**未引用的参考文献:**
- 孟加拉国教育信息与统计局,2023年;Cotton等人,2023年;Wang等人,2024年

**数据可用性:**
由于隐私和保密方面的伦理限制,本研究生成和使用的数据集没有公开,但经相关作者请求并提供适当的伦理同意后,可以访问这些数据。

**利益冲突声明:**
作者声明他们没有已知的财务利益或个人关系可能影响本文的研究工作。

**关于稿件准备过程中生成式人工智能和人工智能辅助技术的声明:**
在撰写过程中,作者依靠ChatGPT来提高语言的清晰度、激发创意、增强可读性和结构。利用该工具/服务后,作者对内容进行了必要的检查和修改,并对发表文章的内容负全部责任。

**资金来源:**
本研究未获得任何公共部门、商业部门或非营利组织的特定资助。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号