生成式AI重塑工程教育反馈：基于UML建模任务的实证研究

《Computers and Education: Artificial Intelligence》：Reimagining feedback through generative AI in engineering education

【字体：大中小】 时间：2026年03月21日 来源：Computers and Education: Artificial Intelligence CS28.7

编辑推荐：

　　为应对工程教育中复杂图示建模任务（如UML）反馈难以规模化、个性化的难题，本文研究了生成式AI（GenAI）在提供形成性反馈方面的能力。研究通过对比AI生成、教师提供和无反馈三种条件，发现GenAI反馈虽被学生认为有益且常与人类反馈相当，但教师反馈在支持复杂建模任务的绩效提升上更为有效。该研究揭示了GenAI作为可扩展的认知伙伴，在重塑高等教育评估模型和反馈体系方面的潜力与局限。

在当今的高等教育，尤其是软件工程这样的学科领域，给学生设计复杂、开放性的作业并提供及时、深入、个性化的反馈，一直是困扰教师的难题。以统一建模语言（Unified Modeling Language, UML）为例，它是软件工程中用于描述系统结构和行为的可视化标准，其图表设计要求学生将抽象的系统需求转化为结构化的视觉表达，这本身就具有很高的认知负荷。更棘手的是，这类任务没有唯一正确答案，评估其正确性、结构一致性和设计逻辑通常需要专家的判断。在大班授课或在线课程中，教师很难为每个学生提供高质量的个性化形成性反馈（formative feedback），这限制了学生的学习改进机会。尽管此前已有自动化评估工具尝试解决这一问题，但它们大多基于预设规则，侧重于评分而非支持学习，难以提供解释性、面向设计或促进反思的反馈。那么，随着以ChatGPT为代表的大规模语言模型（Large Language Models, LLMs）和生成式AI（Generative AI, GenAI）的崛起，能否为这一困境带来转机？它们能否成为教师的“认知伙伴”，提供可扩展、高质量的形成性反馈，甚至重塑高等教育的反馈体系？Janka Pecuchova等人发表在《Computers and Education: Artificial Intelligence》上的研究，正是对这一前沿问题的深入探索。

为了系统回答上述问题，研究者采用了一套混合方法的研究方案。首先，在数据获取层面，研究在连续两个学年（2023/2024和2024/2025）的“软件工程导论”课程中进行，共招募262名本科生参与。学生们完成了四项逐步复杂的UML建模任务（需求规格、用例图、类图、活动图），并将其以XMI/XML格式提交。其次，在核心实验设计上，学生们被分为三组：一组接收由GenAI模型（GPT_o1）生成的反馈，一组接收由教师提供的反馈，还有一组作为对照，不接收任何反馈。再次，在技术方法实现上，研究构建了一个自动化反馈生成管线：学生的UML图（XML格式）与作业描述被动态组合成提示词，通过API调用GPT_o1模型，以生成斯洛伐克语的自然语言反馈。最后，在数据分析层面，研究采用了多种定量和定性分析方法，包括非参数统计检验（如Mann-Whitney U检验）、反馈内容分类（分为诊断性、设计导向、元认知、激励性四类）、语言分析、情感分析，以及通过Cohen's Kappa、Fleiss' Kappa和Krippendorff's Alpha等指标评估GPT_o1在期末UML图评分任务中与人类评分者的一致性。此外，还通过回归模型分析了不同反馈来源对学生学习成果（如作业成绩、理论测验、期末考试成绩）的影响。值得注意的是，在期末考评环节，研究者还设计了三种不同的提示策略，以测试GPT_o1对三类UML图（用例图、类图、活动图）的自动评分能力，并与两位独立教师评分者的结果进行比较。

4.1. 学生感知的反馈有用性与教学价值（RQ1）

学生对反馈的匿名评价（五分制李克特量表）显示，在四项作业中，学生总体上认为AI生成和教师提供的反馈都有益。但在更具语义和结构复杂性的任务（S0U2 用例图和 S0U3 类图）中，学生认为教师反馈的质量显著高于AI反馈。而在相对简单的S0U1（需求规格）和最复杂的S0U4（活动图）任务中，两者的评分无显著差异。有趣的是，情感分析表明，AI反馈的情感基调在不同任务间波动较大，时而过于乐观，时而过于苛刻；而教师反馈则表现出更稳定、平衡的情感范围，能根据任务和学生作品质量灵活调整语气。

4.2. 自发性反馈特征与类型分布（RQ2）

尽管没有在提示词中指定反馈类型，但GPT_o1生成的反馈主要集中在“诊断性”（指出错误，占66%）和“设计导向”（评论设计策略，占20%）两类。相比之下，教师反馈的类型分布更均衡，除了诊断性（48%）和设计导向（19%）外，还包含相当比例的“元认知”（18%，促进学生反思）和“激励性”（15%，给予鼓励）反馈。语言分析进一步揭示，AI生成的反馈在词汇多样性、信息熵等指标上均低于教师反馈，内容更重复，教学丰富性较低。

4.3. AI反馈对建模技能与表现的影响（RQ3）

在支持学生学习成果方面，教师反馈展现出明显优势。 接收教师反馈的学生，在学期内六次理论测验中的平均得分显著高于接收AI反馈的学生。更重要的是，在衡量技能提升的“分数增益”（从平时作业到期末实践的进步）上，接收教师反馈的学生平均比接收AI反馈的学生多获得0.87分。回归分析也证实，教师反馈能更有效地支持学生在期末复杂的可视化建模任务中取得更好成绩。混合线性模型分析表明，虽然任何形式的反馈（教师或AI）都比无反馈更能支持学习进步，但教师反馈带来的提升效果始终强于AI反馈。

4.4. 基于XML和提示策略的UML图自动评分（RQ4）

在评估（评分）能力上，GPT_o1表现出了与人类评分者相当高的一致性。 通过优化提示策略（如使用结构化XML输入、明确评分细则），GPT_o1对UML图的评分与两位人类教师评分达到了“基本完美”到“高度一致”的水平（Krippendorff's Alpha最高达0.901）。其中，对用例图的评估一致性最高，对活动图的评估一致性相对较低，但仍在“高度一致”范围。这表明，AI在遵循明确标准进行评分方面，可以成为可靠的工具。

综上所述，这项研究清晰地描绘了当前生成式AI在教育反馈应用中的“能力版图”。一方面，AI在可扩展的、基于规则的评估任务上表现出色，能够以高一致性自动评分UML图，并生成被学生认为有用的基础性诊断和设计反馈。这为解决工程教育中长期存在的反馈规模化瓶颈提供了切实可行的技术方案。另一方面，研究也揭示了AI反馈的局限性：与人类教师相比，其反馈在语言丰富性、情感稳定性、特别是支持高层次学习的元认知和激励性维度上存在不足。这直接导致了AI反馈在促进复杂技能学习和知识迁移方面的效果弱于教师反馈。

因此，该研究的核心结论并非“AI可以或应该替代教师”，而是指向一种“人机协同”的混合反馈模型。在这种模型中，AI承担起高频、重复的诊断性评估和初步设计反馈生成工作，极大地解放教师的生产力。而教师则可以将精力聚焦于AI不擅长的领域：提供情境化的、鼓励性的、能激发深度反思和批判性思维的指导，并对AI的反馈进行监督和润色。这种分工协作，有望将反馈从依赖教师个体时间的稀缺资源，转变为一种嵌入教育系统的、可扩展的基础设施能力。

这项研究的意义超越了软件工程教育的范畴。它通过一个具体的、复杂的图示建模任务案例，实证了生成式AI作为“认知伙伴”融入高等教育的可能路径与边界。它提示教育者、课程设计者和教育政策制定者，在拥抱AI赋能教育的同时，必须精心设计人机协作的界面（如提示词工程），培养学生的AI反馈批判素养，并重新思考教师在未来教育系统中的核心角色与专业发展路径。最终，这项研究为推动高等教育向更加个性化、反馈密集且可持续的新范式转变，提供了宝贵的经验证据和前瞻性思考。

热点排行