综述：预测学生表现：机器学习、深度学习和可解释人工智能方法的全面回顾

《Computers and Education: Artificial Intelligence》：Predicting student performance: A comprehensive review of machine learning, deep learning, and explainable AI approaches

【字体：大中小】 时间：2026年02月23日 来源：Computers and Education: Artificial Intelligence CS28.7

编辑推荐：

　　这篇系统综述（遵循PRISMA指南）聚焦于应用机器学习(ML)、深度学习(DL)和可解释人工智能(XAI)于教育数据挖掘(EDM)领域，旨在实现学生表现的早期预测。它系统分析了72项研究，探讨了常用数据集与特征、主流ML/DL算法及其评估指标，并特别强调了模型可解释性(XAI)对于连接复杂算法与教学实践、支持循证教学与自适应学习、促进教育公平决策的关键作用。

预测学生表现：技术融合下的教育洞察与变革

在信息技术飞速发展的今天，教育领域正经历着深刻的变革。教育机构积累了海量的学生数据，如何利用这些数据洞察学习规律、预测学术表现，从而实施精准干预、提升教育成果，已成为一个极具前景的研究方向。本文综述系统回顾了机器学习(ML)、深度学习(DL)和可解释人工智能(XAI)在学生表现预测领域的应用现状与发展趋势。

引言

近年来，机器学习与深度学习在教育数据挖掘中的应用正在革新教育领域。研究者们尤其关注于早期预测学生表现，这些早期预测能显著改善学生的学习体验，并允许教育者及利益相关方规划及时的干预措施。准确的预测有助于教育者定制干预方案，提供针对性支持，从而提升教育成果。预测学生表现涉及分析人口统计学、个人、学术、行为、心理和社会经济等多维度因素。尽管已有一些综述分别探讨了ML技术、DL方法、可解释模型及跨领域可解释性方法，但本综述系统地审视了ML、DL和XAI如何共同作用，以增强预测的准确性、可解释性及其教育价值。

方法论

本综述严格遵循系统综述和荟萃分析首选报告项目指南(PRISMA)。研究过程分为四个阶段：规划、检索、筛选以及信息提取与综合。研究明确了四个核心问题：

1.
预测学生表现常用的数据集类型及其特征是什么？
2.
预测学生表现使用了哪些特征和标签？
3.
教育研究中最常使用哪些机器学习和深度学习方法来预测学生表现？选择它们的原因是什么？
4.
在所研究的文献中，如何运用可解释性与可解释性方法？

文献检索在ScienceDirect、IEEE Xplore和Scopus数据库中进行，时间跨度为2017年至2024年，使用了结合关键词与布尔逻辑的检索策略。经过严格的筛选流程，最终有72篇研究被纳入本系统综述。

监督机器学习

学生表现预测中最常用的是监督机器学习模型。根据学习机制，这些模型可分为以下几类：

线性模型

线性模型在因变量与一个或多个自变量之间建立线性关系，因其简单性、可解释性和计算效率而被广泛使用。

•
多元线性回归：用于预测连续结果，如学生的最终成绩。
•
逻辑回归：用于二元分类任务，例如预测学生通过或失败。

基于树的模型

这类算法使用一系列决策规则进行预测或分类，以树结构表示。

•
决策树：是最基本的树模型，使用分层决策过程，但若未经适当修剪容易过拟合。
•
随机森林：一种集成方法，通过构建多棵决策树并结合其预测结果（如多数投票或平均）来降低过拟合风险。
•
梯度提升机：另一种集成技术，通过顺序构建决策树，每棵新树纠正前序树的残差错误，从而逐步提升模型精度。

支持向量机

支持向量机适用于分类、回归和异常值检测。其核心思想是找到一个能将不同类别数据点最大间隔分开的超平面。支持向量回归是其变体，用于预测连续数值，如学生成绩。

贝叶斯模型

朴素贝叶斯分类器是最常用的贝叶斯模型，基于贝叶斯定理进行概率分类，并假设特征之间相互独立。

基于实例的模型

k-最近邻算法是典型的基于实例的模型，通过比较新实例与训练集中k个最相似实例的距离来进行分类或回归预测。

神经网络

神经网络能够处理大量结构化和非结构化数据，其结构受到人脑启发。

•
前馈神经网络：信息单向传播，无循环连接。
- •
  多层感知机：最传统的前馈神经网络形式，层间全连接。
- •
  径向基函数网络：隐藏层使用径向基函数作为激活函数。
•
卷积神经网络：专门用于处理网格状拓扑数据（如图像），通过卷积层、池化层和全连接层提取特征。
•
循环神经网络：专为序列数据设计，具有循环连接，可以记忆先前输入的信息。
- •
  长短期记忆网络：一种RNN变体，旨在解决长期依赖问题，能够记忆更长时间跨度的信息。
•
混合与专用网络：如图神经网络，用于处理具有复杂关联关系的图结构数据。

模型评估指标

为了评估模型有效性，研究采用了多种指标。分类任务最常用的指标源于混淆矩阵，包括准确率、精确率、召回率和F₁-分数。回归任务则常用确定系数(R²)、平均绝对误差和均方根误差等指标。

结果与讨论

检索结果与文章筛选

初始检索获得281条记录，经过去重、标题摘要筛选和全文评估后，最终72篇文章被纳入分析。从年度发表数量来看，该领域是一个相对新兴且快速发展的研究方向。在明确教育阶段的研究中，关注大学生的研究占比显著高于关注大学前教育（中小学）的研究，这很可能与大学数据库更易于作为开源数据获取有关。

分析显示，传统ML模型的使用频率大约是DL模型的3倍，这反映了ML在教育数据挖掘中更早、更广泛的采用，而DL方法则是近年才日益突出。

数据集来源与特征

数据集的质里对于构建准确可靠的模型至关重要。

•
公开数据集：开放大学学习分析数据集(OULAD)和加州大学欧文分校机器学习库(UCIMLR)数据集是使用最广泛的公开数据源。OULAD包含学生注册、评估、虚拟学习环境互动和人口统计信息；UCIMLR数据集则包含学生成绩、人口统计和社会学校相关属性。
•
专有数据集：许多研究也使用教育机构、政府机构内部收集的专有数据集，这些数据通常更详细，但可及性和可重复性较低。

数据集的规模和结构差异很大。大部分数据集的实例数少于4000条。数据规模对模型性能有显著影响：小数据集易于处理但可能导致过拟合和洞察有限；大数据集能提供更全面的模式，但需要更多的计算资源。数据集内容特征可大致分为时态特征（如随时间变化的成绩、学习平台使用日志）和非时态特征（如人口统计学、学术背景、社会经济指标等）。时态学术和行为属性是目前最主流的特征类型，反映了对动态学习行为模式的日益重视。

数据预处理

数据预处理是准备原始数据用于模型训练的关键步骤，包括数据清洗、缺失值处理、训练集/测试集划分、特征缩放等。在处理分类任务中常见的类别不平衡问题时，研究采用了从数据层面的重采样到算法层面的损失调整等多种策略，以确保模型能有效识别处于风险中的少数类学生。特征选择和特征工程对于提升模型性能至关重要。在ML中，常用信息增益、SHAP值、遗传算法等方法进行特征筛选和构造；在DL中，虽然模型能自动学习特征，但通过主成分分析、二元粒子群优化等方法进行显式特征选择仍能带来性能提升。

模型性能分析

预测任务（分类或回归）从根本上决定了模型的选择、评估和可解释性。

•
分类任务：主要预测类别型结果。从纳入研究的高性能模型来看，不同模型在各项指标上均有优异表现。例如，逻辑回归的F₁-分数可达88%；决策树的准确率可达99.9%；随机森林的精确率可达98.9%；梯度提升机的准确率可达96.7%；支持向量机的准确率可达95.8%；多层感知机的准确率可达93.75%；而结合了特征选择的混合模型（如BPSO-CNN）准确率可达95.6%。这些结果说明，没有一种模型在所有场景下均最优，模型选择需考虑具体任务和数据特性。
•
回归任务：预测连续型结果。由于预测尺度与目标变量不同，各研究间的回归结果无法直接比较。但研究普遍使用R²、MAE、RMSE等指标进行评估。例如，有研究使用k-NN进行成绩预测，其R²可达0.936；使用随机森林预测GPA，R²可达0.78。

可解释人工智能的作用

许多高性能的预测模型（尤其是复杂的DL模型和集成模型）如同“黑箱”，难以理解其内部决策逻辑。XAI的目标就是打开这些黑箱，使模型的预测过程对人类而言透明、可理解。在教育领域，这至关重要，因为教育者需要知道模型是基于哪些因素判断学生可能失败，才能据此制定有效的、个性化的干预措施，而不仅仅是得到一个“高风险”的标签。可解释性有助于建立对模型的信任，确保预测是公平且无偏见的，并能提供具有教学意义的洞见，从而真正将预测能力转化为教育行动力。

综述强调了如何将预测性AI与XAI结合，以弥合复杂算法与教育实践之间的鸿沟，支持循证教学、自适应学习和更公平的教育决策。尽管应用先进预测技术的研究日益增多，但明确将这些预测方法与教育创新联系起来的研究仍然有限。未来研究需要更多地关注如何将预测模型的输出有效整合到实际教学干预和制度决策中，最大化其教育价值。

热点排行

新闻专题