通过Mamba上下文编码和动态稀疏注意力机制实现的高效知识追踪模型

《Engineering Applications of Artificial Intelligence》:An efficient knowledge tracing model via Mamba Contextual Encoding and Dynamic Sparse Attention mechanism

【字体: 时间:2026年02月27日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  知识追踪模型MCSKT通过Mamba架构的双编码器和动态稀疏注意力机制,提升长序列处理效率与预测性能,实验显示AUC提高3.7%、ACC提高2.9%,训练和推理速度分别快10.1倍和3.5倍。

  
张瑞娟|张峰|刘聪
山东科技大学计算机科学与工程学院,中国山东省青岛市,266590

摘要

知识追踪(KT)通过分析学习者的历史学习记录来预测他们未来的表现。虽然基于深度学习的知识追踪模型在预测性能上有了显著提升,但在处理长交互序列时存在较大的计算开销和效率低下问题。为了解决这个问题,我们提出了一种高效的知识追踪模型,名为Mamba上下文编码与动态稀疏注意力机制驱动的知识追踪(MCSKT)。首先,利用Mamba的选择性状态空间结构和线性时间复杂度,我们设计了一个由问题编码器和知识编码器组成的双编码器,该编码器在问题层和概念层结构上解耦了上下文依赖关系。这种设计在保持计算效率的同时增强了语义建模能力。其次,我们提出了一种动态的稀疏注意力机制,以克服传统稀疏注意力方法依赖手动配置的静态阈值的适应性限制。这种新机制动态调整历史交互的过滤范围,适应性平衡了噪声抑制和关键信息保留,同时显著降低了计算复杂度。实验结果表明,MCSKT在四个公开数据集上的曲线下面积(AUC)平均提高了3.7%,准确率(ACC)提高了2.9%。此外,与最先进的模型相比,MCSKT在训练期间运行速度大约快10.1倍,在推理期间快3.5倍。另外,随着序列长度的增加,MCSKT的时间消耗增长率明显低于竞争模型,突显了其在处理长序列数据方面的优势。

引言

知识追踪(KT)最初由Corbett和Anderson在1994年提出(Corbett和Anderson,1994a),其目的是通过分析学习者的历史学习记录来建模他们对知识概念的掌握情况,并进而预测未来的表现(Wang等人,2023b;Sun等人,2022)。随着人工智能和智能教育的快速发展,学习活动越来越多地从传统教室转移到在线教育平台,如MOOC和智能辅导系统(ITS)(Sun等人,2024)。这些平台积累了大量的学习行为数据,包括问题、知识概念和响应(Qiu等人,2023;Cui等人,2023a),为KT研究提供了丰富的基础。如图1所示,近年来与KT相关的数据集规模呈指数级增长。例如,2017年发布的EdNet数据集的学习者数量大约是2005年代数数据集的100倍,交互次数约为2011年静态数据集的400倍(Cui等人,2023b;Cao和Zhang,2024)。虽然这种大规模数据促进了基于深度学习的知识追踪(DLKT)的发展,使模型能够更好地捕捉复杂的学习行为模式,但也大幅增加了训练和推理的计算成本。因此,在大规模在线学习环境中实现高效的知识追踪已成为DLKT的关键挑战。
现有的DLKT模型可以根据其核心序列建模机制分为两类:基于循环神经网络(RNN)的模型和基于注意力的模型,其中大多数模型的主要目标是提高预测准确性(Cao和Zhang,2024)。然而,随着数据量的持续增长,DLKT模型面临着效率和预测性能之间的困境:准确性的提高通常伴随着结构复杂性的增加,这又加剧了计算资源的消耗。基于RNN的DLKT模型能够有效捕捉时间依赖性,但由于其本质上的顺序结构,训练并行性受到限制(Cao和Zhang,2024)。相比之下,基于注意力的DLKT模型实现了更高的预测性能并支持并行计算,但由于其对全局注意力的依赖,导致了较高的计算复杂性和资源消耗(O(N^2))。因此,在当前DLKT研究中,如何在提高预测性能和降低计算开销之间找到平衡是一个关键挑战。Cao等人首次将Mamba引入KT领域,并提出了Mamba4KT模型(Cao和Zhang,2024),该模型优先考虑模型效率和资源利用。该模型不仅确保了预测准确性,还在时间和空间消耗之间取得了平衡,为解决这些问题提供了重要方法。尽管Mamba本身具有线性时间复杂度的优势,但其原始架构是为通用序列建模设计的,未经结构调整不能直接应用于KT任务。
为此,我们基于Mamba框架重构了任务级架构,并提出了一种名为MCSKT的高效KT模型。MCSKT由两个核心模块组成:一个上下文感知表示模块和一个知识状态提取模块。首先,为了解决传统模型在联合建模问题层语义和概念层依赖关系方面的局限性,我们开发了一个基于Mamba的上下文感知表示模块。该模块包括一个问题编码器(Q-encoder)和一个知识编码器(K-encoder)。Q-encoder捕捉问题之间的语义关系,而K-encoder从响应序列中提取概念认知依赖关系。通过结构上解耦问题层和概念层的上下文信息,该模块显著增强了模型理解学习行为的能力。其次,我们设计了一个知识状态提取模块,以更准确地推断学习者的知识状态。该模块引入了稀疏注意力机制,专注于关键的历史交互,并进一步结合了动态稀疏注意力机制,以克服在不同学习者交互模式下的固定稀疏度限制。通过根据当前交互特征动态调整稀疏度,该机制在保持计算线性的同时更有效地选择关键历史信息并抑制噪声,从而提高了知识状态估计的稳定性和鲁棒性。本文的主要贡献如下:
  • 我们提出了一种名为MCSKT的高效KT模型,它在保持强预测性能的同时显著提高了训练和推理效率,为大规模在线学习环境中的知识建模提供了新的视角。
  • 我们基于Mamba设计了双编码器架构,用于建模序列中的丰富上下文信息。与基于注意力的上下文建模方法相比,我们的方法将计算复杂度降低到线性水平,显著提高了模型处理长序列数据的能力。
  • 我们设计了一种动态稀疏注意力机制,该机制能够动态过滤关键的历史交互,使模型专注于与当前问题最相关的信息。通过减少无关问题的计算,该机制提高了模型效率和预测准确性。
  • 实验结果表明,MCSKT在预测准确性方面优于对比基线,同时显著降低了时间需求,从而在预测性能和效率方面实现了双重提升。此外,随着序列长度的增加,MCSKT的计算效率也优于其他方法,显示出其在处理长序列数据方面的优势。
本文的其余部分组织如下:第2节提供了与研究问题相关的文献综述。第3节介绍了MCSKT的整体框架及其关键组成部分。第4节展示了实验结果并进行了分析。第5节讨论了所提模型的局限性。第6节总结了本文并提出了未来研究的方向。

部分摘录

基于深度学习的知识追踪

由于其强大的特征提取能力,深度学习受到了研究人员的广泛关注,为KT领域带来了新的机遇和挑战(Sun等人,2024)。越来越多的研究将深度学习技术应用于KT任务,使得DLKT方法逐渐成为研究热点(Huang等人,2024b;Gong等人,2020)。2015年,Piech等人首次将深度学习技术应用于知识追踪,并提出了DKT方法

方法

在本节中,我们将详细描述所提出的MCSKT方法。表1列出了本文中使用的符号。

实验

为了全面评估所提出的MCSKT模型的性能和有效性,我们在四个真实世界数据集上进行了广泛的实验。我们的实验研究的主要目标包括以下四个方面:
(1) 性能和效率评估:将MCSKT与现有KT模型在预测准确性和计算效率方面进行比较,以验证其整体优势;
(2) 模块有效性分析:评估关键组件的贡献

局限性与讨论

为了解决当前KT研究中平衡预测准确性和计算效率的挑战,我们提出了一种名为MCSKT的高效KT模型,旨在同时提高预测性能和效率。通过利用Mamba架构的线性计算复杂性和动态稀疏注意力机制的自适应过滤能力,MCSKT显著降低了计算成本,同时有效提高了预测性能

结论

在本文中,我们通过提出一种名为MCSKT的高效模型,解决了KT中平衡预测准确性和计算效率的基本挑战。该模型结合了基于Mamba的上下文编码和动态稀疏注意力机制。利用选择性状态空间模型的线性计算复杂性,MCSKT实现了对长序列学习者行为的有效上下文建模。此外,所设计的动态k-稀疏注意力机制

CRediT作者贡献声明

张瑞娟:撰写——审阅与编辑、撰写——初稿、可视化、验证、软件、方法论、调查、形式分析、数据整理。张峰:撰写——审阅与编辑、监督、资源管理、项目管理、方法论、资金获取、概念化。刘聪:撰写——审阅与编辑、调查、数据整理。

利益冲突声明

作者声明他们没有已知的可能会影响本文工作的竞争性财务利益或个人关系。

致谢

本工作得到了中国教育部人文社会科学科研规划基金项目(23YJAZH192)、国家重点研发计划(2022ZD0119501)、国家自然科学基金(52374221)以及FCT(Funda??o para a Ciência e a Tecnologia)的支持,项目编号为UID/04152/2025——Centro de Investiga??o em Gest?o de Informa??o (MagIC)/NOVA IMS(https://doi.org/10.54499/UID/04152/2025(2025-01-01/2028-12-31)
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号