《International Journal of Educational Technology in Higher Education》:LLM-CR: LLM-enhanced course recommendation
推荐系统在在线学习平台中变得日益重要,因为学习者面临着不断增长的可选课程数量,以及课程质量与相关性方面的显著差异。然而,许多现有课程推荐方法主要依赖用户—课程交互序列,因此往往未能充分利用丰富的课程语义信息,例如学习目标描述、涵盖概念以及与先修要求相关的内容。这一局限在教育场景中尤为突出,因为学习者的下一门课程选择不仅受到历史行为影响,还受到课程之间语义关系的影响。为解决这一问题,研究人员提出了LLM-CR,一种利用大语言模型(LLMs)以结构化语义信息丰富课程表示的推荐框架。具体而言,课程元数据和文本描述首先由大语言模型(LLM)离线处理,生成具有语义信息的课程摘要,随后将其编码为稠密表示,并通过轻量级融合模块纳入推荐流程。借助这一方式,LLM-CR在传统行为表征基础上,引入了与主题、知识进阶以及先修相关信息有关的课程语义。所得模型在标准下一课程推荐设定下,采用基于排序的评价指标进行评估。基于学堂在线(XuetangX)平台构建的6个学科特定子集实验表明,LLM-CR相较于强基线方法能够稳定提升推荐性能,且在相对稀疏的数据集上增益尤为显著。进一步分析表明,由于计算代价最高的LLM处理在离线阶段完成,并可在训练和推理过程中重复复用,因此所提出的语义增强仅引入了适度的额外复杂度。这些结果表明,纳入源自LLM的语义特征,是提升课程推荐质量的一种有效且实用的方法。
本文发表于《International Journal of Educational Technology in Higher Education》,围绕在线学习平台中的下一课程推荐问题展开,核心目标是在保持推荐系统部署效率的前提下,将课程文本中蕴含的教育语义信息有效引入序列推荐过程。研究背景在于,随着Coursera、edX、Udemy以及学堂在线等平台积累了大量课程资源,学习者虽然拥有更广泛的教育机会,但也更难从庞大课程目录中识别最适合当前学习阶段的下一门课程。与一般电商或媒体推荐不同,课程推荐天然具有更强的知识结构属性:课程不仅是被交互的项目,还往往包含主题、学习目标、背景要求、先修关系与后续学习路径等信息。因此,单纯依赖用户—课程历史交互序列,容易忽略课程间的知识依赖与能力进阶关系,进而导致推荐结果在学习阶段适配性上不足。
现有研究虽然已从协同过滤(Collaborative Filtering, CF)发展到矩阵分解、循环神经网络、长短期记忆网络(Long Short-Term Memory, LSTM)、自注意力序列模型以及结合对比学习与扩散建模的先进序列推荐框架,但多数方法仍将课程视为仅由课程标识符(ID)表示的原子项目。这种表示方式能够学习协同行为模式,却难以理解课程内容及其教育语义。例如,同样修读过Python导论的不同学习者,若知识基础不同,其适宜的后续课程也应不同:数学基础较强者更适合具备理论铺垫作用的课程,而编程实践基础不足者则应优先补充技能型课程。由此可见,教育推荐不仅要捕捉行为时序,还应理解课程内容、知识关联及先修结构。
在这一背景下,研究人员提出LLM-CR(LLM-enhanced Course Recommendation)框架。该框架并不将大语言模型(Large Language Models, LLMs)直接作为端到端推荐器,而是将其作为离线语义知识抽取工具,以兼顾语义理解能力与系统可部署性。研究的基本思想是:先由LLM对课程元数据与文本描述进行结构化总结,生成覆盖课程概述、目标学习者、学习结果、先修课程和后续课程五个维度的语义描述;随后使用预训练语言模型RoBERTa将这些结构化文本编码为768维稠密语义向量;最后通过一个轻量级多层感知机(Multi-Layer Perceptron, MLP)将语义表示与序列推荐模型中的行为表示进行融合,用于下一课程预测。该设计避免了在线调用LLM带来的高延迟和高成本问题,同时又能为推荐器补充课程主题、知识进阶和先修依赖等关键教育信息。
方法概括:研究以学堂在线(XuetangX)数据集为基础,构建6个学科子数据集,采用序列推荐任务中的下一项预测设定进行实验。方法流程主要包括3个关键技术步骤:其一,利用GPT-3.5-turbo离线生成结构化课程语义摘要;其二,使用预训练RoBERTa-base将课程摘要编码为768维语义向量并缓存复用;其三,将64维行为/项目表示与768维语义表示拼接后,经轻量级MLP映射为统一维度,并输入CaDiRec等序列推荐骨干模型。训练目标由主推荐损失、对比学习损失和扩散损失共同组成,以兼顾排序性能与表示鲁棒性。
以下结合论文主体内容,对研究结果进行分节解读。
Course recommendation: evolution and approaches
论文首先系统回顾了课程推荐方法的发展脉络。早期方法以协同过滤和矩阵分解为代表,能够从用户—课程交互中发现潜在偏好,但将课程视为静态项目,忽略学习路径的时序性。之后,基于RNN、LSTM和SASRec的序列建模方法逐步成为主流,因为其更适合捕捉学习行为中的时间依赖与阶段演进。再进一步,强化学习、对比学习、扩散模型等方法开始用于优化完整学习轨迹,其中CaDiRec代表了较强的当前基线。研究人员通过文献综述指出,尽管这些模型在行为模式挖掘方面持续进步,但仍缺乏对课程教育语义的深层利用,这构成了本文工作的直接出发点。
Knowledge-enhanced course recommendation
在知识增强课程推荐相关工作中,论文总结了图结构方法、异构网络方法、多视图融合方法以及基于自然语言处理(Natural Language Processing, NLP)的内容增强方法。图神经网络(Graph Neural Network, GNN)可建模课程—概念图或先修关系图,超图神经网络(Hypergraph Neural Network)能够表示更高阶的课程依赖;异构网络方法则引入教师、机构、学科等多类实体;多视图方法通过层次化注意力融合课程内容、行为和社交信息;传统文本增强方法则采用TF-IDF、潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)或词向量。研究人员指出,这些方法通常依赖人工构建知识结构、预定义实体关系或浅层文本特征,在可扩展性和深层语义理解方面仍有限。本文正是在这一缺口上,引入LLM以自动抽取更具结构性和语义深度的课程知识。
LLMs in recommendation systems
论文进一步讨论了LLM在推荐系统中的两类主要应用范式:一类是作为特征提取器,为传统推荐模型提供语义表示;另一类是作为端到端推荐器直接生成推荐结果。前者具有较好的可解释语义建模潜力,后者虽然具备零样本或少样本能力,但在教育场景下面临推理开销大、响应延迟高、效果未必优于专用模型等现实挑战。基于此,研究人员选择“离线提取语义、在线轻量融合”的中间路线,强调LLM-CR是一种可插拔(plug-and-play)的增强框架,而非替代现有推荐架构的重型系统。
Problem formulation
在问题定义部分,研究将课程推荐形式化为标准的下一课程预测任务。学习者集合记为\(\mathcal {U}\),课程集合记为\(\mathcal {C}\),每位学习者的历史由按时间排序的课程序列表示。目标是在给定历史学习序列\(S_u\)的情况下,预测其最可能交互的下一门课程。论文特别强调,传统模型通常仅学习课程ID嵌入,而LLM-CR旨在在不修改骨干推荐器核心结构、不引入在线LLM推理、且尽量不增加计算负担的条件下,将离线获得的语义特征\(\Phi (S_u)\)与原始序列表示融合,从而提升整体推荐性能。
The LLM-CR framework
在框架设计部分,研究人员详细介绍了LLM-CR的双组件架构,即“数据预处理中的语义知识抽取”与“推荐阶段中的语义—行为融合”。在预处理阶段,每门课程先通过提示模板输入LLM,生成含有课程概述、目标人群、学习结果、先修课程和后续课程五大维度的结构化文本。随后,RoBERTa对这些文本进行编码,得到\(\mathbb {R}^{768}\)空间中的语义表示\(\textbf{e}_c^{sem}\)。这些语义向量只需计算一次,并可在训练和推理全程复用。
在推荐阶段,课程的行为表示\(\textbf{r}_t^{beh}\)由课程ID嵌入和位置编码组成,语义表示则从缓存中直接读取。两者拼接后,经MLP融合为统一维度表示\(\textbf{v}_t\),再作为序列编码器输入。对于候选课程,也使用同一融合机制,但不加入位置编码。该设计的关键价值在于,模型可在热门课程上更多依赖行为信号,在长尾课程和交互稀疏场景下更依赖语义信息,从而实现自适应加权。
Training objectives
训练目标部分显示,LLM-CR不仅包含用于下一课程预测的二元交叉熵推荐损失\(\mathcal {L}_{rec}\),还结合了对比学习损失\(\mathcal {L}_{cl}\)与扩散损失\(\mathcal {L}_{diff}\)。其中,对比学习用于增强相似学习轨迹表征的一致性,扩散损失则帮助模型从带噪表示中恢复稳健特征,对稀疏数据尤其有益。最终总损失为\(\mathcal {L}=\mathcal {L}_{rec}+\alpha \mathcal {L}_{cl}+\beta \mathcal {L}_{diff}\)。这说明LLM-CR并非简单附加语义特征,而是与先进序列建模机制协同优化,以提升整体表示质量。
Computational efficiency analysis
在计算效率分析中,论文明确指出,新增开销主要来自离线语义预处理,而这一过程可一次性完成并缓存结果。因此,在线训练与推理阶段的额外成本主要是语义向量读取和一个轻量融合模块,而非重复调用LLM。作者据此将LLM-CR定位为实用型语义增强框架,强调其在工程落地上的优势。
Experimental setup
实验部分使用学堂在线公开数据集,包含82,534名学习者、1,300门课程和458,454次交互,时间跨度为2016年10月至2018年3月。研究人员按学科划分为6个子集:Science & Engineering、Medicine & Health、Humanities & Arts、Social Sciences、Business & Management和Others。每个子集中仅保留交互次数不少于5的用户和课程,并独立划分训练、验证和测试集。评价指标采用HR、Recall、NDCG和MAP等基于排序的度量。基线方法涵盖矩阵分解、LightGCN、SASRec、BiLSTM、DreamRec、MCLRec、CaDiRec,以及将本文融合方法应用于BiLSTM骨干的LLMBiLSTM。最终LLM-CR以CaDiRec为骨干模型进行实现。
Overall performance comparison
总体性能结果表明,LLM-CR在六个学科划分中的18项主要指标里取得了16项最优,建立了新的课程推荐性能水平。与强基线CaDiRec相比,平均提升达到HR@5 +3.7%、HR@10 +2.6%、NDCG@10 +1.9%。尤其在数据更稀疏、内容更异质的场景下提升更明显。例如,在用户仅111人的mooc_6上,HR@5提升9.4%,HR@10提升5.7%;在mooc_5中,HR@5提升达到5.6%。这些结果说明,基于LLM提取的课程语义在协同行为信号不足时具有更高补偿价值。
Effectiveness of semantic fusion
语义融合有效性分析通过比较BiLSTM与LLMBiLSTM,以及CaDiRec与LLM-CR,验证了本文融合策略的通用性。在mooc_1中,BiLSTM引入语义信息后,HR@10由0.228提升到0.247,NDCG@10由0.121提升到0.137;在更稀疏的mooc_6中,HR@10从0.102显著提升到0.157。将同样策略用于更强骨干CaDiRec后,性能进一步上升。这一结果表明,语义增强与先进序列建模并非替代关系,而是互补关系;同时也证明LLM-CR具有较好的模型无关性。
Advantage of sequential models
论文还通过与协同过滤方法对比,说明选择序列推荐模型作为骨干具有充分依据。以mooc_2为例,LightGCN的HR@10为0.381,而SASRec达到0.793,性能超过前者两倍。说明课程推荐中的知识演进路径和时间依赖确实是决定性因素。进一步地,CaDiRec相较基础序列模型又有明显优势,而LLM-CR还能在其基础上继续提升,表明课程语义是独立于纯行为时序之外的重要信息维度。
Impact of list length
在推荐列表长度影响分析中,随着K值增大,HR和NDCG整体上升,但边际收益递减。例如在mooc_1中,LLM-CR的HR从@5的0.212提升到@10的0.308,再到@20的0.427,而NDCG提升幅度相对较小。该结果说明语义增强有助于发现更多相关课程,但要进一步改善高位排序精度,仍可能需要更细粒度的能力建模或实时反馈信号。
Cross-discipline analysis
跨学科分析是本文较有价值的结果之一。研究人员发现,语义增强收益与数据稀疏性、课程目录结构和内容同质性密切相关。其一,极端稀疏会显著放大语义增益,mooc_6的提升接近10%,验证了在缺少共选数据时,语义关系对识别课程关联至关重要。其二,课程数量少且学习路径高度标准化的领域,语义增益有限,mooc_2即为典型代表。其三,提升幅度与数据规模呈现一定U形关系:大型异质数据集受益于语义消歧,小型稀疏数据集受益于语义补偿,而中等规模、路径相对清晰的数据集增益较小。作者据此总结出三类典型场景:高密交互、增益极小;中等规模、增益有限;极端条件下增益最大。
Hyperparameter analysis
超参数分析显示,最优学习率与数据集规模呈负相关:大规模数据适合较小学习率,小规模数据适合较大学习率以加快收敛。dropout的最佳值则反映学科内容异质性,Science & Engineering和Others等内容更复杂的学科需要更强正则化,而Medicine、Humanities、Social Sciences、Business等结构较稳定学科更适合较低dropout。weight decay通常保持在较低水平,但在跨学科特征更明显的情形下可适当增大。整体上,LLM-CR对超参数变化表现出较好的鲁棒性,在合理配置范围内性能下降通常不超过5%,说明其具备一定部署稳定性。
Discussion
讨论部分总结了研究局限。首先,语义增强效果依赖于LLM生成课程摘要的质量,若生成内容不完整或存在噪声,则语义向量信息性会下降。其次,由于语义特征为离线预计算,当课程描述显著更新时,需要重新生成。第三,实验评价仅基于离线下一项推荐指标,尚不能直接衡量学习增益、能力发展或长期学习路径质量等教育结果。实践与伦理方面,本文方法仅需课程侧文本元数据进行语义预处理,无需向LLM发送学生个人数据,但LLM生成内容仍可能存在偏差、遗漏或事实不一致,需要借助提示约束、缓存审查和定期质量检查加以控制。
研究结论部分可译为:本文提出了LLM-CR,一种通过引入大语言模型语义知识来增强课程推荐的新框架。该框架从由LLM自动生成的结构化课程描述中提取丰富语义特征,并将其与序列推荐模型学习到的行为表示进行融合,从而实现与学习者知识基础和学习轨迹更一致的个性化推荐。研究采用序列推荐模型作为骨干,是因为其已被证明能够有效捕捉学习进程;实验结果表明,LLM-CR无需修改现有高性能模型的核心结构,即可进一步提升课程推荐效果。得益于模块化设计,LLM-CR能够方便地接入更强的预训练LLM和更先进的序列架构,从而持续增强整体性能与适应性,具有较强的真实部署潜力。在公共MOOC数据集的6个学科划分上,LLM-CR在绝大多数设定中相较强基线取得或刷新了最优结果,且在稀疏和异质教育领域中的提升尤为显著。当前,LLM-CR仍依赖固定的LLM编码器和单一路径融合机制;本研究仅在标准离线下一项推荐设定下进行了评估。未来工作将包括:一是将LLM-CR与教育大语言模型(EduLLMs)及混合专家模型(Mixture-of-Experts, MoE)结合,以实现面向学科的语义自适应与高效知识注入;二是将该框架扩展为具备工具使用和反馈回路能力的智能体(AI agent),提升可解释性与主动性,并与端到端LLM推荐器开展系统比较,以推进课程推荐场景中的轻量化部署方案与最佳实践。