《Connection Science》:A hybrid approach for course recommendation: leveraging collaborative filtering and knowledge graphs
编辑推荐:
本文是一篇针对课程推荐系统的综述研究,探讨了在正式与非正式教育环境中,学习者面临课程选择挑战的现状。作者提出了一种创新的混合式课程推荐系统,该系统通过结合协同过滤(Collaborative Filtering, CF)与知识图谱(Knowledge Graph, KG)技术,旨在为学生提供个性化且具有可解释性的课程建议。文章指出,传统推荐方法常因缺乏透明度而导致推荐结果不理想,而本研究所提出的名为KG-BeMF的系统,则利用伯努利矩阵分解(Bernoulli Matrix Factorisation, BeMF)模型进行课程状态预测,并借助知识图谱信息进行过滤与解释,从而有效应对数据稀疏和冷启动问题,提升推荐的准确性与可信度。通过对包含3.66万条学生记录的真实数据集进行实验评估,结果表明该系统在精确率(Precision)、召回率(Recall)和F1-分数(F1-Score)等指标上,相比狄利克雷矩阵分解(Dirichlet Matrix Factorisation, DirMF)、朴素贝叶斯协同过滤(Na?ve Bayes Collaborative Filtering, NBCF)和神经协同过滤(Neural Collaborative Filtering, NCF)等基准模型表现出更优的性能。最终,文章强调该混合方法不仅能生成高质量推荐,还能通过提供解释增强系统透明度,改善学生的学习决策体验。
引言
在教育体系中,学习者常常面临如何选择符合自身学术目标或培训需求的合适课程的挑战。无论是正式的大学本科课程预选,还是海量的在线大规模开放在线课程(MOOC)平台如Coursera、edX等,信息过载问题都使得学生难以做出最佳决策。推荐系统(Recommender System, RS)作为一种有效工具,已被广泛应用于电子商务、医疗健康等领域,但在教育领域的应用尚面临透明度和解释性不足的痛点。传统的协同过滤方法虽然能提供良好的推荐结果,却往往难以解释推荐背后的原因。因此,本文致力于提出一种结合协同过滤与知识图谱的混合课程推荐方法,旨在同时实现推荐的准确性、个性化和可解释性。
相关工作
课程推荐系统的研究自2005年起在学术数据库中逐渐增多,并于2024年达到年度研究产出高峰。相关研究采用了多种方法,包括基于协同过滤、内容过滤、深度学习以及语义网络技术如本体和知识图谱的模型。其中,协同过滤方法因其利用用户历史偏好数据而表现优异,但常受限于数据稀疏和冷启动问题。为克服这些挑战,研究者们探索了结合知识图谱的方法,以丰富的语义信息来增强用户与课程的表示。例如,利用知识图谱可以缓解新课程或新用户的冷启动问题,并提升推荐的准确性。矩阵分解方法,作为协同过滤的一种重要技术,也通过识别用户-项目交互中的隐藏模式,在个性化推荐中展现了出色性能,其中伯努利矩阵分解模型因其能同时提供预测值和可靠性值而备受关注。在可解释推荐方面,研究重点在于生成能让用户理解推荐逻辑的说明,例如结合贝叶斯变分网络或利用大型语言模型进行解释生成。
基于知识图谱增强的可解释推荐方法
本研究提出了一种名为KG-BeMF的混合式可解释课程推荐方法。该方法旨在帮助学生在正式教育环境下,根据其历史选课记录和学位路径的约束条件,做出更明智的选课决策。系统流程主要包含四个阶段:数据准备、协同过滤预测、基于知识图谱的过滤,以及可解释推荐的生成。
在第一阶段,系统构建学生档案,记录其已通过、不及格或退出的课程,以及当前学期应修的课程。同时,创建一个描述学位课程结构的语义知识图谱,其中定义了课程、学生、先修条件等实体及其关系。接着,构建用户-课程评分矩阵,其中评分值代表课程的三种状态:1(通过)、2(不及格/退出)、3(待修课程)。在第二阶段,采用伯努利矩阵分解模型处理该评分矩阵,预测每个学生对每门课程可能的状态概率,并生成一个候选课程列表。
第三阶段是知识图谱过滤的核心环节。系统利用SPARQL查询语言,设计了一系列查询模板来验证候选课程是否符合教育机构的业务规则和学位要求。例如,过滤掉那些先修课程尚未被学生通过的高级课程,或者移除学生已经通过的课程。完成所有约束检查后,系统根据课程级别、学分、类型等特征对剩余课程进行排序,形成最终的推荐列表。
最后,在第四阶段,系统为每门被推荐的课程生成解释性输出。这些解释整合了从知识图谱中提取的元数据,如先修条件、学分、学习要求等,并以自然语言形式向学生阐明课程被推荐的理由及其相关性等级。
材料与方法
为验证KG-BeMF方法的有效性,研究选取了厄瓜多尔一所高等教育机构信息技术(Information Technology, IT)学位2020年至2022年的真实数据集进行案例分析。该数据集包含约1935名学生修读57门课程的记录。数据准备阶段,将学生的最终成绩(0-10分,7分及格)转换为1-3分的归一化评分,并构建了学生-课程评分矩阵。
知识图谱的构建利用了Schema.org的词汇表,并扩展定义了用于描述推荐和学生的本体类。数据通过OntoRefine工具转换为资源描述框架格式,并存储在GraphDB图数据库中。实验部分将提出的KG-BeMF方法(其核心预测引擎为BeMF模型)与三种基线模型——狄利克雷矩阵分解、朴素贝叶斯协同过滤和神经协同过滤进行了性能比较。通过网格搜索和4折交叉验证确定了各模型的最佳超参数。
评估结果显示,尽管各模型的混淆矩阵表现趋势相似,但伯努利矩阵分解在精确率、召回率和F1-分数上略优于其他模型。更关键的是,通过引入知识图谱对BeMF的初始推荐结果进行过滤(去除已通过课程等低可靠性推荐),推荐系统的精确率从55%显著提升至85%。这表明知识图谱的整合有效去除了不合适的候选课程,增强了系统的可靠性。此外,系统还计算了可解释精确度指标,结果表明约有70%的推荐课程能够从知识图谱中获得充分的解释依据,体现了系统的透明度。
实验结果与讨论
消融研究表明,单纯的BeMF模型虽然能产生预测,但其推荐结果中可能包含学生已通过的课程(低可靠性推荐)。通过集成知识图谱进行过滤后,系统成功排除了这类不相关项,从而在牺牲少量召回率的情况下大幅提升了精确度。归一化折损累计增益指标显示,系统在推荐列表的前5位和前10位均能保持高相关性课程排序。
从理论意义上看,本研究通过结合概率模型(伯努利矩阵分解)与结构化知识(知识图谱),为教育推荐系统提供了一种兼顾预测准确性与语义可解释性的混合框架。伯努利模型能够捕捉学生行为的不确定性,而知识图谱则赋予了系统基于领域规则进行推理和解释的能力。
在实践应用方面,KG-BeMF方法能有效缓解传统协同过滤中的冷启动(对新用户)和稀疏性问题,因为它不仅依赖用户-课程交互矩阵,还利用了课程间的语义关系。系统提供的解释性输出,例如课程级别、学分要求和先修条件,有助于学生理解推荐逻辑,从而在选课时做出更有信心的决策。该方法易于适配不同教育机构,仅需基本的学籍、成绩和课程大纲数据即可部署。
然而,本研究也存在一定局限性。当前系统的个性化程度主要基于学生成绩,尚未深度整合学生的人口统计学特征或学习风格等个人属性。此外,研究数据仅来源于单一机构的特定学位项目,未来需要在更广泛的数据集上进行验证。未来的工作方向包括纳入更多学期数据、探索结合大型语言模型进行更丰富的语义解释,以及研究分布式计算方案以提升系统在大规模数据下的可扩展性。
结论与未来工作
本文提出并验证了一种融合协同过滤与知识图谱的可解释课程推荐系统。实验证明,基于伯努利矩阵分解的预测模型在处理学生课程状态数据时具有优势,而知识图谱的集成进一步通过过滤和排序,提升了推荐的准确性与可靠性。该系统不仅能生成有效的课程建议,还能通过知识图谱提供的元数据为学生提供清晰的解释,从而在选课过程中增强学生的决策信心。
展望未来,研究计划扩展实验数据规模,整合更多维度的学生信息以寻找相似学习者。此外,探索利用大型语言模型处理非结构化课程资料,以及应用图神经网络模型如神经图协同过滤和知识图谱注意力网络,将是进一步提升系统性能和解释能力的重要方向。最终目标是为学生提供一个高度个性化、透明可信的智能选课助手,优化其学术规划体验。