学习分析中的开放数据集:趋势、挑战与最佳实践

《ACM Transactions on Knowledge Discovery from Data》:Open Datasets in Learning Analytics: Trends, Challenges, and Best PRACTICE

【字体: 时间:2026年03月09日 来源:ACM Transactions on Knowledge Discovery from Data

编辑推荐:

  开放教育数据在学情分析、教育数据挖掘和AI教育等领域的应用日益重要,但数据集的公开实践尚不明确。本文系统调查了2020-2024年间LAK、EDM、AIED三大顶会1125篇论文,发现172个公开数据集(其中143个为首次记录),并构建了包含数据背景、分析方法、应用场景等属性的分类体系。通过对比分析揭示当前数据开放存在的标准化不足、共享机制不完善等关键问题,提出PRACTICE八项实践指南(发布标准、元数据规范、伦理审查等),并公开了首个标注完整的开源数据集目录。研究成果为提升教育数据研究的可复现性和协作效率提供重要参考。

  

摘要

摘要

背景与现状: 开源数据集在三个与数据科学和教育交叉的领域中发挥着关键作用:学习分析、教育数据挖掘以及教育领域的人工智能。这些领域的研究人员应用计算方法分析教育环境中的数据,旨在更好地理解和改进教学与学习过程。
研究范围与差距: 提供开源数据集与研究论文相结合,有助于提升研究的可重复性,促进合作,并增强对研究结果的信任。同时,这也为作者个人带来了诸多好处,如更高的可见度、可信度和被引用的可能性。然而,尽管有这些优势,学习分析研究社区(尤其是在其主要会议场所)中开源数据集的可用性及其相关实践仍然不明确。 目标与方法: 为了解决这一差距,我们对学习分析领域中与研究论文一起发布的开源数据集进行了系统调查。我们手动检查了过去五年(2020-2024年)来自三个知名会议(LAK、EDM和AIED)的1,125篇论文,发现了172个独特的数据集,并对它们进行了分类与分析,这些数据集被用于204篇出版物中。
结果与贡献: 我们的研究提供了迄今为止最全面的开源教育数据集集合与分析,以及最详细的分类。在所识别的172个数据集中,有143个数据集此前未被任何关于学习分析领域开源数据的调查所涵盖。我们提供了关于这些数据集的背景、分析方法、使用情况及其他属性的见解。基于这项调查,我们总结了该领域当前存在的差距。此外,我们还列出了实用的建议、指导原则(简称“PRACTICE”),并附有检查清单,以帮助研究人员发布他们的数据。最后,我们分享了我们的原始数据集:一个包含发现的数据集及其对应出版物的注释清单。我们希望这些发现能够推动学习分析社区乃至更广泛领域内开源数据实践的进一步采用。

人工智能概述

人工智能生成的摘要(实验性)

此摘要是由自动化工具生成的,并非由文章作者撰写或审核。它旨在帮助发现相关内容、评估文章的相关性,并协助来自其他研究领域的读者理解该研究工作。它是对作者提供的摘要的补充,作者提供的摘要仍是文章的官方总结。完整文章才是权威版本。点击此处了解更多

点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的摘要版本。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号