: 大型语言模型情感量化分析揭示其与人类课程评估评分者存在选择性趋同

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computers and Education: Artificial Intelligence》：LLM sentiment quantification reveals selective alignment with human course-evaluation raters

【字体：大中小】 时间：2026年02月23日 来源：Computers and Education: Artificial Intelligence CS28.7

编辑推荐：

　　为解决高校课程评估中大量质性学生评论因人工分析耗时费力而未被充分利用的难题，研究人员探讨了BERT、RoBERTa、GPT-4o和o3等多种大型语言模型（LLM）能否准确复制人类对这些评论的情感判断。研究发现，部分AI模型（如RoBERTa）能在少量微调或无需微调的情况下，达到与人类评估者相当的评分者间信度，为高校挖掘海量课程评估质性数据的价值提供了高效可行的技术方案。然而，并非所有模型（如GPT-4o）都能进行可靠的情感分析，强调了根据具体任务审慎选择AI模型的重要性。

在高等教育领域，课程评估是衡量教学效果和促进教学改进的常规环节。学生们除了完成量化评分，通常还会在开放性问题下撰写文字评论。这些质性反馈往往比选择题式的评分包含更微妙、更丰富的信息，理论上能更准确地反映学生对教学效果的真实看法。然而，一个长期存在的矛盾是：这些极具价值的质性数据，却因其分析过程高度依赖人工解读、分类和编码，耗时耗力，在管理和研究中常常被束之高阁。面对海量的评估评论，人工分析变得不切实际，导致这座信息金矿几乎从未被系统地勘探过。那么，有没有一种方法，能够高效、准确地自动化分析这些海量的学生评论，释放其潜在价值呢？

近年来，人工智能，尤其是自然语言处理（NLP）和大型语言模型（LLM）的迅猛发展，为解决这一难题提供了新的可能。这些模型能够理解和生成人类语言，理论上可以像人类一样对文本的情感倾向进行判断。但是，它们真的能胜任这项任务吗？它们的判断能否达到与人类专家相当的可靠性？不同的模型之间表现又有何差异？为了回答这些问题，Joyce W. Lacy及其合作者进行了一项开创性的研究，其成果发表在《Computers and Education: Artificial Intelligence》上。

研究人员开展这项研究，主要运用了以下几种关键技术方法：首先，他们从一所大型州立大学2018年春季学期的课程评估中，精心筛选并构建了一个包含1000条经过脱敏处理的学生评论数据集，覆盖STEM与非STEM学科的不同年级课程。其次，他们通过在线调查平台招募了154名在校本科生作为人类评分者，使用7点量表（-3至+3）对每条评论进行情感评分，以此建立“人类黄金标准”。最后，研究人员选取了四类有代表性的LLM进行对比测试，包括两种掩码语言模型（MLM）：BERT和RoBERTa，以及两种生成式语言模型（GLM）：OpenAI的GPT-4o和o3。研究分别测试了这些模型在未经微调的“初始”状态下的表现，以及在使用不同数量（从50到500条）带有人类评分标签的评论进行微调后的表现。通过计算皮尔逊相关系数（r），系统评估了各AI模型生成的情感评分与人类平均评分之间的对齐程度。

研究结果揭示了不同AI模型在情感分析任务上的显著差异：

1.
人类评分: 人类对评论的情感评分整体呈正向偏态分布，70%的评论落在最积极的两个评分区间。
2.
AI生成评分与人类评分的比较:
- •
  BERT: 初始表现不佳（r = -0.061），但经过微调后性能大幅提升。当使用至少250条评论进行训练后，其与人类评分的一致性（r值）超过0.7，接近450条评论时接近0.8，达到了良好的人类评分者间信度水平。
- •
  RoBERTa: 表现最为出色。即使在未微调的初始状态下，就与人类评分者表现出高度一致性（r = 0.844）。微调带来的提升有限，其表现很快达到峰值（r值在0.873至0.900之间）。
- •
  GPT-4o与o3: 两者初始表现相似（r值约0.45），但均未达到可接受的评分者间信度标准。令人意外的是，微调不仅未能提升其性能，在多数情况下反而有所损害。
3.
AI模型的可靠性测试: 对各模型的初始版本进行10次重复测试，结果显示所有模型在不同运行实例间均表现出高度稳定性，表明其预测本身是可靠的，但GPT-4o和o3在接收不同数量训练数据时表现出的“无法学习”现象，可能源于其内部决策机制的不透明性。
4.
评论长度分布对情感评分的影响: 分析显示，对于大多数AI模型和训练情况，评论长度（1-5个词 vs. 超过31个词）并未对AI生成的情感分数产生显著偏差，表明模型主要依据内容而非长度进行判断。例外是仅用50或100条评论微调的BERT，其表现不佳部分原因可能是误将评论长度作为情感判断依据。
5.
模型性能的计算时间: 对于MLM，训练时间随训练数据量增加而上升，其中RoBERTa的训练耗时高于BERT。但在评分阶段，两者耗时都较低且稳定，BERT的评分速度约为RoBERTa的三倍。由于GLM未表现出有效学习，其计算时间未纳入比较。

在结论与讨论部分，研究明确回答了其核心研究问题：（RQ1）部分AI模型（特别是RoBERTa）能够以与人类相当的可靠性分析课程评估中的学生评论。（RQ2）微调是否能提升性能因模型而异：对BERT有显著且持续的提升；对已达到高性能的RoBERTa提升有限；对GPT-4o和o3则基本无效甚至有害。（RQ3）不同AI模型在此任务上的表现存在显著差异。

这项研究的重要意义在于两个方面。首先，它实证了使用合适的LLM（如RoBERTa或经过充分微调的BERT）自动化分析课程评估质性评论的可行性。这为高等教育研究开辟了新途径，使得大规模分析跨课程、跨院系、跨年份甚至跨机构的评论数据成为可能，有助于更深入地探究教学评价中的复杂因素（如教师特征、课程属性、学生变量随时间的变化），并可能克服量化评分中存在的天花板效应等问题。其次，研究发出了重要警示：并非所有AI模型都适用于同一任务。尽管ChatGPT（GPT-4o）广为人知，但本研究显示其在特定情感分析任务上表现欠佳且难以通过常规提示进行微调。这强调了在研究和应用中选择合适的AI工具至关重要，直接关系到分析结果的可靠性和有效性。研究者进一步指出，这一分析框架可扩展到其他需要处理大量开放式文本的领域（如安全事件报告、维护工单分类、技术文献综述等），通过定义领域相关的构念并进行验证，可实现高效的大规模文本筛查与分类。然而，作者也强调，AI应被视为增强而非取代人类专业判断的工具。在教育这一本质上是人际关系的领域中，AI可以高效处理大规模的情感分析，但理解情感背后的具体教学情境和深层次原因，仍需教师的“教学机智”。最终，这项研究为实现AI辅助的、规模化的人类专业知识聚焦提供了框架，让人工智能处理海量数据的初步量化，而人类专家则能专注于AI与人类判断出现分歧的关键案例，那里往往蕴藏着最重要的教学洞察。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号