基于提示压缩优化大规模国际阅读评估中的自动评分：提升效率与可扩展性

《Computers and Education: Artificial Intelligence》：Optimizing automated scoring in ILSAs with prompt compression

【字体：大中小】 时间：2026年02月23日 来源：Computers and Education: Artificial Intelligence CS28.7

编辑推荐：

　　为解决国际阅读评估中由于需处理长阅读段落和详细评分指南导致提示过长、计算成本高昂的问题，研究人员开展了利用提示压缩技术优化GPT-4o模型进行自动评分的研究。结果表明，阅读段落和评分指南可分别压缩至原长的约18%和15%，同时自动评分准确率达92.87%，科恩卡帕值为0.8041，性能与未压缩时相近。该研究显著提升了自动评分在大规模多语言评估中的效率和成本效益。

自动评分 (Automated Scoring, AS) 已成为教育测量领域越来越普遍的工具，尤其在国际大规模评估 (International Large-Scale Assessments, ILSAs) 如国际阅读素养进展研究 (Progress in International Reading Literacy Study, PIRLS) 中应用前景广阔。然而，将其应用于阅读评估仍然面临独特挑战：这些评估要求学生阅读较长的文学和信息类文章，并回答一系列相关问题。为了实现自动评分，大型语言模型 (Large Language Models, LLMs) 的提示词需要包含完整的阅读段落、具体问题以及详细的人类评分指南，这导致提示非常冗长和复杂。处理这些长提示会带来高昂的计算成本（特别是在基于使用量计费的API调用模式下），并可能因“中间迷失”效应而损害LLMs的推理性能，从而阻碍其在大规模评估中的实际应用和可扩展性。因此，寻找方法优化提示、降低复杂度，同时保持评分准确性，成为一个亟待解决的关键问题。

为了探索通过提示压缩优化自动评分的潜力，波士顿学院TIMSS & PIRLS国际研究中心的Ji Yoon Jung、Ummugul Bezirhan和Matthias von Davier在《Computers and Education: Artificial Intelligence》上发表了一项研究。他们利用OpenAI的GPT-4o模型，针对PIRLS 2021评估中的五个一分建构反应 (Constructed Response, CR) 题目，设计了一套系统性的提示压缩与优化方案，并在覆盖27个国家、29种语言的学生回答数据子集上进行了测试。

研究人员采用了几个关键技术方法：首先，他们构建了一个包含任务指令、阅读段落、问题和评分指南的通用评分提示模板。其次，利用GPT-4o的零样本思维链 (Zero-Shot Chain-of-Thought, Zero-Shot-CoT) 提示技术，对阅读段落进行基于问题的摘要生成，即根据具体题目内容提炼关键信息，而非全文总结。第三，对原始的、为人类评分员设计的评分指南进行精炼，尝试了两种方法：抽取式精炼 (RefinedSG_ET)，直接提取原指南中的关键描述句；以及抽象式精炼 (RefinedSG_AT)，利用GPT-4o的元提示技术重写和优化描述，使其更适合LLM处理。此外，研究还运用了CoT策略将复杂的评分任务分解为翻译、评分、验证和输出构造四个步骤，以提升模型推理的可靠性和输出格式的一致性。数据来源于PIRLS 2021数字化评估，包含了来自多个国家、多种语言的四年级学生回答。

研究结果通过比较基线模型（使用原始段落和评分指南）与三种应用了不同压缩策略的模型（Model 1：仅精炼评分指南；Model 2：精炼评分指南+摘要化段落；Model 3：精炼评分指南+摘要化段落+抽象式精炼指南）来呈现。

压缩比例

研究数据显示，提示压缩取得了显著成效。在阅读段落方面，Model 2和Model 3将段落压缩到了原始长度的平均18%。在评分指南方面，Model 3（使用RefinedSG_AT）的压缩效果最突出，平均压缩至原始长度的15%，而Model 1和2（使用RefinedSG_ET）压缩至25%。

模型性能

尽管进行了大幅压缩，自动评分的性能并未受到明显影响。Model 3在五个题目上的平均准确率达到92.87%，科恩卡帕系数 (Cohen‘s kappa, κ) 为0.8041，与使用原始材料的基线模型（准确率92.62%，κ=0.82）表现相当甚至略有提升。Model 1（仅精炼评分指南）和Model 2（精炼指南+摘要段落）也表现出相近的高水平准确率（分别为92.19%和92.41%）。所有模型的幻觉产生率都很低，Model 3平均仅为0.12%。

运行时间与成本

成本效益是本研究的重要发现。应用了完整压缩策略的Model 3，其平均每个题目的评分成本约为3.62美元，相比基线模型每个题目15-17美元的成本，降低了约76%。尽管运行时间仅略有缩短，但对于包含大量建构反应题目的国际大规模评估（如PIRLS 2021有110个一分建构反应题）而言，这种成本节约意义重大。且压缩过程（为每个题目生成一次摘要和精炼指南）本身成本低廉（约0.5美元），耗时短（1-2秒）。

评分不一致来源分析

通过对混淆矩阵的深入分析，研究人员发现人机评分不一致主要源于两方面：一是人类评分员自身的不一致性，特别是在需要学生进行解释或推断的题目上，对于语义相近的回答，人类评分员有时会给出不同的分数，而GPT-4o则表现得更一致。二是自动评分系统的不一致性，主要体现在GPT-4o对包含细微语言差异的回答评分不稳定，以及其在处理低资源语言或拼写错误严重的回答时，翻译和理解存在困难，导致误判。

研究结论与讨论部分强调，通过提示压缩和优化技术，可以在显著降低输入长度和计算成本的同时，保持自动评分系统在国际阅读评估中的高性能。这主要得益于：1）基于问题的摘要生成，有效过滤无关信息，聚焦答题关键；2）评分指南的抽象式精炼，通过消除冗余和模糊表述，使其更适合LLM处理，从而提升了评分的准确性和一致性。此外，零样本思维链和元提示等优化策略，通过将复杂任务分解和迭代改进提示，增强了模型处理多语言评分任务的鲁棒性。

该研究的重要意义在于，它为将大型语言模型高效、经济地应用于大规模、多语言的教育评估场景提供了一套可行的解决方案。通过解决长提示带来的成本和性能瓶颈，提示压缩技术极大地提升了自动评分的可扩展性和实用性。这不仅能够降低国际评估中昂贵的人工评分成本，还有望通过更一致、可扩展的评分系统，为参与国提供更准确的数据报告，从而支持其教育政策的制定与改进。未来研究可以扩展到使用完整数据集、更多题目类型，并进一步探索自动化识别评分不一致来源的方法，以及利用多个LLM进行集成评估以提升系统可靠性。

热点排行

新闻专题