通过跨编码器BERT模型提升阿拉伯语自动论文评分系统，并实现可解释的结果解释

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：Advancing Arabic automated essay scoring through cross-encoder BERT models and interpretable explanations

【字体：大中小】 时间：2026年05月22日 来源：Scientific Reports 3.9

编辑推荐：

　　摘要由于阿拉伯语存在双语现象、丰富的形态学特征以及有限的注释资源，阿拉伯语的自动论文评分（AES）技术发展相对滞后，这反映了语言本身的不对称性。本研究通过引入基于BERT的句子对交叉编码器框架来推进阿拉伯语AES的发展，该框架利用双向注意力的结构对称性，并将其与集成梯度（IG）解

摘要

由于阿拉伯语存在双语现象、丰富的形态学特征以及有限的注释资源，阿拉伯语的自动论文评分（AES）技术发展相对滞后，这反映了语言本身的不对称性。本研究通过引入基于BERT的句子对交叉编码器框架来推进阿拉伯语AES的发展，该框架利用双向注意力的结构对称性，并将其与集成梯度（IG）解释流程相结合。系统评估了五种广泛使用的阿拉伯语BERT变体：（1）asafaya/bert-base-arabic、（2）aubmindlab/arabertv02、（3）UBC-NLP/MARBERT、（4）SaudiBERT和（5）CAMeL-Lab/CAMeLBERT-MSA。在所有实验中，经过十个训练周期微调的CAMeLBERT-MSA取得了优异的结果：R2值为98.47%，MAE值为0.07%，准确率在98.32%±0.5个百分点范围内。这比基于浅层相似性的基线和早期的BERT串联模型有了显著提升，证明了针对现代标准阿拉伯语（MSA）语料库进行深度任务特定适配的价值。交叉提示评估显示了泛化对称性——在有限的提示下仍能保持强劲的性能（R2=79.38%，准确率在98.92%±1.0个百分点范围内）；同时也存在泛化不对称性——随着提示的异质性增加，性能会下降。解释性流程通过生成仅包含学生答案的词级理由来提升教学价值，这些理由能够识别出符合评分标准的、有助于提高或降低分数的词汇。这些词汇表可作为轻量级的概念工具，通过模型推理与评分标准之间的解释一致性来增强公平性和可信度。

联系信箱：

粤ICP备09063491号

摘要

热点排行