
-
生物通官微
陪你抓住生命科技
跳动的脉搏
通过跨编码器BERT模型提升阿拉伯语自动论文评分系统,并实现可解释的结果解释
《Scientific Reports》:Advancing Arabic automated essay scoring through cross-encoder BERT models and interpretable explanations
【字体: 大 中 小 】 时间:2026年05月22日 来源:Scientific Reports 3.9
编辑推荐:
摘要由于阿拉伯语存在双语现象、丰富的形态学特征以及有限的注释资源,阿拉伯语的自动论文评分(AES)技术发展相对滞后,这反映了语言本身的不对称性。本研究通过引入基于BERT的句子对交叉编码器框架来推进阿拉伯语AES的发展,该框架利用双向注意力的结构对称性,并将其与集成梯度(IG)解
由于阿拉伯语存在双语现象、丰富的形态学特征以及有限的注释资源,阿拉伯语的自动论文评分(AES)技术发展相对滞后,这反映了语言本身的不对称性。本研究通过引入基于BERT的句子对交叉编码器框架来推进阿拉伯语AES的发展,该框架利用双向注意力的结构对称性,并将其与集成梯度(IG)解释流程相结合。系统评估了五种广泛使用的阿拉伯语BERT变体:(1)asafaya/bert-base-arabic、(2)aubmindlab/arabertv02、(3)UBC-NLP/MARBERT、(4)SaudiBERT和(5)CAMeL-Lab/CAMeLBERT-MSA。在所有实验中,经过十个训练周期微调的CAMeLBERT-MSA取得了优异的结果:R2值为98.47%,MAE值为0.07%,准确率在98.32%±0.5个百分点范围内。这比基于浅层相似性的基线和早期的BERT串联模型有了显著提升,证明了针对现代标准阿拉伯语(MSA)语料库进行深度任务特定适配的价值。交叉提示评估显示了泛化对称性——在有限的提示下仍能保持强劲的性能(R2=79.38%,准确率在98.92%±1.0个百分点范围内);同时也存在泛化不对称性——随着提示的异质性增加,性能会下降。解释性流程通过生成仅包含学生答案的词级理由来提升教学价值,这些理由能够识别出符合评分标准的、有助于提高或降低分数的词汇。这些词汇表可作为轻量级的概念工具,通过模型推理与评分标准之间的解释一致性来增强公平性和可信度。