
-
生物通官微
陪你抓住生命科技
跳动的脉搏
对基于变压器的架构在资源匮乏的缅甸语环境中用于假新闻检测的系统性评估
《Scientific Reports》:A systematic evaluation of transformer-based architectures for fake news detection in the low-resource Burmese language
【字体: 大 中 小 】 时间:2026年06月07日 来源:Scientific Reports 3.9
编辑推荐:
摘要虚假信息在社交媒体上的快速传播,尤其是在标准基准和标注数据集稀缺的低资源语言环境中,仍然是一个重大挑战。尽管缅甸语是缅甸的官方语言,但在虚假新闻检测研究中却鲜有关注。本研究对基于Transformer的虚假新闻检测系统在缅甸语标题层面的性能进行了系统分析。为了在受控的实验条件
虚假信息在社交媒体上的快速传播,尤其是在标准基准和标注数据集稀缺的低资源语言环境中,仍然是一个重大挑战。尽管缅甸语是缅甸的官方语言,但在虚假新闻检测研究中却鲜有关注。本研究对基于Transformer的虚假新闻检测系统在缅甸语标题层面的性能进行了系统分析。为了在受控的实验条件下进行这项分析并减少数据偏差,我们创建了10,000个缅甸语新闻标题的平衡样本。研究探讨了多种Transformer学习范式,包括具有跨语言知识迁移的多语言模型、针对缅甸语语言特征进行训练的语言特定模型,以及结合上下文表示和本地特征提取的混合模型。这些模型通过标准分类指标、交叉验证和统计显著性分析进行了比较。实验结果表明,所有基于Transformer的模型表现都非常一致,准确率在0.973到0.979之间,F1分数高达0.979,ROC-AUC值达到0.995。其中,语言特定模型的整体准确率最高;而混合模型最为稳定,其交叉验证平均准确率为0.988±0.0037。进一步分析表明,这些模型在合成生成的虚假新闻上的表现优于在真实收集的数据上的表现,这也反映了现实世界信息中的语言差异对模型性能的影响。尽管存在一些小的性能差异,但统计分析显示这些差异并不显著(p>0.05),说明这些模型在统计上具有可比的性能。研究结果表明,在低资源环境下,数据集质量、受控的样本构建和表示学习比模型架构的复杂性更为重要。本研究为缅甸语虚假新闻检测提供了基准框架,并揭示了模型在数据有限条件下的行为、鲁棒性和泛化能力。