融合深度学习模型在阿拉伯语与英语假新闻检测中的突破性研究

《Frontiers in Big Data》:Hybrid deep learning models for fake news detection: case study on Arabic and English languages

【字体: 时间:2026年01月06日 来源:Frontiers in Big Data 2.3

编辑推荐:

  本综述系统阐述了融合多通道卷积神经网络(CNN)与双向长短期记忆网络(BiLSTM)的深度学习模型在阿拉伯语和英语假新闻检测(FND)中的创新应用。研究通过预训练FastText词嵌入技术有效应对阿拉伯语复杂的形态学特征,结合并行架构同步捕获局部语义特征与长距离上下文依赖关系。在AFND、ANS和WELFake数据集上的实验表明,该模型准确率分别达(94.43±0.19)%、(71.63±1.45)%和(98.85±0.03)%,显著优于现有Transformer基线(如AraBERT、BERT等)。该研究为低资源语言的虚假信息治理提供了可扩展的技术框架。

  
引言:虚假信息挑战与语言特异性困境
在线社交网络的普及使假新闻检测成为维护信息生态安全的核心课题。阿拉伯语因其复杂的形态结构(如词根派生、方言变异)和资源匮乏性,成为假新闻检测领域的特殊挑战。现有研究多集中于单一语言,且对阿拉伯语的处理存在模型适应性不足、特征提取不充分等问题。本文通过构建混合深度学习模型,首次实现阿拉伯语与英语假新闻的跨语言协同检测。
研究方法:并行混合架构与语言学适配设计
研究提出四层模型架构:输入层采用Farasa库对阿拉伯语进行分词与标准化,NLTK工具处理英文文本;词嵌入层使用FastText预训练模型,通过子词(n-gram)编码解决阿拉伯语形态变化问题;特征表征层创新性地将双通道BiLSTM(64/128神经元)与多通道CNN(滤波器尺寸2/3/4)并行连接,分别捕获长距离上下文依赖与局部短语模式;分类层通过全局最大池化降维后接入稠密层输出分类结果。实验采用分层5折交叉验证,以准确率(Ac)、精确率(Pr)、召回率(Rc)和F1-score为核心指标。
结果分析:跨语言性能超越与误差机制解析
在阿拉伯语AFND数据集上,模型准确率达(94.43±0.19)%,较传统CNN-BiLSTM序列模型提升6.94%;对于类别高度不平衡的ANS数据集,通过随机过采样技术使F1-score提升至(79.6±1.42)%。在英语WELFake数据集上达到(98.85±0.03)%的准确率,显著优于BERT+BiLSTM等基线模型。消融实验表明,移除双BiLSTM组件会使AFND数据集F1-score下降2.66%,证实双向上下文建模的关键作用。误差分析揭示模型对敏感语义线索的依赖:阿拉伯语误判多源于权威句式误导(如官方声明式假新闻),英语错误则集中于标题-正文语义脱节(如“POLITICO”信源误导)。
讨论:架构优势与跨语言泛化能力
混合并行架构通过CNN的局部特征提取与BiLSTM的序列建模互补,克服了传统序列模型的信息损失问题。FastText子词嵌入对阿拉伯语前缀/后缀(如“?????”分解为“?+????”)的有效表征,证实其优于Word2Vec等静态嵌入方法。模型在宏观F1(94.31±0.2)%和AUC-PR(98.8±0.01)上的稳定表现,体现了对类别不平衡问题的鲁棒性。
结论与展望:技术突破与多模态扩展
该研究为低资源语言假新闻检测提供了可复用的技术范式。未来工作将拓展至波斯语等资源稀缺语言,并探索视觉Transformer等多模态融合方案,以应对包含图像、视频的复杂虚假信息场景。模型已被验证适用于社交媒体平台实时检测场景,为跨语言信息治理提供工具支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号