用于跨领域虚假新闻检测的领域自适应专家混合模型

《Knowledge-Based Systems》:Domain Adaptive Mixture-of-Experts for Cross-domain Fake News Detection

【字体: 时间:2026年03月07日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  针对跨领域假新闻检测(CFND)中知识迁移和领域适应的挑战,提出MEDAG模型。通过零样本提示学习构建动态隐式领域分布,设计混合专家架构并利用超网络动态调整参数,有效缓解领域偏移问题。实验表明,MEDAG在英文和中文数据集上分别提升1.38%和1.74%-2.12%的F1分数。

  
郭泽琪|欧阳继红|李希明|李长春
吉林大学计算机科学与技术学院,长春,中国

摘要

假新闻的泛滥已成为一个全球性风险。尽管现有的假新闻检测器在政治等预定义领域表现良好,但在资源匮乏的领域往往难以有效发挥作用。最近的研究表明,多领域假新闻检测(MFND)可以提高模型性能。基于这一研究方向,我们进一步探讨了跨领域假新闻检测(CFND)的任务,旨在识别未见过领域的新兴假新闻。具体来说,我们的目标是通过从源领域的标注数据中挖掘通用知识和隐含的目标领域信息来提升跨领域泛化能力。为了促进有效的知识转移,我们首先通过引入一个领域推理任务来建立新闻文章与领域之间的关系,该任务可以估计新闻样本的隐含领域分布。此外,我们提出了一种基于专家混合的CFND模型(命名为MEDAG),该模型通过门控机制整合了来自多个领域专家的知识。为了证明MEDAG的有效性,我们进行了广泛的对比实验,与MFND和CFND基线方法进行了对比,并进行了全面的消融研究。在两个真实的英语和中文数据集上的实验结果表明,MEDAG在英语数据集上的F1分数提高了1.38%,在中文数据集的三个未见过的新闻领域上分别提高了1.74%、1.02%和2.12%。

引言

根据新浪微博社区的年度报告1,2024年共处理了138,608条假新闻,同比增长约58%。此外,世界经济论坛发布的《2024年全球风险报告》2将人工智能生成的错误信息和虚假信息列为十大最严重的全球短期风险之一。如前所述,社交媒体平台和人工智能技术的快速发展极大地促进了假新闻的创造和传播,从而加剧了其对社会的不利影响[1]。鉴于人工监管工作的速度和效率难以跟上假新闻的快速传播,这类内容在政治[2]、公共卫生[3]和社会[4]等领域构成了严重威胁。因此,自动假新闻检测(FND)变得越来越重要,并且仍然是一个活跃的研究领域。
FND通常是通过使用足够的标注数据对深度学习模型进行监督训练来实现的,以将新闻文章分类为假新闻或真实新闻。这一过程利用了多种类型的信息,包括新闻内容、社交背景和外部知识资源,以提高分类准确性[5]。以往的研究主要集中在特定主题内的假新闻检测上,例如COVID-19大流行[6]、美国政治[7]、[8]和娱乐[7]。然而,这些方法可能无法很好地泛化到涉及多个领域信息的复杂现实世界场景,尤其是在遇到新的或新兴领域时。具体来说,当训练数据和测试数据在词汇使用、写作风格和传播模式(称为领域转换)方面存在显著差异时,FND模型的表现往往较差[9]、[10]。为了解决领域转换和数据稀缺问题,现有方法探索了不同的学习范式,包括:多领域假新闻检测(MFND)和跨领域假新闻检测(CFND)。
MFND的目标是通过利用多领域数据增强来保持模型在各个领域的一致性能,从而缓解目标领域的数据稀缺问题[10]、[11]。然而,这种策略依赖于目标领域的标注数据,限制了其在这些数据不可用的场景中的适用性。CFND方法主要用于提高未见领域中的检测性能。在本文中,我们根据目标领域新闻数据的可用性,将CFND方法分为两种情况:领域适应型和领域泛化型。在领域适应型CFND中,需要目标领域的未标记或标记数据进行训练[12]、[13]、[14]、[15]、[16]、[17]。最近,领域泛化型CFND受到了越来越多的关注。一些研究[18]、[19]、[20]提出了无需目标领域语料库即可训练模型的方法,而是利用多个相关源领域来增强泛化能力,而不是依赖单领域迁移学习[13]。这种学习范式更适合目标领域数据可能稀缺或不可用的现实世界场景,并且符合在新出现的领域或事件中检测假新闻的日益增长的需求。尽管这些方法在受控环境中表现良好,但它们对动态多领域环境的适应性仍然是一个重大挑战。
在本文中,我们研究了多源环境中的领域泛化型CFND任务,将其扩展到只有文本新闻内容在各个领域可用的更具挑战性的场景。我们探讨了两个主要挑战:
  • label=(0)
    如何从源领域学习对未见目标领域有用的知识?
    一些现有的CFND方法[19]、[20]专注于解耦领域不变特征,以促进知识向未见领域的转移,并使用新闻评论帖子进行特征增强。这种领域感知的共享或特定领域信息是在硬领域标签的帮助下提取的。在现实世界的新闻系统中,虽然新闻总是发布在特定领域,但其内容可能是多样的[10]。如图1所示,尽管这两条新闻分别发布在健康和娱乐领域,但它们都与“冠状病毒”相关。领域标签已被证明对多领域学习有益[10],但硬领域标签的不完整性可能会限制迁移学习。因此,建模样本与多个领域之间的关系可能有助于从源领域样本中提取隐含的目标领域信息,从而提高模型的泛化能力。这是可行的,因为目标领域的领域标签可以很容易地预先定义。
  • lbbel=(0)
    如何缓解领域转换问题,防止模型过度拟合于单一来源领域?
    在MFND和CFND中采用了各种特征对齐策略来解决这个问题,包括对抗学习[18]、[21]、对比学习[19]、[20]和多专家学习[11]、[22]。虽然前两种方法侧重于提取领域不变特征或增强样本相似性,但它们可能会导致有价值的特定领域信息的丢失。相比之下,多专家方法通过多个专家的合作学习,可以有效地捕捉跨领域的共同特征,同时增强目标领域的特定特征,这可能更适合领域泛化任务。
  • 为此,我们提出了一个基于专家混合的框架MEDAG,通过领域自适应门控来增强模型检测未见领域假新闻的能力。为了补充领域标签并丰富领域信息,我们进行了无监督的领域推理任务。该任务通过零样本提示学习为新闻实例生成软领域概率分布,利用多领域标签对新闻实例进行分类,而无需对每个领域进行显式训练。我们在动态学习的领域嵌入的指导下设计了门控机制,以高效地选择多领域数据环境中的专家。为了提取隐含的目标领域信息以改进泛化能力,在训练门控之前,领域嵌入会通过软领域标签进行加权。此外,还结合了超网络来动态学习参数。我们的工作总结如下:
  • 我们在更具挑战性的领域泛化场景中研究了CFND问题,其中模型仅基于源领域的文本新闻内容进行训练,并期望能够泛化到完全未见的目标领域。
  • 我们提出了MEDAG,这是一个基于专家混合的框架,其中包含领域自适应门控机制。该模型利用从源领域提取的隐含目标领域信息来增强泛化能力。
  • 为了评估所提出框架的有效性,我们在两个真实的英语和中文数据集上进行了留一领域交叉验证实验。我们的方法在英语数据集上实现了1.38%的改进,在中文数据集的三个子集上分别实现了1.74%、1.02%和2.12%的改进。
  • 方法部分

    领域感知的假新闻检测

    以往的FND研究通常集中在特定领域或事件上,例如政治和COVID-19,通过建立新闻内容与真实性标签之间的关系,并利用多种特征,包括:文本新闻内容的语言特征[23]、社交背景信息[24]、[25]或外部知识[26]。近年来,FND研究越来越多地关注利用领域级信息来缓解数据稀缺问题

    方法论

    在本节中,我们介绍了问题的表述,并详细描述了所提出的方法MEDAG
    问题陈述。 CFND通常可以表述为一个二元分类任务,目标是训练一个假新闻检测器F(·;θ)来预测目标领域DT中的新闻文章是真实的还是假的。形式上,给定一组N个源领域DS={DS1,DS2,,DS3,,DSN}和目标领域DT,其中每个领域集可以表示为D={xi,yi,di}i=1|D|

    实验设置

    数据集。 我们提出的方法MEDAG在两个真实世界数据集上进行了评估:中文Weibo21 [11]和英文Finefake [31]。数据集的统计信息列在表3中。Weibo21包含9,128篇新闻文章,其中4,640篇是真实新闻,4,488篇是假新闻。完整的数据集包含9个领域的数据,表示为Ch-9。此外,我们从Ch-9中抽取了两个较小的数据集,分别表示为Ch-6和Ch-3,它们包含的源领域较少

    结论

    以往关于单个或多个领域内假新闻检测的研究往往受到目标领域标注数据的限制,这对于新领域或新兴事件来说是不切实际的。为了解决这个问题,我们提出了MEDAG,一种新颖的跨领域假新闻检测方法。我们的工作表明,通过显式建模潜在的跨领域关系并自适应地转移知识,可以在未见领域实现稳健的检测。

    CRediT作者贡献声明

    郭泽琪:写作 – 审稿与编辑,撰写原始草案,监督,软件,方法论,调查,概念化。欧阳继红:写作 – 审稿与编辑。李希明:写作 – 审稿与编辑。李长春:写作 – 审稿与编辑。

    利益冲突声明

    作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

    致谢

    我们想感谢国家自然科学基金(编号62276113)和中国博士后科学基金(编号2022M721321)对这项项目的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号