在噪声干扰下依然有效的谣言检测机制

《Neurocomputing》:Robust rumor detection against noise

【字体: 时间:2026年01月18日 来源:Neurocomputing 6.5

编辑推荐:

  谣言检测框架RRD-N通过数据增强、信息瓶颈理论指导的对比学习预训练,结合贝叶斯网络变分推断微调,有效过滤外源和内源噪声并提升预测可靠性。实验在Twitter15和Twitter16数据集上较12种基线平均准确率提升1.62%。

  
张文鑫|轩曦|韩瑞丹|应宗豪|罗翠翠|吴德胜|柳普科·科卡雷夫
中国科学院大学,北京,中国

摘要

社交媒体的迅速扩张加剧了谣言的传播,从而提高了有效谣言检测的需求。以往使用图神经网络(GNNs)的研究无法抵抗来自复杂信息源的噪声,且由于缺乏分布特性导致模型不确定性,最终使得模型的鲁棒性存在缺陷。为了解决这些问题,本文提出了一种新的鲁棒谣言检测框架(RRD-N)。在该框架中,我们应用数据增强策略生成多样化的图视图,并利用对比学习预训练来学习谣言的代表性特征。特别是,我们采用基于信息瓶颈(IB)理论的节点采样器和训练损失函数来提高对噪声的抵抗能力。此外,我们还实现了基于变分推理的贝叶斯网络的微调任务,以获取潜在分布,从而解决预测不确定性问题。我们在两个公共数据集Twitter15和Twitter16上进行了广泛的实验,结果显示与十二个最先进的基线方法相比,准确率至少提高了1.72%和1.52%,证明了所提出的RRD-N的有效性和优越性。我们的代码可在以下链接获取:https://anonymous.4open.science/r/RRD-N-EF30/

引言

社交媒体的快速增长为人们表达观点、高效沟通和分享信息带来了巨大便利。然而,它也成为了谣言传播的主要平台[1],这可能会造成重大的社会和经济危害。针对日益关注的社会稳定和可持续发展问题,谣言检测已成为一个重要且活跃的研究课题。
早期的谣言检测研究主要依赖于传统的机器学习方法,如决策树[2]和支持向量机[3]。这些方法主要通过分析源帖子和用户互动的文本内容来识别谣言,而很大程度上忽略了谣言传播的结构特征[4]。最近,由于深度学习技术具有强大的高级表示学习能力,因此被广泛采用。特别是图神经网络(GNNs)在模拟信息传播方面受到了广泛关注,因为它们能够有效捕捉复杂网络拓扑中的潜在交互模式[5],[6]。通过利用结构依赖性,基于GNN的方法改善了谣言传播中节点行为的表示。尽管取得了这些进展,但大多数现有研究忽视了基于GNN的模型的鲁棒性,这限制了它们的实际应用效果,因为GNN本质上是黑盒模型。
一方面,社交媒体的多样性和开放性给谣言传播网络引入了大量噪声,这些噪声可以大致分为外部噪声内部噪声,如图1(a)所示。(1)外部噪声发生在某个事件吸引了与原始主题无关的帖子时。例如,关于性别平等的回应可能会出现在关于关税战争的讨论中,尽管这两个主题毫无关联。这类无关帖子会使得谣言识别变得复杂。当应用GNN时,来自噪声节点的消息会与相关帖子一起通过图卷积操作被聚合,这可能会扭曲节点表示并降低整个传播网络的呈现质量。一种有效的解决方法是在聚合之前过滤掉无关节点,以避免计算结果的偏差。(2)内部噪声指的是嵌入在单个帖子中的无关或离题内容。例如,一个帖子可能同时提到性别平等和种族歧视,即使只有一个主题与谣言相关。这些无关成分被编码在高维密集表示中,使得模型难以分离出与谣言相关的特征。虽然高维向量能够捕捉节点属性,但并非所有维度都对谣言检测有同等贡献。冗余或信息量少的维度可能会引入歧义或非线性干扰,从而降低表示质量。因此,过滤内部噪声和提取有用特征对于准确的谣言检测至关重要。
另一方面,确定性建模范式往往无法捕捉信息传播动态中的固有不确定性,如图1(b)所示。确定性模型倾向于将观察到的数据视为固定的,常常将噪声引起的变化与真实的传播模式混淆。当模型遇到未见的扰动时,这可能导致过拟合和鲁棒性降低。因此,量化和评估分布特性对于在决策过程中最小化噪声的影响并提高模型预测的可靠性至关重要。
基于这些见解,我们开发了一个鲁棒的谣言检测(RRD-N)框架来处理噪声。具体来说,我们首先采用多种增强策略生成多个增强的图视图,其中特别利用重新参数化的采样方法来减轻外部噪声,从而增强图中的信息传播过程。然后,我们应用三层图编码器来捕获图的多级表示信息。我们利用信息瓶颈(IB)理论指导的对比学习来减少内部噪声并获得高质量的表示。与传统的自监督学习方法不同,IB理论在压缩噪声的同时保留了关于原始数据的关键信息,提高了潜在嵌入空间的鲁棒性。最后,使用预训练的潜在嵌入,我们通过贝叶斯网络进行微调,以学习分布信息并模拟识别的不确定性。我们的贡献可以总结如下:
我们提出了RRD-N,这是一种基于预训练和微调策略的鲁棒谣言检测框架,能够提高对噪声的检测能力。
  • RRD-N引入了多种图增强策略和IB理论来过滤外部和内部噪声,提高模型的区分能力。然后,RRD-N利用基于贝叶斯网络的变分推理来减轻预测结果的不确定性,并利用超球体来增强类别特征的区分能力。
  • 我们在两个公共数据集上进行了广泛的实验,并将我们的方法与几种最先进的方法进行了比较。结果表明RRD-N优于现有的基线方法。
  • 章节片段

    图神经网络

    图神经网络(GNNs)因其在建模结构信息方面的有效性而在各个领域得到广泛应用。GNN方法大致可以分为两类:传递式方法和归纳式方法[7],[8]。
    传递式方法基于固定的图进行学习,要求在训练期间所有节点都必须存在。例如,ChebNet[9]是一种基于谱图理论的模型。受ChebNet的启发,GCN[10]是一种广泛认可的GNN模型,实现了卷积

    研究目标

    为了解决第1节中提到的局限性,我们的首要研究目标是填补现有基于图的谣言检测研究中在减轻外部和内部噪声干扰方面的空白。我们通过设计包括数据增强和基于IB的损失函数的自适应过滤策略来实现这一目标。这些策略旨在获得去噪后的表示和代表性的图传播信息。

    数据集

    我们介绍了两个从Twitter社交平台收集的真实世界数据集,用于评估我们提出的模型的性能:Twitter15和Twitter16 [43]。这些数据集是谣言检测研究中使用最广泛的基准之一。它们是公开可用的,并且已经预处理过,提供了节点特征矩阵和相应的邻接信息,便于研究人员进行公平比较和重现,而无需收集或预处理原始数据

    讨论

    所提出的RRD-N框架在现实世界的谣言检测中显示出强大的潜力,特别是在公共卫生监测等关键领域。其强大的噪声过滤和不确定性建模能力使得能够有效识别和分析社交媒体平台上的新兴谣言。该模型的对比学习方法能够捕捉谣言传播中的细微模式,而信息瓶颈机制则过滤掉无关噪声。这种组合特别有价值

    结论

    本文提出了RRD-N,一种新的鲁棒谣言检测框架,用于对抗噪声。具体来说,RRD-N采用三种不同的增强策略生成用于预训练的对比图视图。随后,我们基于IB理论和对比学习设计了一个预训练目标函数来减轻影响。在预训练阶段之后,通过变分推理和监督对比学习进行分类微调,以提高谣言检测的准确性。

    CRediT作者贡献声明

    张文鑫:撰写 – 审稿与编辑,撰写 – 原稿,可视化,方法论,调查,数据管理,概念化。轩曦:撰写 – 原稿,方法论,调查。韩瑞丹:撰写 – 原稿,方法论,调查,数据管理。应宗豪:形式分析,数据管理。罗翠翠:撰写 – 审稿与编辑,撰写 – 原稿,可视化,验证,资源管理,项目协调,调查,资金获取,

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
    张文鑫目前在中国科学院大学(UCAS)计算机科学与技术学院攻读博士学位。他的当前研究兴趣包括图表示学习、图异常检测和对比学习。他已经发表了多篇经过同行评审的文章,包括在《神经网络》、《IEEE大数据交易》和《IJCNN》等知名期刊和会议上发表的文章。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号