GAAC：一种基于图注意力与自适应对比学习的强大虚假信息检测框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：GAAC:A Robust Misinformation Detection Framework via Graph Attention and Adaptive Contrastive Learning

【字体：大中小】 时间：2026年03月07日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　虚假信息检测模型GAAC通过图注意力网络与自适应对比学习提升鲁棒性，构建信息传播图分析用户交互关系，采用自适应图增强生成多样样本，结合对抗训练生成困难样本，实验表明在Twitter15、Twitter16和PHEME数据集上准确率分别达到91.4%、94.6%和86.2%，较现有最佳模型提升1.3%、2.6%和1.8%。

贵州财经大学大数据统计学院，中国贵阳，550025

摘要

近年来，利用信息传播树的结构信息已成为检测虚假信息的一种重要方法。然而，现有的检测模型对噪声和对抗性攻击的鲁棒性通常有限，导致在这些条件下的性能显著下降。为了解决这个问题，我们提出了一种基于图注意力（Graph Attention）和自适应对比学习（Adaptive Contrastive Learning，GAAC）的强大社交媒体虚假信息检测模型。该模型通过分析社交媒体用户之间的互动和信息传播路径来构建传播图，采用自适应图增强技术生成多样化的训练样本，并结合对抗性训练来生成具有挑战性的样本。通过对比学习，模型深入探索样本之间的相似性和差异性，从而增强特征学习能力，进而提高捕捉虚假信息特征的能力。实验结果表明，GAAC在三个真实世界数据集上的检测准确率分别为91.4%、94.6%和86.2%，分别比现有最佳模型提高了1.3%、2.6%和1.8%，并且能够以高精度执行早期检测任务。

引言

目前，全球有53.5亿互联网用户，其中50.4亿是活跃的社交媒体用户，占全球人口的62.3%[1]。然而，由于社交网络的进入门槛较低且用户基数庞大，虚假信息在个人、社会和国家层面产生了负面影响。虚假信息本质上是误导性和欺骗性的，这促进了其在社交媒体上的快速传播，使得及时识别变得困难[2]。因此，准确识别虚假信息并减轻其负面影响对于维护社会和谐与稳定至关重要[3]。

传统方法主要依赖于数据特征和分类算法（如决策树[4]、随机森林[5]和支持向量机[6]），根据用户特征[7]、文本内容[8]和传播模式[9]来训练模型。然而，机器学习技术高度依赖于特征选择，不当的特征选择可能导致检测性能不佳。相比之下，深度学习方法可以自动提取特征并学习模式，具有更大的适应性[10]。这些方法有效地利用了文本信息和上下文关系，从而实现了更出色的检测效果[11]。一些研究还尝试将信息传播路径纳入检测框架，强调了传播结构在识别虚假信息方面的潜力[12]、[13]。图学习技术将信息传播过程建模为图结构，其中节点代表传播者或接收者，边表示传播关系。通过分析这种图结构，研究人员可以更深入地理解信息传播的机制，从而为虚假信息检测提供更强大的支持。

尽管在虚假信息检测方面取得了显著进展，但现有方法仍然面临许多挑战。首先，在信息传播的初期阶段，由于样本量小和数据支持不足，模型难以从有限的数据中提取有效特征。其次，早期传播的信息往往包含大量噪声，这主要是由于信息来源的多样性和传播过程中的固有不确定性，包括未经验证的消息、谣言和恶意内容[14]。在社交媒体等开放平台上，这个问题尤为突出，用户经常分享未经验证的信息，使得区分真实内容和虚假内容变得复杂。此外，传统检测技术过度依赖静态特征，未能充分利用信息传播过程中的结构化属性。最近的研究[15]进一步表明，现有的基于图的防御措施往往忽略了结构依赖性和多维度鲁棒性相关性，限制了它们对动态场景的适应性。因此，当面对信息传播的复杂性和动态性时，模型缺乏鲁棒性，影响了它们适应不同环境的能力，从而降低了检测的准确性和可靠性[16]、[17]。

为了指导研究并明确其目标，我们提出以下研究问题：

RQ1：与随机增强相比，自适应的、考虑拓扑和属性的图增强能否提高基于传播图的虚假信息检测的表示质量和鲁棒性？RQ2：将对抗性生成的具有挑战性的样本集成到对比学习框架中，是否能在保持（或提高）标准条件下的分类性能的同时提高对对抗性扰动的抵抗能力？RQ3：所提出的GAAC框架在多大程度上能够实现跨异构数据集的准确早期检测和跨域泛化？

为了解决这些挑战，本文提出了一种利用图注意力和自适应对比学习的社交媒体虚假信息检测模型。该模型构建了一个传播图，以捕捉信息流的结构动态，利用图的拓扑属性来增强信息表示。模型通过分析样本之间的相似性和差异性，结合比较学习和特征学习，从而在数据稀缺时显著提高特征提取能力。此外，模型采用自适应图数据增强技术和对抗性训练策略，以更好地捕捉信息传播的动态特征。自适应图数据增强通过模拟各种传播场景生成多样化的训练样本，从而增强模型的泛化能力[18]。相比之下，对抗性训练引入了具有挑战性的样本，迫使模型学习更强大的特征表示，从而提高虚假信息检测的准确性。通过这种方法，特征空间学习和系统的鲁棒性及灵活性都得到了显著提升。

本工作的主要贡献总结如下：

•

我们提出了GAAC，一种基于图的虚假信息检测框架，它结合了图注意力网络和监督对比学习来捕捉传播图中的结构动态。

•

我们引入了一种自适应图增强机制，在生成多样化视图的同时保留结构上重要的节点/边，从而改善了从稀疏短文本信号中学习的效果。

•

我们设计了一个对抗性难样本生成模块，为对比学习生成具有挑战性的示例，大大提高了对噪声和基于梯度的攻击的鲁棒性。

•

我们在多个基准测试（Twitter15、Twitter16和PHME）上验证了GAAC，证明了其在噪声和异构传播场景下的准确性、早期检测能力和可扩展的鲁棒性。

本文的其余部分组织如下。第2节回顾了关于虚假信息检测的相关文献，重点关注传播图建模、对抗性鲁棒性和基于图的对比学习。第3节描述了数据集、数据预处理程序，并概述了所提出的GAAC框架及其训练目标。第4节提供了全面的实验评估，包括比较研究、早期检测分析以及针对研究问题RQ1–RQ3的扩展消融和鲁棒性实验。第5节讨论了研究结果的理论和实际意义，第6节总结了主要结论，指出了现有局限性，并概述了未来研究的有希望的方向。

方法论

在本节中，我们描述了利用图注意力和自适应对比学习（GAAC）的虚假信息检测模型。该模型的框架如图1所示。该模型包括四个组成部分：自适应图数据增强、基于图注意力网络的表示学习、难样本生成和对比学习。以下部分详细描述了GAAC中的每个模块。

数据集

为了有效评估GAAC模型的性能，我们在两个广泛使用的公开数据集Twitter15和Twitter16上进行了实验。Twitter15数据集由Liu等人[49]引入。考虑到该数据集中的类别标签分布不平衡，Ma等人[50]通过将原始的二分类任务转换为四分类框架对其进行了扩展和改进。Twitter16数据集由Ma等人[50]从Twitter平台整理而来。

讨论与局限性

上述实验和消融研究为鲁棒虚假信息检测提供了几个具体的经验教训。首先，将自适应的、考虑重要性的图增强与基于注意力的图表示和监督对比目标相结合，产生的事件表示比任何单一组件都更具区分性：自适应增强增加了合理视图的多样性，同时保留了核心结构线索；对比学习增强了类别间的

结论

虽然GAAC提高了虚假信息检测的鲁棒性和表示学习能力，但我们并不声称已经解决了假新闻缓解这一更广泛的问题。仍存在一些重要的局限性。首先，GAAC依赖于监督标签，因此在资源匮乏或新出现的事件场景中受到限制；未来的工作将研究半监督和自监督的对比框架，以利用未标记的数据。其次，当前模型基于以文本为中心的传播图

未引用的引用

缺少引用算法1

CRediT作者贡献声明

Jie Hu：写作 – 审稿与编辑，撰写原始草稿，验证，软件，方法论，概念化。Langsha Zhu：数据整理，形式分析，调查，验证。Mei Yang：写作 – 审稿与编辑，验证，软件，方法论，数据整理，概念化。Bingbing Tang：写作 – 审稿与编辑，验证，数据整理。Shicheng Dai：写作 – 审稿与编辑，可视化，监督，概念化。Chenglong Zhang：写作 – 审稿与编辑，

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。

致谢

本研究得到了贵州省科学技术基金（Qian Kehe Basic-ZK [2021] General 337和Qian Kehe Basic-ZK [2023] General 450）的支持，并得到了贵州大学公共大数据国家重点实验室基金（编号PBD2023-35）的资助。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究

相关工作

方法论

数据集