ISMAF：内在-社会模态对齐与融合在多模态谣言检测中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：ISMAF: Intrinsic-social modality alignment and fusion for multimodal rumor detection

【字体：大中小】 时间：2026年02月21日 来源：Neurocomputing 6.5

编辑推荐：

　　多模态谣言检测框架ISMAF通过跨模态一致性对齐与互学习机制，有效整合文本、图像及社会上下文信息，并采用自适应融合策略动态调整各模态权重，解决三模态融合难题，实验验证其性能优于现有方法。

余子豪|李翔|张静

东南大学网络科学与工程学院，中国南京SEU路2号，211189

摘要

社交媒体上谣言的迅速传播凸显了迫切需要自动检测方法来维护社会信任和稳定。虽然现有的多模态谣言检测模型主要强调捕捉不同模态（例如新闻文本和图像）之间的一致性，但它们往往忽略了内在模态与社会模态之间的复杂相互作用。这一限制阻碍了全面理解所需细微关系的捕捉。此外，当前方法在有效融合社会背景与文本和视觉信息方面存在困难，导致解释结果片面。为了解决这些问题，本文提出了一种新的内在-社会模态对齐与融合（ISMAF）框架，用于多模态谣言检测。ISMAF首先采用跨模态一致性对齐策略来协调内在模态与社会模态之间的复杂交互，然后利用互学习方法促进跨模态互补信息的协作优化与整合。最后，引入了一种自适应融合机制，动态调整每种模态的贡献度，以应对三模态融合的复杂性。在英文和中文真实世界多媒体数据集上的广泛实验表明，ISMAF的性能始终优于现有最先进模型。

引言

随着数字时代的到来，社交媒体平台彻底改变了信息的传播方式，实现了快速沟通和广泛的内容共享。然而，这种便利性也促进了谣言的快速传播，可能会误导公众、造成经济损失，甚至引发社会动荡。根据2019年的一项研究[29]，由于错误信息和谣言造成的全球经济损失每年估计高达780亿美元。因此，准确检测谣言的能力对于维护社会信任和福祉至关重要。

早期的谣言检测方法主要集中在单模态文本分析上，使用循环神经网络（RNN）和卷积神经网络（CNN）等技术，仅基于语言模式对内容进行分类[23]，[55]。尽管这些基于文本的方法取得了一定的成功，但它们常常忽略了其他模态（尤其是视觉内容）中存在的宝贵信息。这一限制促使人们转向多模态检测方法[18]，[42]，[46]，[60]，这些方法整合了文本和视觉特征以获得更全面的信息理解。最近的研究[17]，[32]表明，通过利用不同数据源的互补优势，多模态方法可以显著提高检测准确性。

另一方面，对社会背景信息的利用揭示了有助于谣言检测的丰富背景维度。许多研究专门关注社会背景信息，考虑了时间序列[24]、用户反应[7]，[54]、社会事件互动[12]以及传播模式[8]，[9]，[22]，[56]等方面，以提高检测性能。鉴于社会背景信息在上述方法中的显著辅助作用，最近的研究[16]，[51]，[59]考虑将社会背景特征与文本和视觉特征相结合，进一步提升检测性能，通常通过対齐和数据融合策略实现[51]，[59]。除了社交媒体分析之外，其他领域的先前研究也强调了辅助信号的重要性，例如视频理解中的时空特征[15]、用于方面检测的混合文本表示[14]、用于观众情感建模的自适应信号[26]，以及用于城市气候监测的环境指标[34]。这些发现共同强调了辅助信息在提高模型鲁棒性方面的关键作用。

然而，即使整合了多模态内容和社会背景，现有方法在很大程度上仍忽略了内在-社会不一致性。如图1所示，内在模态包括帖子的核心内容，如文本和图像，而社会模态反映了现实世界社交媒体中用户、帖子和评论之间的关系，通常被建模为图。关键在于，这两种模态可能提供关于真实性的矛盾信号：一个基于精心撰写的文本或有说服力的图像而看似可信的帖子可能来源于一个以传播错误信息而臭名昭著的来源，而可疑内容可能通过在信誉良好的用户中传播而获得合法性。这种不一致性可能会严重误导仅依赖基于内容或基于背景特征的模型，因此需要明确捕捉内在模态与社会模态之间对应关系的方法。

本研究旨在以统一的方式弥合内在模态与社会模态之间的差距，捕捉它们之间的深层互动和对应关系，从而实现全面的多模态表示学习。这个问题既关键又具有挑战性，原因如下：

1.

内在-社会对应关系的探索有限：尽管现有研究[33]，[50]专注于新闻文本和图像之间的一致性，但对新闻内在模态与社会模态之间对应关系的探索仍然相对不足。然而，建模这种对应关系至关重要，因为内在模态和社会模态提供了关于新闻内容真实性的不同但互补的见解。

2.

三模态融合的挑战：尽管通过串联操作[18]，[41]和基于注意力的方法[49]，[59]等技术在融合文本和视觉模态方面取得了实质性进展，但这些方法通常依赖于固定的融合方案，难以有效模拟三种模态之间的复杂和动态交互。特别是，由于这些模态的异质性以及可能存在矛盾的语义线索，联合融合文本、图像和社会背景仍然是一个重大挑战。

受到上述挑战的启发，我们提出了一个简洁高效的内在-社会模态对齐与融合（ISMAF）框架，用于多模态谣言检测。对于谣言数据集中的每个帖子，我们从其文本和图像中提取内在模态特征，从构建的社会图中提取社会模态特征。为了解决内在-社会对应关系探索有限的挑战，我们设计了一个统一的方案，通过两个互补模块来桥接这些模态。第一个模块采用跨模态一致性对齐策略来协调内在模态与社会模态之间的复杂交互。第二个模块利用互学习方法促进这些模态之间的协作学习和优化，从而有效整合它们的互补信息。此外，为了应对三模态融合的复杂性，我们引入了一种自适应融合机制，根据每种输入的信息量动态调整每种模态的贡献度，这与通常为每种模态分配固定或预定权重的传统基于注意力的方法不同。这种设计能够生成灵活且鲁棒的多模态表示，从而提高整体检测性能。

我们方法的主要贡献如下：

•

ISMAF是第一个明确对齐和融合内在模态与社会模态的谣言检测框架。通过采用跨模态一致性对齐策略和互学习方法，ISMAF鼓励内在特征与其对应的社会特征紧密结合，从而增强模型捕捉复杂依赖关系的能力，并提高整体检测性能。

•

我们引入了一种自适应融合机制，根据每种模态的信息量动态调整其贡献度，使框架能够捕捉微妙的跨模态交互并生成更具表现力的多模态表示。

•

在两个真实世界数据集上的广泛实验一致表明，我们的ISMAF框架在谣言检测任务中的性能优于现有最先进基线，突显了其在捕捉内在模态与社会模态之间复杂交互方面的有效性。

本文的其余部分安排如下。第2节简要回顾了现有的谣言检测方法。第3节正式定义了研究问题。第4节详细介绍了提出的ISMAF框架。第5节展示了实验结果和讨论。第6节总结了本文并概述了未来的研究方向。

章节片段

单模态谣言检测

单模态谣言检测方法仅从新闻文本内容中提取特征。这些方法大致可以分为基于内容的方法和基于社会背景的方法，两者都以不同的方式利用文本内容信息。

基于内容的方法侧重于分析新闻内容的语言和风格特征[31]。一些研究通过识别不同的写作风格来检测假新闻，例如

问题表述

设

表示社交媒体上的一组多媒体帖子，其中每个帖子

包括文本内容

、相关图像

、发布用户

以及一组相关评论

。每条评论

由相应的用户

发布。

谣言检测任务被表述为一个二元分类问题：给定一个帖子

，目标是预测其标签

，其中

表示谣言，否则表示非谣言。目标是学习一个函数

，将每个帖子

映射到其对应的标签。

为了便于

数据集

鉴于我们的研究涉及利用文本、图像、用户和评论信息，我们精心选择了两个真实世界数据集作为代表性基准：Weibo[43]用于中国社交媒体，PHEME[55]用于英语社交媒体，与Zheng等人[59]和Xu等人[51]使用的数据集一致。

Weibo数据集来自中国最大的社交媒体平台之一Sina Weibo，PHEME数据集包括五个重大突发新闻事件的推文

结论

为了应对社交媒体上对强大谣言检测的迫切需求，本文介绍了内在-社会模态对齐与融合（ISMAF）框架，这是一种通过有效整合文本、视觉和社会背景信息来增强多模态谣言检测的新方法。与主要关注新闻内容（如文本和图像）内在特征对齐的传统模型不同，ISMAF解决了内在模态与社会模态之间复杂交互的问题

CRediT作者贡献声明

余子豪：撰写——原始草稿、软件、方法论、调查。李翔：撰写——审阅与编辑、验证、资源管理、数据整理。张静：撰写——审阅与编辑、监督、资金获取、概念化。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文所述的工作。

致谢

本工作得到了江苏省自然科学基金（资助编号BK20250200238）、东南大学启动研究基金（资助编号RF1028623059）、中央高校基本科研业务费（资助编号2242025K30025）以及东南大学大数据计算中心的支持。

余子豪在中国海洋大学获得了计算机科学与技术学士学位。他目前在中国南京的东南大学网络科学与工程学院攻读硕士学位。他的研究兴趣包括深度学习、多模态数据融合和谣言检测。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号