多粒度对齐与跨模态推理在假新闻视频解释中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：Multi-granularity alignment and cross-modal reasoning for fake news video explanation

【字体：大中小】 时间：2026年02月12日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　针对假新闻视频解释生成中多粒度语义对齐不足的问题，提出MGAR框架，通过名词-帧级特征、动词-运动级特征的对齐与统一残差结构多粒度语言模块的推理，实现细粒度语义融合与深度分析，实验表明其BLEU-1和ROUGE-L分别提升10.1%和11.1%。

程超|蒋薇薇

重庆财经学院，中国重庆，402160

摘要

虚假新闻视频解释生成旨在通过深入分析新闻视频内容来提供准确且富有洞察力的解释。然而，现有方法通常将视频上下文与整体描述对齐，并通过多模态融合生成解释，往往忽略了名词和动词等关键语义元素的丰富细节。为了解决这一限制，本文提出了一个统一的人工智能（AI）框架，称为多粒度对齐与推理（MGAR）。MGAR不仅关注整体描述的语义对齐，还深入研究语言中的语义元素，特别是名词和动词，并将它们与虚假新闻视频的帧级和运动级特征进行对齐，以实现多粒度推理。此外，我们设计了一个统一的残差结构多粒度语言模块，该模块采用上下文交换机制（例如，词级和句级）来适应不同粒度的语义理解。在FakeVE数据集上的广泛实验表明，MGAR的性能优于现有最佳方法，BLEU-1提高了+10.1%，ROUGE-L提高了+11.1%，展示了AI在打击虚假信息方面的潜力。

引言

在当今信息爆炸的时代，虚假新闻视频的传播带来了许多负面社会影响，例如误导公众认知（Zhang, 2022）和扰乱社会秩序（Majerczak和Strzelecki, 2022）。因此，有效识别和解释虚假新闻视频已成为一个亟待解决的关键问题。虚假新闻视频解释（FNVE）生成任务（Chen等人，2025）应运而生，旨在通过彻底分析新闻视频的内容来生成准确且富有洞察力的解释（Sundar等人，2021）。这有助于用户理解为什么某个视频被认定为虚假新闻，从而提高公众对信息真实性的认识，并促进更健康的信息生态系统。

当前虚假新闻视频解释生成面临的主要挑战是：现有方法（Lewis等人，2020；Yao等人，2023；Qi等人，2024；Liu等人，2022）通常仅在视频上下文和整体描述之间进行简单的多模态融合，而忽略了名词（例如“人物”、“场景”）和动词（例如“动作”、“移动”）等关键语义元素的丰富细节。这种粗粒度对齐导致生成的解释缺乏对视频中特定对象和运动行为的深入分析，难以揭示虚假新闻视频中的矛盾或错误。例如，视频中人物的动作可能与描述中的动词相矛盾，或者场景中的物体可能与基于名词的描述不符。这些问题需要更细粒度的语义对齐和推理来解决。

现有方法在解决上述问题时面临重大挑战。首先，视频的时间特性（McCrae等人，2022）及其多模态特性（Qi等人，2023）使得语义对齐变得复杂，特别是在将名词与帧级特征和动词与运动级特征有效关联方面。其次，语言模型对整体描述的依赖可能导致忽略关键语义元素（Wang等人，2025），从而影响解释的准确性。此外，数据集中描述与视频内容之间的内在相关性（Guo等人，2024）可能导致模型过度依赖表面特征，而缺乏更深层次的语义理解。这些挑战需要设计一种新的方法，同时解决多粒度语义对齐和上下文推理问题。

为了克服现有方法的局限性，本文提出了一个统一的多粒度对齐与推理（MGAR）框架，如图1所示。MGAR框架不仅关注整体描述级别的语义对齐（Musi等人，2022），还深入分析语言语义元素，特别是名词和动词，并将它们与虚假新闻视频的帧级和运动级特征进行对齐，以实现多粒度推理。具体而言，MGAR框架包含一个统一的残差结构多粒度语言模块，该模块采用上下文交换机制（例如，词级和句级）来适应不同粒度的语义理解。这种设计确保模型能够完全捕捉到细粒度的语言细节，并与视频内容实现深度整合。

为了验证所提出的MGAR框架的有效性，我们在FakeVE数据集（Chen等人，2025）上进行了实验。实验结果表明，该方法在生成准确解释方面表现出色。与现有方法相比，MGAR框架更好地捕捉了关键语义元素，并在多粒度语义对齐和推理方面具有明显优势。生成的解释不仅在准确性上有所提高，还提供了更丰富和更有洞察力的分析，帮助用户更清楚地理解虚假新闻视频中的欺骗性元素。我们的贡献包括：

●
我们提出了一个针对虚假新闻视频解释生成的多粒度对齐与推理（MGAR）框架。该框架系统地结合了名词与帧级特征之间的细粒度语义对齐，以及动词与运动级特征之间的细粒度语义对齐，据我们所知，这在FNVE任务中尚未得到全面探索。
●
我们设计了一个具有残差结构连接的统一多粒度语言模块，以适应不同粒度的语言表示，并生成更具区分性的解释。
●
我们在基准FakeVE数据集上进行了广泛的实验验证。所提出的方法取得了新的最佳性能，证明了每个推理模块的有效性。

部分片段

虚假新闻视频解释

虚假新闻视频的解释旨在为被识别为虚假信息的视频提供详细的理由，并阐明它们被认为不可信的原因。这项任务对于提高公众对虚假新闻的认识和减少虚假信息的传播具有重要意义（Bu等人，2024；Wang等人，2023）。传统的虚假新闻检测方法专注于通过融合多种模态的信号来识别虚假信息，并取得了

方法论

本文提出了一个名为MGAR的虚假新闻视频解释生成模型，如图2所示。该模型主要由两个部分组成：一个用于增强视觉内容理解的视觉特征解析分支，以及一个旨在提高语言解释能力的语言建模分支。除了对整体视频内容的基础理解外，视觉特征解析分支还特别结合了一种融合基于名词的实体和

数据集

我们在FakeVE（Chen等人，2025）上进行了实验研究，这是目前最大、最全面的公开可用FNVE数据集，关键统计信息总结在表1中。FakeVE包含来自三个主要社交平台（Twitter、YouTube和TikTok）的2672个样本，按8:1:1的比例分为训练集、验证集和测试集。每个样本都经过了专业的帧级多模态分析、伪造类型分类和解释性文本的标注，

结论

所提出的多粒度对齐与推理（MGAR）框架通过其创新的双路径对齐机制，在虚假新闻视频解释生成方面取得了重大突破，该机制解耦了名词-帧和动词-运动特征之间的相关性。实验结果表明，MGAR在FakeVE数据集上的性能优于现有最佳模型，具有两个核心贡献：1）采用动态注意力的残差结构多粒度语言模块

CRediT作者贡献声明

程超：可视化、软件、方法论、资金获取、概念化。蒋薇薇：写作 – 审稿与编辑、写作 – 原稿撰写、软件、方法论、资金获取、数据管理。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

部分片段

虚假新闻视频解释

方法论

数据集

结论

CRediT作者贡献声明

利益冲突声明

热点排行