DAGG-Net：一种双自适应图与门控网络，用于多模态基于特征的 sentiment 分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年02月12日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　多模态细粒度情感分析中，本文提出DAGG-Net模型，通过动态语法加权机制优化文本结构感知，结合文本感知的视觉注意力图实现跨模态细粒度对齐，并采用文本置信度引导的自适应融合策略。实验在Twitter等数据集上验证其优于现有方法。

韩鸿宇|丁浩然|乔宝军|王亚迪|党兰雪|谢毅|王英琪|邹小梅

河南大学计算机与信息工程学院，河南大数据分析与处理重点实验室，开封，475001，中国

摘要

多模态基于方面的情绪分析旨在从文本-图像对中分析特定目标方面的情绪极性。其核心挑战在于实现细粒度对齐和噪声抑制。现有方法通常依赖于预定义的静态图结构，采用与模态无关的视觉特征提取策略，并在模态之间应用静态融合机制。这样的设计限制了模型在面对复杂多模态场景时的推理能力。我们提出了双自适应图和门控网络（DAGG-Net）来解决这一挑战，该网络为模型提供了结构感知和信息融合的自适应能力。在文本方面，我们构建了一个图卷积网络，整合了语义和句法路径，并通过基于节点特征交互的门控方法动态地为静态句法边分配权重。在视觉方面，我们利用注意力机制建立全局相关的视觉图，并通过图像-文本相似性感知的文本注入方法指导视觉编码，从而增强视觉情感线索。在融合阶段，我们引入了文本置信度门控机制来评估每种模态的贡献，实现多模态信息的自适应集成。实验结果在两个公共Twitter数据集上展示了最先进的性能，验证了所提出架构在处理复杂多模态基于方面的情绪分析任务中的优越性和有效性。

引言

基于方面的情绪分析（ABSA）主要分析用户对特定目标方面（如产品属性、个人或事件）的情绪极性。与传统的情绪分析不同，ABSA能够精确地识别各个方面的情绪极性，从而更细致地理解用户态度，并提供更大的实际价值（Cui, Wang, Ho, Cambria, 2023; Samaras, García-Barriocanal, Sicilia, 2023; Tan, Lee, Lim, 2023; Wankhade, Rao, Kulkarni, 2022）。随着社交媒体多模态性的增加，用户经常通过多种模态（如文本和图像）表达他们的态度。传统的单模态方法无法满足这些需求；因此，最近的研究提出了将视觉情感线索整合到ABSA框架中。多模态基于方面的情绪分析（MABSA）通过结合多种模态（如文本和图像）来识别每个特定方面的情绪极性，从而支持意见监控和推荐等任务（Ghorbanali & Sohrabi, 2023）。例如，在图1所示的多模态帖子中，文本和视觉内容共同表达了对于目标主题的态度。MABSA必须准确识别不同方面的情绪极性——例如图1(a)中对“阿斯顿维拉”这一方面的负面情绪，以及图1(b)中对“马库斯·克鲁格”和“帕拉特”这两个方面的不同情感立场。

近年来，MABSA已成为情绪分析中的一个重要研究方向。其主要挑战在于在处理跨模态噪声干扰的同时，实现视觉和文本数据之间的细粒度对齐。现有研究主要遵循两种技术范式：

(1) 注意力机制最初被用于计算机视觉，以模拟人类选择性注意力并增强信息提取能力（Xu et al., 2015）。在情绪分析任务中，研究人员利用它们来突出与正面和负面方面相关的信息。例如，Xu, Mao, & Chen (2019) 使用注意力机制学习跨模态交互和模态内自我影响。Yu, Jiang, & Xia (2019) 通过双向注意力生成了方面敏感的上下文特征以实现细粒度对齐。此外，研究人员探索了多种注意力应用：Lulu, Yan, & Jie (2022) 使用方面级注意力来加权跨模态的分布；Li et al. (2024) 改进了跨模态注意力交互，以捕捉模态内的情绪相关性，同时研究模态间的正面和负面情绪相关性；Yang, Zhao, & Qin (2022) 利用注意力在文本模态内选择性地匹配和融合目标方面。

(2) 为了捕获深层结构信息，研究人员将图卷积网络引入MABSA任务。Li & Li (2023) 构建了统一的多模态图，整合了文本和视觉信息，通过GCNs进行聚合。Zhong et al. (2023) 使用知识图增强网络提取语义和句法信息，有效地使用图卷积网络从不同角度融合情感特征。Xiao et al. (2023) 对文本和图像进行了图结构建模，使用多层图卷积网络实现细粒度对齐和聚合。Yang, Xu, Xiao, & Du (2024b) 基于文本和图像之间的粗粒度交互和句法关系构建了图结构，利用图卷积网络进行卷积特征聚合。

尽管近期研究取得了显著进展，现有方法仍面临几个挑战：(1) 在端到端训练过程中无法动态调整句法结构，导致无法充分捕捉关键的情感传播路径；(2) 视觉特征提取与文本分离，缺乏跨模态感知。此外，许多图像建模方法受感受野的限制，难以捕捉长距离语义关联；(3) 现有的融合策略依赖于固定的模态权重，但不同模态之间的损失差异导致模型无法有效平衡跨模态贡献。因此，我们提出了双自适应图和门控网络DAGG-Net来解决这些问题。(1) 我们引入了一种可学习的句法加权机制，动态地为静态句法边分配权重，然后通过GCN进行信息聚合和提取，从而克服了静态语法的限制；(2) 我们设计了一种文本感知的视觉注意力图机制，构建了一个由注意力驱动的全局视觉图，并提前注入文本信息，使视觉节点能够关注语义最相似的文本标记；(3) 我们采用了一种基于置信度的门控融合方法，利用文本预测置信度来评估不同模态的贡献，允许自适应融合决策，提高了MABSA的鲁棒性和准确性。

总结来说，我们的主要贡献如下：

(1) 我们提出了DAGG-Net，在结构理解和跨模态融合层面引入了自适应机制。

(2) 我们引入了一种文本感知的视觉注意力图（TAVAG）和一种可学习的句法加权策略，以提取强烈的情感线索，并结合基于置信度的融合机制来抑制噪声干扰。

(3) 在两个基准数据集Twitter-2015和Twitter-2017上的广泛实验展示了最先进的性能，而消融研究和视觉分析证实了该架构的有效性。

部分摘录

基于方面的情绪分析

ABSA是情绪分析中的一个重要研究方向，主要目标是提取文本中目标方面的情绪极性。以往的研究主要依赖于CNN/RNN进行独立预测（Chen, Sun, Bing, Yang, 2017, Xue, & Li）。随着注意力机制技术的引入，模型可以关注方面与上下文之间的交互。Yang, Zhang, Jiang, & Li (2019) 使用交替注意力网络框架进行建模

任务定义

给定一个多模态样本

m_{i} = {T_{i}, a_{i}, V_{i}}

，其中

T_{i} = (w_{1}, w_{2}, ?, w_{n ? 1}, w_{n})

表示n个词的推文中的标记序列；a_i是目标方面；V_i是与推文T_i相关联的图像；目标是预测与目标方面a_i相关的情绪极性y?∈?{negative,?neutral,?positive}。

模型概述

图2展示了DAGG-Net的总体架构，它包括三个核心组件：双路径文本表示（DPTR）、文本感知的视觉注意力图（TAVAG）

实验设置

数据集：我们在Yu和Xia（2019）发布的Twitter-2015和Twitter-2017基准数据集（Yu et al., 2019）以及MASAD数据集（Zhou, Zhao, Huang, Hu, & He, 2021）上进行了实验，以评估所提出模型在MBSA上的有效性。这两个Twitter数据集分别包含了2014–2015年和2016–2017年的多模态样本，如表1所示；MASAD数据集是一个新发布的多模态数据集，如表2所示，包含来自七个领域的样本，例如食品

可视化

我们进行了一项可视化实验，以研究在文本感知特征提取过程中视觉区域和文本词汇单元之间是否存在内在关联。具体来说，我们提取了视觉分支在前向传播过程中产生的图像-文本相似性矩阵，并为特定的文本元素生成了注意力分布热图。图5（左）展示了视觉节点和文本标记之间的相似性矩阵。几个明亮的垂直线条

结论

本文提出了一种以图-文本协同处理为中心的双自适应图和门控网络。通过多级自适应机制，它提高了模型在结构感知和信息融合方面的适应性。我们采用双路径并行架构来共同编码语义信息并优化句法信息，同时通过文本感知的注意力图实现跨模态感知。在融合过程中，基于文本置信度的自适应加权

CRediT作者贡献声明

韩鸿宇：概念化、形式分析、调查、方法论、验证、写作——审阅与编辑、监督、资金获取。丁浩然：概念化、形式分析、调查、方法论、验证、可视化、写作——初稿、写作——审阅与编辑。乔宝军：调查、写作——审阅与编辑、资金获取。王亚迪：概念化、方法论、写作——审阅与编辑、监督。党兰雪：写作——审阅

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言