基于方面的情绪分析(ABSA)主要分析用户对特定目标方面(如产品属性、个人或事件)的情绪极性。与传统的情绪分析不同,ABSA能够精确地识别各个方面的情绪极性,从而更细致地理解用户态度,并提供更大的实际价值(Cui, Wang, Ho, Cambria, 2023; Samaras, García-Barriocanal, Sicilia, 2023; Tan, Lee, Lim, 2023; Wankhade, Rao, Kulkarni, 2022)。随着社交媒体多模态性的增加,用户经常通过多种模态(如文本和图像)表达他们的态度。传统的单模态方法无法满足这些需求;因此,最近的研究提出了将视觉情感线索整合到ABSA框架中。多模态基于方面的情绪分析(MABSA)通过结合多种模态(如文本和图像)来识别每个特定方面的情绪极性,从而支持意见监控和推荐等任务(Ghorbanali & Sohrabi, 2023)。例如,在图1所示的多模态帖子中,文本和视觉内容共同表达了对于目标主题的态度。MABSA必须准确识别不同方面的情绪极性——例如图1(a)中对“阿斯顿维拉”这一方面的负面情绪,以及图1(b)中对“马库斯·克鲁格”和“帕拉特”这两个方面的不同情感立场。
近年来,MABSA已成为情绪分析中的一个重要研究方向。其主要挑战在于在处理跨模态噪声干扰的同时,实现视觉和文本数据之间的细粒度对齐。现有研究主要遵循两种技术范式:
(1) 注意力机制最初被用于计算机视觉,以模拟人类选择性注意力并增强信息提取能力(Xu et al., 2015)。在情绪分析任务中,研究人员利用它们来突出与正面和负面方面相关的信息。例如,Xu, Mao, & Chen (2019) 使用注意力机制学习跨模态交互和模态内自我影响。Yu, Jiang, & Xia (2019) 通过双向注意力生成了方面敏感的上下文特征以实现细粒度对齐。此外,研究人员探索了多种注意力应用:Lulu, Yan, & Jie (2022) 使用方面级注意力来加权跨模态的分布;Li et al. (2024) 改进了跨模态注意力交互,以捕捉模态内的情绪相关性,同时研究模态间的正面和负面情绪相关性;Yang, Zhao, & Qin (2022) 利用注意力在文本模态内选择性地匹配和融合目标方面。
(2) 为了捕获深层结构信息,研究人员将图卷积网络引入MABSA任务。Li & Li (2023) 构建了统一的多模态图,整合了文本和视觉信息,通过GCNs进行聚合。Zhong et al. (2023) 使用知识图增强网络提取语义和句法信息,有效地使用图卷积网络从不同角度融合情感特征。Xiao et al. (2023) 对文本和图像进行了图结构建模,使用多层图卷积网络实现细粒度对齐和聚合。Yang, Xu, Xiao, & Du (2024b) 基于文本和图像之间的粗粒度交互和句法关系构建了图结构,利用图卷积网络进行卷积特征聚合。
尽管近期研究取得了显著进展,现有方法仍面临几个挑战:(1) 在端到端训练过程中无法动态调整句法结构,导致无法充分捕捉关键的情感传播路径;(2) 视觉特征提取与文本分离,缺乏跨模态感知。此外,许多图像建模方法受感受野的限制,难以捕捉长距离语义关联;(3) 现有的融合策略依赖于固定的模态权重,但不同模态之间的损失差异导致模型无法有效平衡跨模态贡献。因此,我们提出了双自适应图和门控网络DAGG-Net来解决这些问题。(1) 我们引入了一种可学习的句法加权机制,动态地为静态句法边分配权重,然后通过GCN进行信息聚合和提取,从而克服了静态语法的限制;(2) 我们设计了一种文本感知的视觉注意力图机制,构建了一个由注意力驱动的全局视觉图,并提前注入文本信息,使视觉节点能够关注语义最相似的文本标记;(3) 我们采用了一种基于置信度的门控融合方法,利用文本预测置信度来评估不同模态的贡献,允许自适应融合决策,提高了MABSA的鲁棒性和准确性。
总结来说,我们的主要贡献如下:
(1) 我们提出了DAGG-Net,在结构理解和跨模态融合层面引入了自适应机制。
(2) 我们引入了一种文本感知的视觉注意力图(TAVAG)和一种可学习的句法加权策略,以提取强烈的情感线索,并结合基于置信度的融合机制来抑制噪声干扰。
(3) 在两个基准数据集Twitter-2015和Twitter-2017上的广泛实验展示了最先进的性能,而消融研究和视觉分析证实了该架构的有效性。