EAGNet：一种基于增强型视角引导的异构图注意力网络，用于多模态视角情感分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：EAGNet: Enhanced aspect-guided heterogeneous graph attention network for multimodal aspect-based sentiment analysis

【字体：大中小】 时间：2026年01月29日 来源：Neurocomputing 6.5

编辑推荐：

　　本文提出EAGNet模型，通过命名实体识别增强方面语义，利用CLIP中间层特征捕捉全局和细粒度视觉信息，构建异构多模态交互图并采用图注意力机制进行约束信息传播，有效解决现有方法在语义接地、跨模态对齐和分层语义建模上的不足，实验表明其性能优于基线方法。

Lixia Zhang|Jianhui Zhang|Kangshun Li

华南农业大学数学与信息学院，中国广东省广州市510642

摘要

多模态基于方面的情绪分析（MABSA）旨在结合图像和文本信息来推断对特定方面的情绪极性。尽管最近的方法通过基于注意力的多模态交互取得了进展，但它们仍然存在方面-图像关联建模不足和跨模态特征关系利用有限的问题。为了解决这些问题，本文提出了一种增强型方面引导的异构图注意力网络（EAGNet），该网络从以方面为中心和受限的多模态推理角度出发来处理MABSA。具体而言，EAGNet通过命名实体识别（NER）动态增强方面表示，提供明确的语义先验以支持图像中的可靠方面定位。此外，还利用CLIP模型的中间层特征来捕捉全局上下文语义和细粒度的局部视觉线索，从而提高方面感知的跨模态对齐能力。另外，构建了一个异构多模态交互图来明确组织粗粒度和细粒度的文本和视觉特征，并使用图注意力网络（GAT）在模态之间实现结构化和受限的信息传播。在Twitter-2015、Twitter-2017和大规模MASAD数据集上的广泛实验表明，EAGNet一致性地优于现有的最佳基线模型，证实了其在MABSA中的有效性和鲁棒性。

引言

基于方面的情绪分析（ABSA）是情绪分析中的一个重要且细致的任务，它关注于识别用户对特定方面的情绪态度，而不是整体文本。与句子级或文档级的情绪分类相比，ABSA提供了更精确和有信息量的情绪理解，因此一直受到持续的研究关注[1]。

随着Twitter和TikTok等社交媒体平台的快速发展，用户生成的内容越来越多地包含文本描述和视觉信息。这一变化推动了情绪分析从单模态文本向多模态场景的演变，特别是基于图像和文本的情绪理解[2]、[3]。图1展示了我们数据集中的两个例子，其中同一多模态输入下不同目标方面的情绪极性有所不同。为了在方面层面正确推断情绪，有效利用互补的文本语义和视觉线索至关重要。近年来，开发了各种多模态融合模型，基于注意力的交互机制已成为主流[4]、[5]、[6]、[7]、[8]。然而，现有研究仍面临几个关键挑战。

(1)

方面-图像语义定位不足。许多研究[7]、[9]、[10]仅依赖文本方面嵌入来指导多模态交互。然而，在Twitter风格的数据中，方面通常是命名实体（例如组织、人物、地点），如图1(a)所示。如果不明确建模方面的语义类型和上下文先验，方面表示与图像特征之间的直接交互可能会激活视觉上不相关的区域，引入与方面无关的噪声，这些噪声会通过后续的多模态推理传播并降低预测的稳定性。尽管一些工作尝试丰富方面线索[11]，但它们一致提取真正与方面相关的证据的能力仍然有限。因此，如何建立可靠的方面感知语义定位并动态抑制无关的视觉干扰仍然是实现鲁棒多模态情绪推理的基本挑战。

(2)

视觉编码器的跨模态对齐能力有限。许多现有的MABSA方法[8]、[12]、[13]采用ResNet作为图像主干网络。尽管ResNet在视觉任务中表现强劲，但它主要是为单模态感知而非跨模态对齐而训练的。面对具有复杂场景或多个实体的图像时，ResNet特征往往无法准确对应文本方面，导致多模态交互有偏差，视觉潜力的利用不足。这突显了利用本质上具有更强图像-文本对齐能力的视觉表示的必要性，尤其是在方面层面。

(3)

层次化多模态语义建模不足。大多数现有模型[4]、[6]、[14]依赖于模态之间的基于注意力的查询，通常将一种模态的全局信息与另一种模态的局部证据对齐。

然而，文本和图像都包含层次化语义，包括全局上下文意义和细粒度的局部线索。简单假设不同语义粒度的特征可以直接对齐可能会放大不匹配并引入噪声[15]，特别是在局部特征缺乏足够语义抽象时。因此，在原则性的交互框架内实现粗粒度和细粒度多模态信息之间的结构化融合仍然是一个具有挑战性的问题。

为了解决这些挑战，我们提出了增强型方面引导的异构图注意力网络（EAGNet），该网络从以方面为中心和受限的推理角度出发来处理多模态基于方面的情绪分析。首先，EAGNet通过命名实体识别（NER）动态识别方面语义类型，提供明确的语义先验以支持可靠的方面定位。其次，EAGNet不仅依赖全局视觉特征，还从CLIP中提取中间层的局部特征，这些特征天然具有更强的图像-文本对齐能力，并共同捕捉全局场景上下文和细粒度的方面相关证据。最后，构建了一个异构多模态交互图（HMIG）来明确组织不同语义粒度的文本、视觉和方面特征。然后使用基于图注意力的受限消息传递来调节信息传播，实现粗粒度和细粒度多模态语义的结构化融合。

本文的主要贡献总结如下：

(1)

我们提出了一种方面语义增强策略，明确结合了目标方面的语义类型信息和上下文线索，使得在多模态交互过程中更可靠地识别与方面相关的视觉证据，并减少噪声传播。

(2)

我们利用CLIP的中间视觉表示来共同捕捉全局上下文语义和细粒度的局部证据，从而超越了传统的基于ResNet的编码器，增强了方面感知的跨模态对齐能力。

(3)

我们设计了一个异构多模态交互图，实现了受限的跨模态推理。通过在统一图中明确建模层次化的文本和视觉特征，并应用基于图注意力的消息传递，我们的框架实现了结构化的多模态融合，而不是直接的对齐。

(4)

在两个Twitter基准测试和大规模MASAD数据集上的广泛实验证明了所提出的EAGNet的有效性、鲁棒性和泛化能力。

本文的其余部分组织如下。第2节回顾相关工作。第3节详细介绍了提出的EAGNet。第4节报告实验结果和分析。第5节总结了本文并讨论了未来的研究方向。

章节片段

基于方面的情绪分析

基于方面的情绪分析（ABSA）旨在识别对特定意见目标的情绪极性，而不是整个句子层面的情绪，已在自然语言处理社区得到了广泛研究[16]、[17]、[18]。早期的方法主要依赖于情感词典[19]、[20]和传统的机器学习分类器[21]。随着深度学习的发展，引入了基于神经网络的模型，如CNN和RNN来捕捉上下文语义[22]、[23]，而最近

方法论

在本节中，我们首先定义了任务，然后介绍了所提出的EAGNet的建模原理和整体框架，接着详细描述了每个模块。

实验数据和设置

数据集：我们在三个多模态基于方面的情绪分析基准测试上评估了所提出的模型，包括Twitter-2015、Twitter-2017和最近发布的MASAD数据集。

Twitter-2015和Twitter-2017是MABSA社区中最广泛使用和标准的基准测试，并已被大多数现有代表性工作采用。因此，它们为与最先进模型的比较提供了公平和权威的基础。这两个数据集都是从真实

结论和未来工作

在本文中，我们提出了EAGNet来解决多模态基于方面的情绪分析中的几个关键挑战。EAGNet首先将SenticNet情感知识和相对位置信息整合到语法感知的依存图中，以获得增强情感和语法的信息表示。然后，它采用基于命名实体识别的方面语义增强策略来提取富含上下文语义的方面类型信息，从而实现更准确的语义

CRediT作者贡献声明

Lixia Zhang：撰写——原始草稿，可视化，监督，项目管理，资金获取，形式分析。Jianhui Zhang：撰写——审阅与编辑，撰写——原始草稿，验证，方法论，调查，数据管理。Kangshun Li：撰写——审阅与编辑，软件，资源，资金获取，概念化。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了中国国家重点研发计划（2024YFC2814400）和中国国家自然科学基金（项目编号62366003）的支持。

Lixia Zhang分别于2000年和2003年在吉林大学获得计算机科学学士和硕士学位，2017年在华南农业大学获得农业自动化博士学位。她的主要研究兴趣包括图像处理、机器学习、人机交互和信息可视化。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号