基于评分的互补增强方法在多模态情感分析中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Information Fusion》：Grading-Inspired Complementary Enhancing for Multimodal Sentiment Analysis

【字体：大中小】 时间：2026年01月24日 来源：Information Fusion 15.5

编辑推荐：

　　针对多模态情感分析中模态融合效率低的问题，本文提出GCE框架。通过动态评估模态对任务的相关性，将模态对分为主导和辅助分支，设计关系过滤模块抑制冗余信息，并自适应调整权重。实验表明GCE在三个基准数据集上优于现有方法。

黄志静|何文珏|胡宝天|张正

哈尔滨工业大学计算机科学与技术学院，深圳，518055，中国

摘要

由于在整合异构多源信息方面的强大能力，多模态情感分析（MSA）在情感计算领域取得了显著进展。然而，现有方法通常采用对称融合策略，将所有模态平等对待，忽略了它们在表现上的固有差异：某些模态在区分性表示方面表现出色，而其他模态则携带了未被充分利用的辅助线索。这一限制导致跨模态互补相关性探索不足。为了解决这个问题，我们提出了一种基于分级的互补增强（GCE）框架，这是首次尝试对渐进式多模态融合与合作中的知识转移进行动态评估的方法。具体而言，该框架基于跨模态交互，通过任务感知的分级机制将模态对关联分为主导（高性能）和辅助（低性能）两类。随后，关系过滤模块选择性地从主导类别中识别出可靠的信息，以增强辅助模态对之间的一致性探索，并尽量减少冗余。最后，权重调整模块动态调整各个样本的引导权重，以提高适应性和泛化能力。在三个基准数据集上进行的广泛实验表明，我们提出的GCE方法优于现有的MSA方法。我们的代码可在https://github.com/hka-7/GCEforMSA获取。

引言

多模态情感分析（MSA）已成为情感计算中的核心技术[1]，在市场营销[2]、社交媒体分析[3]和人机交互[4]等领域有广泛的应用。与单模态方法不同，后者由于信息范围有限，往往无法完全捕捉情感表达的复杂性[5]，而MSA通过综合来自音频、文本和视频等多种来源的信息，能够更细致、更准确地解读人类情感，并因此引起了大量研究兴趣，尤其是在有效获得具有代表性的简洁共识表示的高级融合策略方面。

对于MSA来说，一个关键瓶颈是如何从每种模态中高效提取与任务相关的信息，并对其进行集体利用以实现精确的情感预测。已经提出了诸如几何运算[6]、[7]、基于变压器的融合[8]、特征拼接[9]和层次融合[10]、[11]等技术来有效结合多模态信息。在这些基础融合框架的基础上，出现了许多特征增强策略，包括特征解耦[12]、知识蒸馏[13]、[14]和模态互信息利用[15]。例如，Li等人[14]将知识蒸馏融入变压器中以促进跨模态对齐，而Fan等人[16]采用多层次对比学习来缓解模态异质性。

尽管最近取得了进展，主流的MSA方法仍然采用统一的融合策略，将所有模态平等对待，忽略了它们在表示能力和区分能力上的内在差异，这导致在传递情感信息方面表现不可靠。更具体地说，虽然某些模态能够真实地表达情感线索，但其他模态虽然可能包含有用信息，却需要更深入的挖掘才能揭示其互补价值。例如，在社交媒体信号中，文本通常提供稳定的语义内容，而面部微表情对于准确的情感推断至关重要，但由于光照变化可能导致质量下降。因此，平等对待各种模态可能会导致冗余，并抑制较弱模态中嵌入的关键线索，从而限制了多模态融合的效果。为了解决这些限制，一些方法[17]、[18]根据不同模态对任务的贡献为其分配不同的权重。尽管这些方法认识到了模态之间的差异，但它们要么抑制了较弱模态中的信息，要么完全忽略了这些信息，从而削弱了跨模态的协同效应，导致结果不佳。另一类受知识蒸馏启发的方法[15]、[19]、[20]为非对称融合指定了一个固定的主导模态。然而，这些策略假设存在一个始终更强的模态，并忽略了MSA中不同样本和领域中模态的区分能力差异，导致学生模态的特征退化。

为了解决上述问题，本文提出了一种基于分级的互补增强（GCE）框架，该框架根据成对融合模态的性能分级动态进行引导性的跨模态知识转移，以增强跨模态的协同作用。具体而言，GCE采用渐进式融合策略，首先通过跨模态交互融合嵌入良好的单模态特征，生成编码单模态信息及其模间互补依赖关系的模态对。基于初步融合结果，引入分级机制根据情感识别性能动态将关联分为主导和辅助两类。其中，主导关联被认定为具有最高的区分性能，而其余次优关联则被视为辅助关联。此外，GCE不是无条件地将学生特征与教师特征对齐，而是对主导特征的可靠性进行更深入的评估，并设计关系过滤机制来抑制冗余关系，同时增强跨模态学习中的信息性和互补性交互。权重调整模块动态调整样本特定的引导权重，以实现稳健的关系过滤；双粒度融合模块整合单模态特征和增强的互补信息，从而实现全面的情感分析。通过明确利用模态性能层次结构和跨模态指导，GCE解决了现有方法中次优的统一融合问题，为高效的多模态互补性利用提供了新的范式。总结如下：

•

我们提出了一种基于分级的互补增强（GCE）框架，用于多模态情感分析。据我们所知，这是首次为MSA中的增强型多模态互补学习制定动态任务指定分级架构的工作。与现有的直接融合或固定传输方法不同，我们的工作开创了一种灵活且性能敏感的知识转移范式，能够高效、适应性地利用跨模态信号进行准确的情感理解。

•

我们设计了一种任务感知的分级机制和随后的主导引导关系过滤模块，通过动态评估和排名每对模态的区分能力来指导知识转移，从而实现信息丰富且冗余压缩的跨模态通信。

•

在三个基准数据集上进行的广泛实验证明了我们提出的GCE方法的优越性和有效性，其性能优于当前最先进的MSA算法。

部分摘录

多模态情感分析

多模态情感分析旨在通过整合来自音频、视频和文本等多种模态的数据，精确捕捉和解读人类情感。与单模态识别相比，它利用了不同模态的互补性，从而突显了有效模态融合方法的关键重要性。

在多模态情感分析中提出了多种多模态融合和跨模态对齐方法，以全面探索情感

方法

传统的基于知识转移的MSA方法通常忽略不同数据之间的表示能力差异，强制所有模态从预先指定的模态学习，导致传播的知识中出现冗余和噪声。在本节中，我们将详细介绍我们提出的GCE方法来解决这个问题。具体来说，我们首先在§3.1中定义了多模态情感分析任务的问题和符号表示。

数据集和实验设置

我们使用三个公开可访问的数据集来评估我们的GCE方法与对比模型的性能。CMU-MOSI数据集包含来自93个YouTube独白的2199个视频片段，评分范围为

? 3

+ 3

。CMU-MOSEI数据集更大，包含来自1000位YouTube演讲者的23454个片段，评分范围同样为

? 3

+ 3

? 1

。表1概述了这三个数据集在训练集和测试集上的划分情况。

结论

在本文中，我们介绍了一种基于分级的互补增强框架（GCE），用于多模态情感分析。与之前缺乏模态间区分能力的方法不同，我们的GCE框架引入了模态分级模块，根据模态在情感分析任务中的表现将模态对关联分为主导和辅助两类，使模型能够充分利用每种模态的固有信息。此外，关系

CRediT作者贡献声明

黄志静：方法论、数据整理、概念化。何文珏：方法论、调查、概念化。胡宝天：写作——审阅与编辑、可视化、方法论。张正：写作——审阅与编辑、初稿撰写、监督、方法论、资金获取、形式分析、概念化。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

部分摘录

多模态情感分析

方法

数据集和实验设置

结论

CRediT作者贡献声明

利益冲突声明

热点排行