编辑推荐:
动态模态重要性与级联交叉注意力融合的多模态情感分析框架DMIC2通过动态评估各模态贡献并设计级联注意力机制,有效整合异构信息以提升情感理解准确性,在CMU-MOSI和CMU-MOSEI上达到SOTA性能,并在MELD数据集上表现竞争。
Jinming Ping | Ruicong Zhi | Shufan Guo | Yuewu Hou | Xiaoyuan Liang | Fei Wan
北京科技大学计算机与通信工程学院,中国北京
摘要
使计算机能够像人类一样理解和感知情感一直是人工智能领域的一个重要研究方向。多模态情感分析通过整合和建模异构信息源,已成为实现这一目标的关键方法之一。在解读他人情感时,人类依赖于多种模态,并选择性地关注最显著的模态。然而,以往的方法很少考虑模态贡献的动态变化,通常会赋予它们一个固定的顺序,例如假设所有模态的贡献相同,或者始终将文本作为主导模态。这样的分配机制限制了模型对不同情境下模态贡献变化的适应性,从而降低了其情感解读的准确性。为此,我们提出了DMIC2,一个结合了动态模态重要性和级联交叉注意力的多模态情感分析框架。DMIC2主要由两部分组成:(1)动态模态贡献评估模块,该模块根据每个模态的质量和相关性自适应地评估其贡献,并动态生成一个反映它们相对重要性的排名;(2)基于级联交叉注意力的多模态融合模块,该模块逐步捕捉由模态贡献排名所指导的模态间相关性。通过从信息量最大的模态到最小的模态进行分层融合,该模块有效地整合了异构信息,以实现更精确的情感解读。在本研究中进行的广泛实验验证了DMIC2的有效性,在CMU-MOSI和CMU-MOSEI数据集上取得了领先性能,在MELD数据集上也表现出了竞争力。
引言
理解和回应人类情感是人工智能(AI)的一个基本目标,这根植于情感计算领域。近年来,多模态情感分析(MSA)作为一种强大的范式出现,它通过整合文本、音频和视频等异构信号来推断情感状态[1]、[2]、[3]。与单模态方法[4]、[5]、[6]、[7]、[8]相比,MSA利用跨模态的互补信息,提供了更全面和准确的情感内容解读。
早期的MSA研究主要依赖于特征级和决策级融合策略。特征级融合将特定模态的特征合并为联合表示以进行分类,而决策级融合则结合每个模态独立做出的预测。然而,这些方法往往无法有效建模细粒度的跨模态交互,并通常假设模态间的关系是静态的。为了克服这些限制,人们提出了更复杂的技术,包括将异构特征映射到共享潜在空间的特征空间对齐,以及基于Transformer的架构,后者通过自注意力和交叉注意力机制捕捉复杂的跨模态依赖性。这些技术创新优化了跨模态信息的交互整合机制,显著提高了表示复杂情感语义的能力。
尽管有这些改进,但仍有一个关键挑战尚未得到充分探索:模态的重要性本质上是动态的。在现实世界场景中,每个模态的贡献会因上下文线索和信号质量而变化。如图1所示,我们考虑了电视剧《怪奇物语4》中的一个对话片段。仅从文本层面来看,说话者Max似乎表达了积极的情感:她称赞Dustin的T恤“很酷”,并明确询问是否可以得到一件。从这个角度来看,以文本为中心的多模态模型会自然地将这句话解读为对提议活动的热情。然而,视觉和听觉线索传达了截然不同的信息。Max夸张的面部表情、俏皮的微笑和讽刺的语气强烈表明她是在讽刺而不是真正同意。当考虑到更广泛的对话背景时,就清楚地看到她是在嘲笑这个提议,并没有参与的真正意图。
这个例子暴露了固定模态优先级的一个关键局限性。当默认假设文本线索占主导地位时,多模态系统容易产生有偏见的甚至完全错误的预测。相比之下,只有当允许视觉和听觉模态覆盖文本的字面意义时,说话者的真实沟通意图才会显现出来。在自然的人类交流中,这种情况并不罕见。讽刺、戏弄或故意保持社交距离等情感通常是通过非语言信号而不是明确的措辞来表达的。这些观察结果激发了对动态模态优先级的需求,在这种优先级中,每个模态的相对重要性是由具体情境决定的,而不是预先定义的。在CMU-MOSI等基准数据集上的实证观察也表明,模态贡献在不同样本间可能存在很大差异,这进一步证明了需要一个动态且考虑上下文的融合机制。静态融合策略——如平等对待所有模态或赋予固定优先级——难以适应这种变异性。虽然一些研究[10]、[11]、[12]试图通过基于自动编码器的共享空间或知识引导的注意力机制来调整模态重要性,但这些方法通常依赖于辅助信号或相关性启发式来重新加权模态,而不是以完全数据驱动的方式明确识别主导模态和辅助模态。相比之下,准确发现模态主导性并直接利用它来重组融合结构仍然是一个关键的未解决问题。
认识到模态重要性是动态的,自然引出了一个后续问题:一旦确定了模态的相对重要性,应该如何融合多模态信息?大多数现有的融合策略隐含地假设模态可以以平坦或对称的方式整合,要么平等对待所有模态,要么在单步注意力机制中聚合它们。然而,当模态对情感理解的贡献不同时,这种统一的融合可能会稀释来自主导模态的关键信号或放大来自信息量较少模态的噪声。从认知和计算的角度来看,首先基于最具有信息量的模态进行情感推断,然后逐步整合辅助模态以细化或 contextualize 预测更为合理。这促使我们提出了一个分层融合范式,其中模态根据其估计的重要性按顺序整合。级联注意力结构自然实现了这一理念:它允许模型依次建模模态间交互,同时保持主导模态的优先性,并控制来自次要线索的信息流。
为了解决这个问题,我们提出了动态模态重要性和级联交叉注意力框架(DMIC2),这是一个用于多模态情感分析的新框架,它联合建模了动态模态重要性和分层跨模态交互。具体来说,我们设计了一个专门的模块,该模块由精心构建的损失函数指导,以学习每个模态对情感分析的相对贡献,并生成一个模态贡献排名。基于这个学习到的排名,我们提出了一个级联交叉注意力融合模块,逐步捕捉模态间相关性,并从信息量最大的模态到最小的模态进行分层整合。这种设计使模型能够有效地整合异构信息,实现更全面和准确的情感理解。总结来说,我们的主要贡献如下:
- 1.
DMIC2
是一个用于多模态情感分析的新框架,能够动态估计模态重要性,并根据它们的贡献排名自适应地融合异构模态。这种设计使得情感表示学习更加灵活和有效。
2.开发了一个专门的模态贡献评估模块,利用特定任务的损失函数来评估每个模态的质量和情感相关性。由此产生的可解释的重要性排序指导了后续的融合过程。
3.为了进一步增强模态间交互,设计了一个级联交叉注意力融合模块。它逐步捕捉模态间依赖性,并从信息量最大的模态到最小的模态进行分层整合,从而促进细粒度的交互建模并更好地利用互补的模态线索。
4.在CMU-MOSI和CMU-MOSEI上的广泛实验表明,DMIC2
取得了领先性能,而在依赖于上下文的数据集MELD上的额外评估进一步证实了其在复杂多模态环境中的竞争力。
多模态情感分析中的融合策略
融合是多模态情感分析(MSA)的核心,因为它决定了如何将异构信号(例如文本、音频和视频)整合成连贯的情感表示。早期研究主要采用特征级或决策级融合。特征级融合在早期或中间网络层合并独立提取的单模态特征,从而实现跨模态模式的联合建模[13]、[14]、[15]。虽然这种方法在捕捉早期相关性方面有效,
方法
DMIC2的总体架构如图2所示,它由三个主要部分组成:特征提取、模态重要性评估和级联交叉注意力融合。具体来说,文本、音频和视频输入首先由预训练模型编码,然后通过主成分分析(PCA)[44]进行降维处理。投影后的特征随后由特定模态的投影器和上下文变换器处理,以捕捉时间依赖性
数据集和评估指标
我们在三个广泛使用的多模态情感数据集上进行实验:CMU-MOSI、CMU-MOSEI和MELD。所有数据集都包含文本、音频和视频模态。CMU-MOSI和CMU-MOSEI带有连续的情感评分范围[-3,3],而MELD提供离散的情感极性标签,包括积极、中性和消极。
CMU-MOSI [48] 是一个来自YouTube意见视频的广泛使用的多模态情感分析数据集。它包含2,199个注释的意见
结论和未来工作
在本文中,我们提出了DMIC2,一个动态模态重要性和级联交叉注意力框架,用于多模态情感分析。通过显式估计实例级别的模态重要性,并将得到的排名与级联交叉注意力融合机制相结合,DMIC2实现了自适应的结构融合和改进的可解释性。在CMU-MOSI和CMU-MOSEI上的广泛实验表明,所提出的方法取得了领先或高度竞争力的
CRediT作者贡献声明
Jinming Ping:写作 – 审稿与编辑,撰写原始草稿,可视化,验证,方法论,调查,形式分析,数据管理,概念化。
Ruicong Zhi:写作 – 审稿与编辑,监督,资源获取。
Shufan Guo:写作 – 审稿与编辑,监督,调查。
Yuewu Hou:写作 – 审稿与编辑。
Xiaoyuan Liang:写作 – 审稿与编辑。
Fei Wan:写作 – 审稿与编辑。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
致谢
本工作得到了中国国家档案局科学技术项目(项目编号2025-X-041)和中国国家自然科学基金(项目编号61673052)的支持。