TriEMO：基于模态对对比学习图网络的多模态情感识别技术（Triple Semantic Alignment using a Modality Pair Contrastive Learning Graph Network for Multimodal Emotion Recognition）

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月07日 来源：Information Fusion 15.5

编辑推荐：

　　多模态情绪识别中提出TriEMO框架，通过模态对数据增强、虚拟情绪锚点与对抗对比学习优化跨模态对齐，解决模态不平衡和过对齐问题，在IEMOCAP和MELD上显著提升F1分数。

冯泽辉|吴彤|吴凯凡|朱兆鹏|徐华园|韩婷

上海交通大学设计学院，上海，200240，中国

摘要

对话中的多模态情感识别（MERC）旨在通过建模文本、声音和视觉模态在动态对话情境中的复杂交互来识别话语中表达的情感状态。尽管最近的进展利用图神经网络和对比学习来提高语义对齐和表示的鲁棒性，但它们往往受到严格的跨模态对齐的限制，这会抑制模态特定的细微差别，并在存在噪声的动态或语义模糊的情境中降低性能。为了解决这些限制，我们提出了TriEMO，这是一个基于模态对对比学习图网络的多模态语义对齐框架。TriEMO引入了三个关键模块来增强跨模态表示和对齐：模态对数据增强（MPDA），它基于模态对构建对比学习单元以丰富成对的语义交互；结合模态对超图学习（MPHL）的刚性模态对对比学习（RMPCL）以及虚拟情感模态（VEM），它作为语义锚点来协调时间段内和模态对之间的信息传输，确保语义对齐的鲁棒性；以及三重对抗性对比学习（TACL），它通过将模态对拉近同时将单个实例模态对推开，从而减轻深度图传播中的过度对齐，从而保留区分特征。最后，一个轻量级的线性分类器预测每个话语的情感。在IEMOCAP和MELD基准测试上的广泛实验证明了TriEMO的有效性。在IEMOCAP上，TriEMO的加权F1分数比最先进的基于图的学习方法高出2.21%，比基于对比学习的方法高出0.69%，在中性类别上的改进尤为显著，提高了2.13%。在MELD上，它的加权F1分数比最强的基于图的学习基线提高了3.18%，比对比学习方法提高了0.97%，在具有挑战性的厌恶情感上提高了2.45%。这些一致的改进突显了TriEMO在对话场景中的多模态情感识别方面的卓越鲁棒性和泛化能力。

引言

对话中的多模态情感识别（MERC）旨在通过整合文本、声音和视觉线索等多模态信号来理解说话者的情感动态。近年来，这一领域受到了学术界的广泛关注，从而出现了多种旨在捕捉跨模态情感表达复杂动态的建模框架。早期的努力[1]集中在传统的序列或融合方法上，如DialogueRNN [2]和BiLSTM [3]，这些方法试图捕捉模态内的时间依赖性或执行多阶段融合以整合模态。尽管取得了显著进展，但这些模型在有效建模复杂的跨模态交互和长距离上下文依赖性方面经常遇到困难。为了解决这些限制，MERC中采用了基于图的方法[4]、[5]、[6]、[7]，提供了更富有表现力和灵活性的方式来建模模态和时间序列之间的非欧几里得关系。通过将多模态特征定义为节点，将它们的语义或时间依赖性定义为边，图神经网络（GNN）促进了结构化的信息传播和上下文感知的表示学习。值得注意的贡献包括引入了异构图，它在层次结构中对齐了模态特定的特征[8]，以及有向无环图构造[9]，它明确编码了对话的序列和因果动态。然而，随着网络深度的增加，基于图的方法容易发生过度对齐，这会抑制模态特定的特征，从而削弱了学习特征的分类能力。

同时，对比学习自监督范式[10]也被广泛用于MERC中，通过将语义相似的实例拉近同时将不相似的实例推开来增强表示的鲁棒性和区分能力。最近的进展[11]、[12]、[13]探索了多种采样策略，如基于标签的、上下文感知的和说话者感知的机制[14]、[15]、[16]。尽管结构先验（如基于图的[17]和基于原型的[8]表示）促进了语义对齐的改进，但许多现有方法仍然受到单模态实例级模态对齐策略的限制。具体来说，包含更显著语义信息的模态往往在对齐过程中占主导地位，导致模型过度拟合这些主导模态。因此，不太突出的模态被建模不足，它们的情感线索被低估。这种不平衡不仅限制了模型捕捉多模态情感信号全谱的能力，还降低了其在处理复杂交互情感时的鲁棒性，在这种情况下，来自多个模态的微妙或互补的线索对于准确识别至关重要。另一方面，随着GNN深度的增加，节点之间的重复信息传播会削弱模态之间的差异性。这个过程没有保留模态特定的特征，反而削弱了特征点集传达的语义信息，这在解释语义模糊的多模态交互时是一个关键缺陷。因此，MERC中仍然存在两个核心挑战：首先，缺乏跨模态的平衡建模，由于对齐策略的偏见，主导模态掩盖了较弱模态，阻碍了整体情感线索的捕捉；其次，随着GNN深度的增加，模态特定的语义特征逐渐丧失，这损害了模型在复杂交互中区分微妙情感细微差别的能力。

为了解决这些限制，我们提出了基于模态对对比学习图网络的多模态情感识别（TriEMO）的三重语义建模框架。如图1所示，这些三重语义建模组件包括：基于模态对的平衡对齐；基于虚拟情感锚点的图学习和语义对齐；以及网络深度对抗性对比学习。TriEMO由五个主要模块组成：在初始特征提取之后，网络采用模态对数据增强（MPDA）模块，其中每个模态对作为语义增强的基本单元。引入了生成器-判别器对抗网络来促进深度跨模态交互，丰富成对融合模式。其次，为了实现跨模态的有效语义对齐，引入了一种新颖的刚性模态对对比学习（RMPCL）模块，它施加了刚性约束，减轻了对齐过程中常见的不平衡风险。然而，它仍然不足以有效建模多模态情感信息的复杂依赖性。因此，然后将平衡的模态表示与超图学习模块融合。构建了一个虚拟情感模态（VEM）作为语义锚点，它在时间段内和模态对之间协调信息传输，同时执行模态对超图学习（MPHL），以确保模态级的一致性。然而，超图中的深度传播通常会导致模态之间的过度相似性。为了解决网络深度增加时图学习中的过度对齐问题，TriEMO引入了三重对抗性对比学习（TACL）模块。与第二个模块不同，该模块利用虚拟模态作为语义锚点将不同的模态对拉近，同时将单个实例模态对推开。此外，还结合了深度感知的对抗性对比学习策略，以避免深度建模后的过度对齐。最后，网络通过一个轻量级的线性分类层输出每个话语的情感预测。本文的主要贡献可以总结如下：

•TriEMO提出了一种模态对策略，将模态特征对作为模态对齐过程中的基本单元，以消除来自主导模态的平衡。

•TriEMO提出了一种虚拟情感模态，作为图结构中的语义锚点，指导对比学习过程中的信息协调。

•为了避免深度图网络后模态特定特征的丧失，TriEMO提出了一种深度感知的对抗性对比学习策略，它在网络的早期阶段促进模态特定的区分能力。

•我们在IEMOCAP和MELD数据集上评估了我们方法的性能。实验结果证明了我们的TriEMO在各种MERC模型中的有效性，超过了最先进的方法。

部分摘录

传统建模方法

建模上下文信息是MERC的一个关键方面。早期的方法通常依赖于单模态分析，并使用序列模型（如DialogueRNN [2]和BiLSTM [3]）来捕捉时间依赖性。为了整合多模态表示，这些方法经常采用早期融合（特征级连接）[18]、[19]、中间融合（注意力机制）[20]、[21]或后期融合（决策级集成）策略[23]。虽然这些技术

方法概述

给定一个对话{u₁, u₂, ..., u_N}，其中包含N个话语和M个说话者

P = {p_{1}, p_{2}, . ., p_{M}}, (M \geq 2)

，其中每个话语u_i与说话者S_i和情感标签y_i相关联，MERC的目标是预测每个话语的正确情感。对于每个话语，我们提取多模态特征

u_{i} = {x_{i}^{a}, x_{i}^{v}, x_{i}^{t}}

，对应于音频、视觉和文本模态，d_a、d_v、d_t分别是它们的维度。为了捕捉复杂的跨模态交互，同时保持

数据集

我们在两个广泛使用的多模态情感识别基准测试IEMOCAP [42]和MELD [43]上评估了TriEMO，这两个测试都为对话中的每个话语提供了同步的文本、视觉和声音模态。遵循先前工作[4]、[44]中的既定实践，我们采用了标准的数据分割协议和模态配置以确保可比性。

对于IEMOCAP，它包含了来自10个说话者的大约12小时的二元对话，共计152个对话

比较实验

如图5所示，我们展示了在IEMOCAP数据集上提出的TriEMO模型的可视化混淆矩阵，其加权准确率（W-Acc）为72.70%，加权F1分数（W-F1）为72.43%，表明其在情感识别方面的鲁棒能力。同样，在MELD数据集上，TriEMO的加权准确率为68.12%，加权F1分数为67.08%，超过了所有可比方法。为了进一步验证这些改进的可靠性，TriEMO

结论

在本文中，我们提出了TriEMO，这是一个基于模态对对比学习和图建模的多模态情感识别新框架。通过在数据增强、对比学习和图拓扑构建过程中明确建模模态对，TriEMO有效地增强了跨模态交互，同时减轻了多模态情感识别中常见的模态不平衡和语义过度对齐问题。

代码和数据的可用性

代码和数据将按需提供。

写作过程中生成式AI和AI辅助技术的声明

在准备这项工作时，作者使用了ChatGPT来润色语言。使用该工具/服务后，作者根据需要审查和编辑了内容，并对出版物的内容负全责。

CRediT作者贡献声明

冯泽辉：撰写——原始草稿，可视化，验证，方法论。吴彤：撰写——原始草稿，可视化，验证，方法论。吴凯凡：可视化，验证。朱兆鹏：方法论。徐华园：撰写——原始草稿，可视化。韩婷：监督，资源，调查，资金获取。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言