无监督多模态情感统一表示学习：基于双层语言驱动的跨模态情感对齐方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：Unsupervised Multimodal Emotion-unified Representation Learning with Dual-level Language-Driven Cross-Modal Emotion Alignment

【字体：大中小】 时间：2026年01月29日 来源：Pattern Recognition 7.6

编辑推荐：

　　无监督多模态情感识别通过融合文本、音频和视觉数据，利用语言驱动的双层级对齐策略解决跨模态语义鸿沟问题，TGEA模块实现全局情感对齐，TLEA模块通过情感感知掩码和重构增强局部一致性，显著提升MAFW、CMU-MOSEI和IEMOCAP的性能。

冯少泽|周启音|刘圆圆|王凯|刘克军|唐畅

中国地质大学（武汉），中国武汉

摘要

无监督多模态情感识别（UMER）旨在通过整合未标注的多模态数据（如文本、语音和图像）来推断情感状态。一个关键挑战是不同模态之间存在显著的语义差距，这既包括全局跨模态情感线索，也包括每个模态内的局部细粒度情感变化。在没有标注的情况下，现有方法难以有效地对齐和融合跨模态情感语义，从而导致UMER性能不佳。为了解决这一挑战，我们提出了DLCEA，一个双层次语言驱动的跨模态情感对齐框架，用于强大的无监督多模态情感表示学习。DLCEA利用文本中的内在情感语义来指导跨模态对齐，并引入了双层次语义对齐方案：文本驱动的跨模态全局情感对齐（TGEA）和文本驱动的跨模态局部情感对齐（TLEA）。具体来说，TGEA模块将文本作为对齐锚点，并应用文本驱动的对比学习来对齐音频和视觉模态的全局情感特征与文本的特征，从而在所有三种模态之间实现全局情感级别的一致性。同时，TLEA结合了情感感知的文本掩蔽策略和文本驱动的音频/视频重建，使模型能够捕捉到微妙的情感线索，并加强局部级别的跨模态一致性，从而进一步解决细粒度情感对齐问题。通过联合建模全局和局部情感对齐，DLCEA以完全无监督的方式学习了统一且强大的多模态情感表示。在MAFW、MOSEI和IEMOCAP等多模态数据集上的广泛实验表明，DLCEA的性能显著优于现有方法，达到了最先进的水平。这些结果证实了语言驱动的跨模态情感对齐在UMER中的关键作用。代码可在https://github.com/Tank9971/DLCEA获取。

引言

多模态情感识别旨在通过整合来自多种模态（如视频、音频和文本）的信息来自动识别人类情感状态，在自然人机交互、数字人类和具身智能中发挥着重要作用[1]。深度学习的最新进展，特别是大规模预训练的多模态模型[2]，显著提高了情感识别性能。这些方法通常依赖于大量高质量的分类数据。然而，跨模态的情感标注本质上是主观且复杂的，受到文化、上下文和个人差异的影响，这使得数据收集耗时、成本高昂且难以扩展[3]。因此，无监督多模态情感识别（UMER）成为了一种有前景的替代方案。UMER利用无监督学习技术整合未标注的多模态数据，自动发现潜在的情感模式，并学习统一的情感表示，从而无需手动标注即可实现情感识别。

最近，由于UMER在现实世界应用中的可扩展性潜力[4]，[5]，它受到了越来越多的关注。例如，Riccardo等人[6]专注于通过结合文本、音频和视觉模态在基于模态对之间对比学习的框架中进行离散情感分类。MulT[7]是一种基于Transformer的架构，用于处理未对齐的多模态序列，同时捕捉跨模态的长距离依赖性。Khare等人[8]进一步探索了大规模未标注的多模态数据集来预训练跨模态Transformer模型。他们在预训练后移除了解码器，并使用平均池化 followed by 全连接层进行下游情感识别任务的微调。

尽管UMER取得了 recent 进展，但大多数现有方法主要关注多模态情感融合，而忽略了模态之间的内在语义差异，这通常会导致多模态情感表示效果不佳且不连贯。两个主要挑战仍然存在。首先，由于模态（文本、音频和视频）在结构、表示和表现力方面的巨大异质性，实现全局一致的情感语义很困难；其次，每个模态中的情感线索往往微妙、模糊且高度依赖于上下文，这使得捕捉模态内和跨模态的细粒度情感信号变得具有挑战性。如图1(a)所示，当前方法倾向于忽略跨模态语义不一致性，例如，将单词“nice”与“中性”面部表情配对，这可能导致误导性的融合表示，并影响UMER的鲁棒性。

为了解决全局跨模态情感语义差距和模态内不一致的细粒度情感动态这两个主要挑战，我们提出了一种新颖的无监督多模态情感统一表示学习方法——双层次语言驱动的跨模态情感对齐（DLCEA），以实现强大的UMER。DLCEA利用了文本模态（语言）通常比其他模态携带更丰富的情感语义信息这一事实。如图1(b)所示，我们的DLCEA方法创新性地引入了两个关键的情感语义对齐模块：文本驱动的跨模态全局情感对齐（TGEA）和文本驱动的跨模态局部情感对齐（TLEA）。为了确保跨模态的情感语义一致性，TGEA模块引入了文本驱动的跨模态对比学习策略，分别将音频和视觉特征与文本语义对齐，实现无监督的全局情感对齐。为了进一步实现局部情感语义一致性，TLEA模块设计了情感感知的文本掩蔽策略和文本驱动的音频/视频重建，以实现细粒度的情感线索交互和局部级别的跨模态对齐。通过利用这两个模块之间的协同作用，我们的DLCEA有效地利用了文本模态中的丰富情感信息，并在全局和局部层面解决了跨模态情感对齐挑战，从而实现了统一且强大的无监督多模态情感表示。总结来说，本文的主要贡献如下：

(1) 我们提出了一种新颖的无监督多模态情感识别框架DLCEA，用于解决两个挑战：全局跨模态情感语义差距和模态内不一致的细粒度情感动态，实现无需任何手动标注的情感表示和识别。

(2) 在DLCEA中，我们设计了两个互补的情感语义对齐模块：TGEA和TLEA。TGEA模块通过文本驱动的跨模态对比学习来对齐跨模态的全局情感线索，确保音频/视频和文本之间的情感一致性，同时减少全局情感语义差距。同时，TLEA模块专注于在情感感知的文本线索指导下重建掩蔽的视觉/音频特征，捕捉微妙的情感变化。这两个模块紧密协作，有效改进了UMER的无监督多模态情感统一表示。

(3) 与现有的UMER方法相比，我们提出的DLCEA在三个流行的多模态情感数据集MAFW、CMU-MOSEI和IEMOCAP上取得了最先进的性能。具体来说，DLCEA在CMU-MOSEI数据集上的加权平均召回率（WAR）提高了1.19%，F1分数提高了1.29%；在MAFW数据集上的WAR提高了1.04%；在IEMOCAP数据集上的WAR提高了1.5%，F1分数提高了3.4%。这些结果清楚地证明了该模型在处理情感语义差异和增强无监督情感识别方面的有效性。

通过这些贡献，我们的研究为无监督多模态情感识别提供了宝贵的见解和进展，促进了不同模态之间的双层次情感语义对齐。本文的其余部分如下。第2节介绍了相关工作。第3节详细介绍了我们提出的DLCEA。第4节讨论了我们在公开可用数据集上的实验结果。第5节总结了本文的研究内容。

章节片段

多模态情感识别

近年来，多模态情感识别（MER）引起了越来越多的研究兴趣，提出了多种方法来整合和建模来自多种模态（如文本、视觉和声学信号）的情感线索。

现有的MER方法可以根据其核心方法大致分为三类：传统方法、基于深度学习的方法和先进的融合策略。传统方法包括早期的系统

概述

为了解决跨模态情感对齐的挑战并生成统一、强大的情感表示，我们提出了一种新颖的无监督框架——双层次语言驱动的跨模态情感对齐（DLCEA）。整个训练流程如图2所示，包括三个主要组成部分：多模态特征提取、文本驱动的跨模态全局情感对齐（TGEA）和文本驱动的跨模态局部情感对齐（TLEA）。具体来说，我们首先使用

实验

在本节中，我们提供了实验设置的全面概述、整体性能以及消融实验的分析。

结论

本文提出了一个无监督多模态情感识别框架，用于解决跨模态情感表示不一致的问题。所提出的框架引入了一种双层次情感语义对齐方案：文本驱动的跨模态全局情感对齐（TGEA）和文本驱动的跨模态局部情感对齐（TLEA），它们在互补的全局和局部层面上共同实现情感对齐。具体来说，TGEA利用了丰富的语义

CRediT作者贡献声明

冯少泽：写作 – 审稿与编辑，撰写原始草稿，验证，方法论，概念化。周启音：写作 – 审稿与编辑，可视化，调查。刘圆圆：写作 – 审稿与编辑，监督，概念化。王凯：写作 – 审稿与编辑，可视化。刘克军：写作 – 审稿与编辑，调查。唐畅：写作 – 审稿与编辑，监督。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了国家自然科学基金（编号62076227）湖北省自然科学基金（编号2023AFB572）以及湖北智能地理信息处理重点实验室（KLIGIP-2022-B10）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

章节片段

多模态情感识别

概述

实验

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行