多模态情感识别旨在通过整合来自多种模态(如视频、音频和文本)的信息来自动识别人类情感状态,在自然人机交互、数字人类和具身智能中发挥着重要作用[1]。深度学习的最新进展,特别是大规模预训练的多模态模型[2],显著提高了情感识别性能。这些方法通常依赖于大量高质量的分类数据。然而,跨模态的情感标注本质上是主观且复杂的,受到文化、上下文和个人差异的影响,这使得数据收集耗时、成本高昂且难以扩展[3]。因此,无监督多模态情感识别(UMER)成为了一种有前景的替代方案。UMER利用无监督学习技术整合未标注的多模态数据,自动发现潜在的情感模式,并学习统一的情感表示,从而无需手动标注即可实现情感识别。
最近,由于UMER在现实世界应用中的可扩展性潜力[4],[5],它受到了越来越多的关注。例如,Riccardo等人[6]专注于通过结合文本、音频和视觉模态在基于模态对之间对比学习的框架中进行离散情感分类。MulT[7]是一种基于Transformer的架构,用于处理未对齐的多模态序列,同时捕捉跨模态的长距离依赖性。Khare等人[8]进一步探索了大规模未标注的多模态数据集来预训练跨模态Transformer模型。他们在预训练后移除了解码器,并使用平均池化 followed by 全连接层进行下游情感识别任务的微调。
尽管UMER取得了 recent 进展,但大多数现有方法主要关注多模态情感融合,而忽略了模态之间的内在语义差异,这通常会导致多模态情感表示效果不佳且不连贯。两个主要挑战仍然存在。首先,由于模态(文本、音频和视频)在结构、表示和表现力方面的巨大异质性,实现全局一致的情感语义很困难;其次,每个模态中的情感线索往往微妙、模糊且高度依赖于上下文,这使得捕捉模态内和跨模态的细粒度情感信号变得具有挑战性。如图1(a)所示,当前方法倾向于忽略跨模态语义不一致性,例如,将单词“nice”与“中性”面部表情配对,这可能导致误导性的融合表示,并影响UMER的鲁棒性。
为了解决全局跨模态情感语义差距和模态内不一致的细粒度情感动态这两个主要挑战,我们提出了一种新颖的无监督多模态情感统一表示学习方法——双层次语言驱动的跨模态情感对齐(DLCEA),以实现强大的UMER。DLCEA利用了文本模态(语言)通常比其他模态携带更丰富的情感语义信息这一事实。如图1(b)所示,我们的DLCEA方法创新性地引入了两个关键的情感语义对齐模块:文本驱动的跨模态全局情感对齐(TGEA)和文本驱动的跨模态局部情感对齐(TLEA)。为了确保跨模态的情感语义一致性,TGEA模块引入了文本驱动的跨模态对比学习策略,分别将音频和视觉特征与文本语义对齐,实现无监督的全局情感对齐。为了进一步实现局部情感语义一致性,TLEA模块设计了情感感知的文本掩蔽策略和文本驱动的音频/视频重建,以实现细粒度的情感线索交互和局部级别的跨模态对齐。通过利用这两个模块之间的协同作用,我们的DLCEA有效地利用了文本模态中的丰富情感信息,并在全局和局部层面解决了跨模态情感对齐挑战,从而实现了统一且强大的无监督多模态情感表示。总结来说,本文的主要贡献如下:
(1) 我们提出了一种新颖的无监督多模态情感识别框架DLCEA,用于解决两个挑战:全局跨模态情感语义差距和模态内不一致的细粒度情感动态,实现无需任何手动标注的情感表示和识别。
(2) 在DLCEA中,我们设计了两个互补的情感语义对齐模块:TGEA和TLEA。TGEA模块通过文本驱动的跨模态对比学习来对齐跨模态的全局情感线索,确保音频/视频和文本之间的情感一致性,同时减少全局情感语义差距。同时,TLEA模块专注于在情感感知的文本线索指导下重建掩蔽的视觉/音频特征,捕捉微妙的情感变化。这两个模块紧密协作,有效改进了UMER的无监督多模态情感统一表示。
(3) 与现有的UMER方法相比,我们提出的DLCEA在三个流行的多模态情感数据集MAFW、CMU-MOSEI和IEMOCAP上取得了最先进的性能。具体来说,DLCEA在CMU-MOSEI数据集上的加权平均召回率(WAR)提高了1.19%,F1分数提高了1.29%;在MAFW数据集上的WAR提高了1.04%;在IEMOCAP数据集上的WAR提高了1.5%,F1分数提高了3.4%。这些结果清楚地证明了该模型在处理情感语义差异和增强无监督情感识别方面的有效性。
通过这些贡献,我们的研究为无监督多模态情感识别提供了宝贵的见解和进展,促进了不同模态之间的双层次情感语义对齐。本文的其余部分如下。第2节介绍了相关工作。第3节详细介绍了我们提出的DLCEA。第4节讨论了我们在公开可用数据集上的实验结果。第5节总结了本文的研究内容。