在过去几十年中,情感分析一直是机器学习和自然语言处理领域的一个重要研究课题。它的目标是通过各种模态来理解和解释人类情感[1]。近年来,自动且准确的情感分析在包括人机交互系统[2]、决策支持系统[3]、智能服务平台[4]、评估系统[5]和情绪健康管理[6]在内的广泛应用领域中展示了其关键作用。随着YouTube、Twitter和Weibo等在线视频平台的普及,越来越多的用户倾向于通过视频内容表达他们的情感和观点。多模态情感分析(MSA)已成为一个研究焦点,以有效捕捉这些视频中嵌入的情感倾向。最近的研究表明,与单模态方法相比,MSA可以提供更细致和准确的情感评估[7]、[8]。
然而,多模态数据在采集、传输和存储过程中更容易不完整。在实际应用中,例如,由于网络中断或硬件故障,音频或视频片段可能会丢失,导致部分或完全缺失模态。因此,现实世界场景中的鲁棒情感分析需要能够有效处理不完整或缺失模态的模型。
为了解决这些挑战,现有的方法[9]、[10]可以大致分为两类研究方向。第一类专注于模态生成方法,旨在从现有模态中重建缺失的模态[11]、[12]、[13]、[14]。例如,Tran等人[14]提出了一种级联残差自编码器网络,通过堆叠残差自编码器来捕捉模态间的相关性,并基于可用输入重建缺失的模态。第二类包括联合学习方法[15]、[16]、[17]、[18]、[19]、[20],它们整合完整和不完整的样本来训练一个能够处理各种缺失模态场景的统一多模态模型。例如,Zhao等人[18]提出了一种统一缺失模态想象网络(MMIN)。MMIN学习了鲁棒的多模态表示,使模型能够在不同缺失模态条件下预测任意缺失模态的表示。尽管这些方法在处理缺失模态方面取得了进展,但由缺失模态引起的模态差距仍然无法有效解决。
为了进一步缩小跨模态时的这种差距,Zuo等人[19]引入了具有不变特征的缺失模态想象网络(IF-MMIN),该网络利用中心矩差异(CMD)约束的训练策略来学习模态不变表示。然而,基于CMD的训练无法为学习到的不变表示提供可解释性,并引入了语义信息损失。随后,Liu等人[20]提出了一种基于对比学习的缺失模态想象网络(CIF-MMIN),增强了学习到的不变表示的鲁棒性,并进一步缩小了模态差距,获得了改进的实验结果。上述方法主要关注模态不变表示对模型性能的影响。然而,仍存在几个问题:(1)单模态内的对比学习不足以捕捉丰富和全面的不变表示;(2)在缺失模态条件下,固有的模态差距进一步加剧,导致提取的模态特定特征中引入了额外的语义噪声;(3)使用两种模态特征来指导缺失模态生成的跨模态映射机制效果不佳,且缺乏有效融合不变特征和去噪模态特定特征的策略。
为了解决现有方法的局限性,我们提出了一个基于多级对比学习(MCL-MGN)的新框架,采用教师-学生架构。
教师模型配备了多级对比学习模块(MCL-IF),该模块在全模态条件下进行训练。该模块通过建模层次化的跨模态关联(包括模内、单模态-双模态和单模态-三模态关系)来捕捉不同模态组合之间的语义一致性。具体而言,该模块为各种模态组合构建对比学习空间,逐步挖掘从单模态表示到双模态和三模态融合特征的共同语义信息。应用多级对比损失函数来优化学习目标,从而提取鲁棒的多模态不变表示。
学生模型是一个多模态不变和模态特定特征驱动的缺失模态生成网络(MGN-MIMSF)。学生模型使用教师模型的参数进行初始化,利用教师预训练的多模态不变特征来指导提取跨模态对齐的不变特征。此外,引入了语义蒸馏自注意力(SDSA)模块来去除模态特定特征中的噪声,从而抑制无关或冗余信息。在缺失模态生成阶段,去噪后的模态特定特征和原始模态特定特征与提取的不变特征结合,并输入到双级级联残差注意力(CRA)结构中。为了进一步提高生成表示的质量,采用三元组损失,将学生模型的融合表示作为锚点,教师模型的融合表示作为正样本,缺失模态作为负样本。通过最小化锚点和正样本之间的距离,同时最大化与负样本之间的距离,该框架确保了下游情感分析任务的高质量多模态输入。
本文的主要贡献总结如下:
(1)我们提出了一种基于多级对比学习的多模态不变特征提取网络,用于提取跨模态的鲁棒共享表示,从而缩小多模态数据中的语义差距。
(2)我们提出了一个有效整合多模态不变特征和模态特定特征的缺失模态生成网络。引入了SDSA模块来去除模态特定特征,并采用双CRA结构来融合去噪特征、原始模态特定特征和提取的不变表示,以结构化生成缺失模态。
(3)引入了基于三元组的对比学习机制,以增强从教师模型到学生模型的知识传递。锚点-正样本-负样本结构鼓励学生与教师的融合表示对齐,同时区分缺失模态,从而提高生成准确性。
(4)在三个基准数据集—IEMOCAP、CMU-MOSI和MSP-IMPROV上的广泛实验表明,我们的方法在缺失模态条件下优于现有的最先进方法,多个评估指标均表现出色。