MCL-MGN：一种用于多模态情感分析中缺失模态生成的多层对比学习框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年02月14日 来源：Digital Signal Processing 3

编辑推荐：

　　多模态情感分析中缺失模态生成框架基于多级对比学习，通过教师模型提取分层语义关联的模态不变特征，学生模型结合语义蒸馏自注意力模块降噪模态特定特征，并融合不变特征与原始特征经双残差注意力模块生成缺失模态。实验表明在IEMOCAP等数据集上优于现有方法。

余月超|刘芳爱|张玉娟|高学健|杨宏达

山东师范大学信息科学与工程学院，济南，250358，山东，中国

摘要

在现实世界的应用中，由于采集限制，多模态数据经常存在部分缺失的情况。不同模态之间存在语义异步性和异质性，导致显著的模态差距。现有方法仍面临一些挑战，包括在复杂条件下提取鲁棒的多模态不变特征的难度、缺失模态中固有的噪声加剧了模态差距，以及跨模态映射机制在指导缺失模态重建方面的有效性有限。为了解决这些问题，我们提出了一个基于多级对比学习（MCL-MGN）的缺失模态生成框架，该框架包括两个核心阶段。教师模型采用了一种新颖的多级对比学习模块（MCL-IF），用于捕捉单模态输入内部、单模态与双模态输入之间以及单模态与三模态输入之间的层次化语义关系，从而能够提取全面且稳定的多模态不变特征。学生模型被称为MGN-MIMSF。具体来说，采用了语义蒸馏自注意力（SDSA）模块来去除模态特定特征中的噪声。此外，教师模型提取的多模态不变特征用于指导学生学习语义对齐的跨模态不变特征。去噪后的模态特定特征和原始模态特定特征分别与学生模型的不变特征结合，然后将结果表示输入到双级级联残差注意力（CRA）模块中以重建缺失的模态。最终采用三元组损失来优化生成质量，用于情感分析。在IEMOCAP、CMU-MOSI和MSP-IMPROV上的实验结果表明，所提出的方法优于现有的最先进基线。

引言

在过去几十年中，情感分析一直是机器学习和自然语言处理领域的一个重要研究课题。它的目标是通过各种模态来理解和解释人类情感[1]。近年来，自动且准确的情感分析在包括人机交互系统[2]、决策支持系统[3]、智能服务平台[4]、评估系统[5]和情绪健康管理[6]在内的广泛应用领域中展示了其关键作用。随着YouTube、Twitter和Weibo等在线视频平台的普及，越来越多的用户倾向于通过视频内容表达他们的情感和观点。多模态情感分析（MSA）已成为一个研究焦点，以有效捕捉这些视频中嵌入的情感倾向。最近的研究表明，与单模态方法相比，MSA可以提供更细致和准确的情感评估[7]、[8]。

然而，多模态数据在采集、传输和存储过程中更容易不完整。在实际应用中，例如，由于网络中断或硬件故障，音频或视频片段可能会丢失，导致部分或完全缺失模态。因此，现实世界场景中的鲁棒情感分析需要能够有效处理不完整或缺失模态的模型。

为了解决这些挑战，现有的方法[9]、[10]可以大致分为两类研究方向。第一类专注于模态生成方法，旨在从现有模态中重建缺失的模态[11]、[12]、[13]、[14]。例如，Tran等人[14]提出了一种级联残差自编码器网络，通过堆叠残差自编码器来捕捉模态间的相关性，并基于可用输入重建缺失的模态。第二类包括联合学习方法[15]、[16]、[17]、[18]、[19]、[20]，它们整合完整和不完整的样本来训练一个能够处理各种缺失模态场景的统一多模态模型。例如，Zhao等人[18]提出了一种统一缺失模态想象网络（MMIN）。MMIN学习了鲁棒的多模态表示，使模型能够在不同缺失模态条件下预测任意缺失模态的表示。尽管这些方法在处理缺失模态方面取得了进展，但由缺失模态引起的模态差距仍然无法有效解决。

为了进一步缩小跨模态时的这种差距，Zuo等人[19]引入了具有不变特征的缺失模态想象网络（IF-MMIN），该网络利用中心矩差异（CMD）约束的训练策略来学习模态不变表示。然而，基于CMD的训练无法为学习到的不变表示提供可解释性，并引入了语义信息损失。随后，Liu等人[20]提出了一种基于对比学习的缺失模态想象网络（CIF-MMIN），增强了学习到的不变表示的鲁棒性，并进一步缩小了模态差距，获得了改进的实验结果。上述方法主要关注模态不变表示对模型性能的影响。然而，仍存在几个问题：（1）单模态内的对比学习不足以捕捉丰富和全面的不变表示；（2）在缺失模态条件下，固有的模态差距进一步加剧，导致提取的模态特定特征中引入了额外的语义噪声；（3）使用两种模态特征来指导缺失模态生成的跨模态映射机制效果不佳，且缺乏有效融合不变特征和去噪模态特定特征的策略。

为了解决现有方法的局限性，我们提出了一个基于多级对比学习（MCL-MGN）的新框架，采用教师-学生架构。

教师模型配备了多级对比学习模块（MCL-IF），该模块在全模态条件下进行训练。该模块通过建模层次化的跨模态关联（包括模内、单模态-双模态和单模态-三模态关系）来捕捉不同模态组合之间的语义一致性。具体而言，该模块为各种模态组合构建对比学习空间，逐步挖掘从单模态表示到双模态和三模态融合特征的共同语义信息。应用多级对比损失函数来优化学习目标，从而提取鲁棒的多模态不变表示。

学生模型是一个多模态不变和模态特定特征驱动的缺失模态生成网络（MGN-MIMSF）。学生模型使用教师模型的参数进行初始化，利用教师预训练的多模态不变特征来指导提取跨模态对齐的不变特征。此外，引入了语义蒸馏自注意力（SDSA）模块来去除模态特定特征中的噪声，从而抑制无关或冗余信息。在缺失模态生成阶段，去噪后的模态特定特征和原始模态特定特征与提取的不变特征结合，并输入到双级级联残差注意力（CRA）结构中。为了进一步提高生成表示的质量，采用三元组损失，将学生模型的融合表示作为锚点，教师模型的融合表示作为正样本，缺失模态作为负样本。通过最小化锚点和正样本之间的距离，同时最大化与负样本之间的距离，该框架确保了下游情感分析任务的高质量多模态输入。

本文的主要贡献总结如下：

（1）我们提出了一种基于多级对比学习的多模态不变特征提取网络，用于提取跨模态的鲁棒共享表示，从而缩小多模态数据中的语义差距。

（2）我们提出了一个有效整合多模态不变特征和模态特定特征的缺失模态生成网络。引入了SDSA模块来去除模态特定特征，并采用双CRA结构来融合去噪特征、原始模态特定特征和提取的不变表示，以结构化生成缺失模态。

（3）引入了基于三元组的对比学习机制，以增强从教师模型到学生模型的知识传递。锚点-正样本-负样本结构鼓励学生与教师的融合表示对齐，同时区分缺失模态，从而提高生成准确性。

（4）在三个基准数据集—IEMOCAP、CMU-MOSI和MSP-IMPROV上的广泛实验表明，我们的方法在缺失模态条件下优于现有的最先进方法，多个评估指标均表现出色。

章节片段

多模态情感分析

多模态情感分析是指使用来自多种模态（如文本、图像、音频和视频）的数据分析和理解人类情感的过程。由于不同模态之间的高度相关性和互补性，大多数当前的多模态情感分析方法都集中在多模态融合上。已经出现了四种主流融合策略：

早期融合：这种策略在输入级别连接或融合不同模态的特征，形成一个统一的表示。

方法论

本节系统介绍了所提出的MCL-MGN模型的整体架构及其关键实现组件。如图1所示，该模型由两个主要阶段组成。在第一阶段，在所有模态都可用的条件下，我们引入了一个用于学习不变特征的多级对比学习模块（MCL-IF）。在第二阶段，利用MCL-IF模块学习到的表示

数据集

我们在三个公开可用的基准数据集上评估了所提出的方法：IEMOCAP、MSP-IMPROV和CMU-MOSI。具体统计信息见表1。

IEMOCAP [41]是一个广泛用于多模态情感识别任务的基准数据集。它包含五个双人对话会话，每个会话包含音频、视觉和文本模态。整个数据集涵盖了11种情感类别，包括快乐、悲伤、愤怒、中立、兴奋等。

不确定缺失模态的主要结果

为了验证我们方法在各种缺失模态设置下的有效性，我们遵循[18, 20]中的实验设置，并在六个场景下评估模型：{a}、{v}、{t}、{a, v}、{a, t}、{v, t）。例如，{a}表示只有音频特征可用，而视觉和文本模态都缺失。与最先进的基线进行比较：我们将所提出的方法与几个竞争性基线进行了比较，包括sc-LSTM、bc-LSTM、AE、CRA、MuLT、MMIN等。

结论

本研究关注现实世界场景中缺失模态条件下的模态差距，并提出了一种基于多级对比学习的缺失模态生成框架。通过教师模型中的多级对比学习模块，对单模态内部以及单模态与混合模态之间的语义关联进行了建模，从而能够从完整模态中深度提取不变特征。

CRediT作者贡献声明

余月超：方法论、软件、数据整理、写作准备、调查、写作审查

&

编辑；刘芳爱：监督、资金获取、概念化；张玉娟：形式分析、可视化；高学健：可视化；杨宏达：监督。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

章节片段

多模态情感分析

方法论

数据集

不确定缺失模态的主要结果

结论

CRediT作者贡献声明

利益冲突声明

热点排行