多视图跨模态对比表示学习及其在多模态情感识别中的领域适应应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Biomedical Signal Processing and Control》：Multi-view cross-modal contrastive representation learning with domain adaptation for multi-modal emotion recognition

【字体：大中小】 时间：2026年05月11日 来源：Biomedical Signal Processing and Control 4.9

编辑推荐：

　　程程|程一康|王子欣|张勇|贾子宇辽宁师范大学心理与脑科学研究所，中国大连，116029 **摘要** 当前关于多模态情感识别（MER）的研究面临着几个挑战，包括单一特征的提取、多模态特征的有效融合以及不同受试者之间的个体差异。为此，我们开发了一种具有领域适应性的

　　程程|程一康|王子欣|张勇|贾子宇
辽宁师范大学心理与脑科学研究所，中国大连，116029

**摘要**
当前关于多模态情感识别（MER）的研究面临着几个挑战，包括单一特征的提取、多模态特征的有效融合以及不同受试者之间的个体差异。为此，我们开发了一种具有领域适应性的多视图跨模态对比表示学习（DA-MCCRL）模型，以捕获多视图表示、融合多模态语义信息，并最小化个体差异。首先，将每种模态信号的每个维度视为一个独立的视图，并在每个模态中使用特定的编码器来获取和汇总不同视图之间的判别性情感信息。然后，利用跨模态编码网络来整合模态内部和模态之间的语义信息。此外，将跨模态对比损失集成到编码网络中，通过最小化相同实例对应的不同模态特征之间的差异来对齐跨模态特征。最后，为了减少个体差异，实现了领域适应（DA），以生成领域不变的特征，使得来自不同领域的数据可以投影到相同的表示空间中。在DEAP和SEED-IV数据集上的广泛实验表明，我们的DA-MCCRL方法显著优于现有的最先进（SOTA）方法。

**引言**
情感是人类经验的基本组成部分，深刻影响我们的认知过程、决策、社会互动和日常生活。针对个体情感状态的情感识别已成为人机交互（HCI）和人工智能（AI）中的一个关键研究领域[1]。然而，人类情感的表现形式多种多样，包括脑电图（EEG）和肌电图（EMG）等生理信号，以及面部表情和身体动作等非生理信号。因此，仅依赖于单一模态信号构建情感识别模型可能容易受到噪声的影响，并且往往无法完全捕捉人类情感。许多研究表明，利用多模态信号可以从多个角度更全面地理解人类情感的变化，更符合人类的表达倾向[2]、[3]。因此，多模态情感识别（MER）整合了来自多个来源的信息，发展出具有更高可靠性和准确性的模型，从而更真实地描绘情感状态。

多模态表示学习在构建全面的MER系统中起着关键作用。情感识别中的每个信号不仅具有独特的属性，还可能包含多种信息视角。以EEG为例，它包含时间、空间和频谱信息，包括五个频率带（δ、θ、α、β、γ）。研究表明，在积极情感状态下，颞叶区域的β和γ频率带的激活强度比消极情感状态下更高[4]。此外，积极情感在空间-时间维度上通常表现出比消极情感更高的激活水平[5]。受到这些观察结果的启发，研究人员转向深度学习技术从多模态信号或单一模态内的多个特征中提取特征，以识别不同的情感状态。例如，[6]、[7]分别使用ResNet和LSTM架构从多个输入信号中提取潜在特征。此外，[8]、[9]、[10]、[11]利用EEG信号的时间和空间特征来提高情感识别模型的性能。进一步地，[12]、[13]利用EEG信号的空间和频谱特性作为输入，以得出用于情感判断的多情感特征。尽管这些方法在情感识别任务中取得了高准确性，但大多数模型仅关注个别特征或两个特征的组合（如空间和时间特征）。此外，一些方法使用共享的特征提取器处理输入数据，忽略了模态信号特性的独特性。因此，设计一种专门根据输入信号的独特特性进行设计的特征编码器，能够同时处理多视图特征，是一个重要的挑战。

多模态特征融合策略是建立MER系统的另一个关键步骤。常用的融合方法包括特征级融合[14]、[15]，它直接将不同模态的特征连接在一起；决策级融合[16]、[17]，通过投票或加权独立预测结果生成最终输出；以及注意力融合[18]、[19]，通过加权求和生成最终输出。尽管这些方法在MER中取得了令人鼓舞的结果，但它们通常忽略了不同模态之间的语义一致性。每个模态数据由独立编码器编码的特征存在于不同的语义空间中。简单的融合策略可能导致信息丢失和语义混淆，从而影响模型的整体性能和效果。此外，跨模态表示对齐有效地将不同模态的特征数据映射到共享的特征空间中，确保MER任务中的语义一致性[20]。这种对齐促进了来自不同来源的数据之间的协作和互补性，使跨模态的情感理解更加准确和全面。因此，一个主要挑战在于如何在多模态特征融合过程中实现语义空间对齐，探索模态间和模态内的信息，并增强情感特征之间的互动和协作。

此外，虽然大多数现有的结合EEG信号的MER方法在单受试者（受试者依赖）任务中表现良好，但在适应跨受试者（受试者独立）MER任务时遇到挑战。这些研究通常假设训练和测试阶段之间的数据分布是一致的，当引入新的受试者数据时会降低分类准确性。为此，研究人员将迁移学习引入情感识别任务中以处理个体差异[21]、[22]。通过将训练和测试受试者的联合分布与独立同分布（IID）假设[23]对齐，可以减轻EEG信号中的个体差异。这有助于使用已知受试者的标记数据对新受试者的未知数据进行分类。然而，当训练和测试受试者之间的分布存在显著差异时，会采用领域适应（DA）。DA旨在促进有用知识从熟悉受试者向不熟悉受试者的转移，有效最小化受试者之间EEG数据的联合分布差异[24]。DA方法通常涉及引入梯度反转层（GRL）并在模型优化过程中调整特征提取器的参数。这确保了特征提取器能够正确识别用于情感分类的特征，同时使得领域鉴别器难以区分不同领域，从而生成领域不变的特征[25]、[26]、[27]、[28]。尽管这些方法取得了有竞争力的结果，但它们主要关注使用EEG信号的情感识别，忽略了多模态信号带来的挑战。因此，解决MER中的个体差异仍然是一个重大挑战。

为了解决上述挑战，本文提出了一种具有领域适应性的统一多视图跨模态对比表示学习框架（DA-MCCRL）用于跨受试者MER。与传统方法将多视图特征提取、跨模态融合和领域适应视为独立过程不同，所提出的框架在统一架构中共同优化这些组件。这种设计使模型能够同时增强特征多样性、语义一致性和领域不变性。具体来说，首先使用特定于模态的编码器从每个模态提取多视图表示，保留不同特征视角之间的互补信息。然后，开发了一个跨模态编码网络，其中包含模态间注意力交互（IAI）和模态内注意力自整合（IASI）模块。这两种机制协同建模不同模态之间的结构化交互和每个模态内的依赖性，促进了超越简单基于注意力的融合的更有效的特征整合。此外，引入了一种多视图跨模态对比学习策略，明确对齐不同模态和视图之间的表示，减少语义差异，同时保留判别信息。最后，将DA无缝集成到表示学习过程中，以减少受试者之间的分布偏移，实现强大的跨受试者泛化能力。在DEAP和SEED-IV数据集上的广泛实验表明，所提出的框架的性能优于现有的最先进方法。

**本文的主要贡献如下：**
1. 我们提出了一个统一的多模态情感识别框架，该框架结合了多视图表示学习、跨模态对齐和领域适应，实现了特征多样性、语义一致性和领域不变性的同时优化。
2. 我们设计了一个具有耦合的模态间和模态内注意力机制（IAI和IASI）的跨模态编码网络，促进了不同模态之间的结构化互动和每个模态内的有效自我整合，超越了传统的基于注意力的融合策略。
3. 我们引入了一种多视图跨模态对比学习目标，不仅对齐了不同模态之间的表示，还对齐了不同特征视图之间的表示，减少了语义差异并提高了表示的鲁棒性。
4. 我们将DA集成到统一框架中，以解决跨受试者分布偏移问题，提高了多模态情感识别模型的泛化能力。

**部分摘录**
**多视图表示用于情感识别**
多视图表示学习旨在从输入数据中提取多样化的特征集，以捕捉有关信息的互补视角。鉴于情感表达的复杂性和异质性，使用多视图特征提取使模型能够从多个维度全面描述与情感相关的模式，特别是在基于EEG的情感识别中。最近的研究探讨了各种多视图学习策略来增强EEG……

**方法**
DA-MCCRL的目的是共同获取每个模态的特征，然后语义对齐这些特征，生成跨模态融合特征，最后使用领域适应性调整特征分布来解决个体差异问题。具体结构如图1所示。为此，我们首先介绍了本文涉及的符号和定义。然后，我们介绍了该方法的每个细节，包括多视图表示学习……

**DEAP数据集**
DEAP数据集[47]包含32名参与者的多模态记录，包括32通道的EEG、8个外围生理信号和面部视频。每位受试者观看了40段一分钟的音乐视频，并在自我评估假人（SAM）量表（1-9）上对其情感进行了评分。EEG信号最初采样率为256 Hz，降采样到128 Hz并过滤为五个频带：δ（1-4 Hz）、θ（4-8 Hz）、α（8-13 Hz）、β（13-30 Hz）和γ（30-45 Hz）。提取了差分熵（DE）特征……

**结论**
在这项研究中，我们提出了一个用于MER的DA-MCCRL框架，在DEAP和SEED-IV数据集上都取得了最先进的性能。DA-MCCRL的卓越性能归因于其特定于模态的特征编码器，这些编码器在每个模态内提取互补的多视图表示，从而捕获了更全面的情感线索谱。跨模态编码网络通过两个专用模块进一步增强了特征交互：IAI模块……

**作者贡献声明**
程程：写作——原始草案、软件、方法论、调查。
程一康：写作——原始草案、方法论、调查、概念化。
王子欣：方法论、调查。
张勇：写作——审阅与编辑、方法论、调查。
贾子宇：写作——审阅与编辑、可视化。

**利益冲突声明**
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

**致谢**
作者感谢匿名审稿人的深刻评论和建议，这些评论和建议显著提高了本文的质量。本工作得到了国家自然科学基金（项目编号62306317）、辽宁省教育厅自然科学基金（项目编号LJ212510165019）以及辽宁师范大学科研创新团队（项目编号24TD004）的支持。

联系信箱：

粤ICP备09063491号

热点排行