基于联合对比学习的异构性感知多模态生理信号融合策略在情感识别中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月09日 来源：Neural Networks 6.3

编辑推荐：

　　多模态生理信号存在跨模态、跨通道和跨时序异质性，影响融合效果。本文提出基于图注意力网络的可学习视图增强策略，结合时序和空间对比学习，有效缓解异质性。实验表明该方法在DEAP、DREAMER和PhyMER数据集上优于SOTA模型，且各模块协同提升性能。

袁天|李静|陈宁|李光强|徐张勇|朱洪庆|李宇|朱志英

华东理工大学信息科学与工程学院，上海，200237，中国

摘要

由于生理信号的固有非平稳性和显著的跨主体差异，不同模态、不同通道以及不同时间片段之间存在明显的异质性，这会极大地影响多模态生理信号的融合效果。为了同时减轻这些异质性并提高多模态情感识别性能，本文提出了一种结合的跨模态对比学习策略。首先，引入基于图注意力网络（GAT）的可学习视图增强方法来模拟非平稳性和跨主体差异带来的变化。接下来，在增强后的视图中，对当前时间片段与其之前的时间片段进行时间对比学习，以减少不同时间片段之间的异质性。然后，在每个视图内部以及不同视图之间进行通道对比学习，以降低跨模态和跨通道的异质性。在DEAP、DREAMER和PhyMER数据集上的大量实验结果表明：i) 所提出的模型优于现有的最先进（SOTA）多模态融合模型；ii) 可学习视图增强、时间对比学习策略和空间对比学习策略有助于提升模型的性能；iii) 所提出的模型能够充分利用不同模态在表示情感状态方面的互补性。

引言

由于情感识别在医疗保健、人机交互和市场研究等领域的潜在应用（Chunawale和Bedekar，2020年等），近年来引起了广泛关注（Fan等人，2024年）。人类对不同类型刺激的情感反应可以通过问卷、物理信号或生理信号来推断。与问卷或物理信号相比，生理信号（如脑电图（EEG）、眼电图（EOG）、肌电图（EMG）和皮肤电反应（GSR）等）可能无意中被激活，因此很难被受试者控制（Chunawale和Bedekar，2020年；Ezzameli和Mahersia，2023年；Zhang等人，2020年；Shu等人，2018年）。特别是随着便携式采集设备的发展，基于生理信号分析的情感识别可以发挥更大的实际价值（Balters和Steinert，2017年）。

然而，由于各种异质性，提取多模态生理信号的一致表示并利用它们在表示情感状态方面的互补性极具挑战性。如图1(a)所示，由于不同的生理信号来自身体的不同部位，并属于不同的神经系统（即中枢神经系统（CNS）或周围神经系统（PNS）），采样率、信号噪声比、时间动态（见图1(b)）以及对不同情感反应的敏感性可能差异很大。例如，EEG主要反映CNS的活动，响应时间快但噪声水平高；ECG反映PNS的变化，时间动态较慢；GSR对情感唤醒敏感，但缺乏区分不同类型情感的能力。此外，生理信号的固有非平稳性意味着其统计特性（均值、方差、频率内容等）会随时间变化，不同模态之间的非平稳模式差异会加剧异质性。如图1(c)顶部、中部和底部所示，异质性可以分为以下三种类型：首先，如图1(c)顶部所示，每个受试者的不同模态数据分布差异很大，表明存在跨模态异质性；其次，如图1(c)中部所示，无论属于哪种模态，每个通道的信号分布与其他通道的信号分布都不同，即存在跨通道异质性；第三，如图1(c)底部所示，每个受试者的不同时间片段的多模态信号分布也不同，即存在跨片段异质性。此外，比较不同受试者的数据分布（见图1(c)每个子图中的不同列）发现，特定受试者的每种模态（每个通道或每个时间片段）的数据分布与其他受试者的数据分布有很大差异，这主要是由于生理信号的跨主体差异所致。

虽然传统的深度学习融合模型（如MLP、CNN、LSTM等，Can等人，2023年；Dar等人，2020年；Kolodyazhniy等人，2011年；Wang等人，2023年）可能无法完全解决各种异质性问题。为了降低这些异质性对融合效果的影响，最近提出了多种策略（Huang等人，2024年；Jia等人，2021年；Jia等人，2024年；Li等人，2024年；Liu等人，2025年；Ma等人，2019年；Wang等人，2024a；Wang等人，2024b；Wang等人，2024c）。在多模态情感识别研究中引入了跨模态Transformer（Li等人，2024年；Wang等人，2024b；Wang等人，2024c），以减少不同生理信号在表示情感状态方面的异质性。在Wang等人（2024a）的研究中，构建了一个端到端的多模态Transformer框架Husformer，通过直接关注其他模态中揭示的潜在相关性来增强一个模态，从而减少跨模态异质性。在Li等人（2024）的研究中，引入了基于跨模态Transformer（CMT）的跨注意力机制来减轻不同生理信号之间的异质性。此外，基于图的方法在生理信号处理领域越来越普遍。在Huang等人（2023）的研究中，利用图联合融合网络基于图联合来减轻异质性差距。在Jia等人（2021）的研究中，构建了HetEmotionNet，该网络由时空流和时空频谱流组成，用于融合多模态生理信号的时空频谱特征，并在每个流中引入了图Transformer网络来建模异质性。最近，出现了一种区分模态不变特征和模态特定特征的方法，以解决模态异质性问题。在Jia等人（2024）的研究中，构建了一个模态级解耦模块，捕获模态不变特征和模态特定特征，将多模态生理信号的一致性和异质性整合到一个统一的框架中。在Huang等人（2024）的研究中，构建了一个基于相关性的图分解模块，根据相关性将混合图分解为一致和不一致的子图，从而减少跨模型异质性。在Liu等人（2025）的研究中，为了有效分离生理信号和行为信号中的情感信息，构建了一个异构数据融合框架，利用注意力机制捕获模态特定和互补特征。然而，大多数现有研究仅关注减少模态间的异质性，而未关注通道间的异质性，导致情感相关细粒度特征的提取不足（Liu等人，2016年；Ma等人，2019年）。

尽管之前提出的异质性减少策略在一定程度上有助于提高情感识别性能，但由于它们无法充分模拟多模态生理信号中存在的异质性模式变化，因此可能难以适应未见数据。为了解决这个问题，在Wang等人（2024c）的研究中，构建了包括节点和边增强在内的手工制作的图增强策略来模拟异质性模式中的变化。然后，设计了包括传感器级和全局级对比在内的图对比策略来减少跨模型异质性。然而，在我们看来，该模型在以下几个方面还有改进空间：首先也是最重要的是，手工制作的增强策略（如边/节点删除和插入或属性掩蔽）可能无法同时模拟不同模态、不同通道和不同时间片段中的各种异质性，从而影响其在未见数据上的性能。其次，由于仅进行了视图间对比而未进行视图内对比，因此在视图对齐过程中可能会丢失每个通道的语义信息。第三，在节点级对比中，只有不同视图中的对应节点被视为正样本，所有其他组合被视为负样本，因此语义相似的通道（即相邻通道）会被忽略，影响情感相关语义特征的提取（Li等人，2023年）。

为了解决上述问题，本文提出了一种基于多模态生理信号融合的新情感识别模型。主要贡献如下：

•

构建了一种基于图注意力网络（GAT）（Velickovic等人，2017年）的可学习视图增强策略，以模拟不同模态、通道或时间片段中存在的各种异质性模式。

•

构建了一种结合了视图间时间对比（TC）、视图间空间对比（SC）和视图内空间对比的对比学习策略，以同时减少跨模态、跨通道和跨片段的异质性。在视图间和视图内SC策略中，所有相邻通道都被视为正样本，以在对比过程中保持语义信息。

•

在DEAP、DREAMER和PhyMER数据集上的大量实验结果表明：i) 所提出的模型优于现有的最先进（SOTA）基线模型；ii) 结合的对比学习策略可以减少各种异质性对融合效果的影响；iii> 充分利用了不同模态在表示情感状态方面的互补性。

章节片段

多模态一致表示提取

考虑到传统的基于深度学习的早期融合或晚期融合策略（Can等人，2023年；Dar等人，2020年；Debie等人，2019年；Guo等人，2022年；Horii等人，2018年；Kolodyazhniy等人，2011年；Wang等人，2023年）无法处理不同通道或模态之间的异质性，因此无法充分利用模态间的互补性，一致表示提取策略最近受到了广泛关注。

方法论

如图2所示，所提出的模型包括两个阶段：无监督的预训练阶段和有监督的校准阶段。第一阶段的目标是采用可学习视图增强方法来适应性地模拟不同模态、不同通道（或传感器）和不同时间片段中的复杂异质性，然后设计和结合时间对比学习策略和空间对比学习策略来训练视图。

数据集

实验在三个多模态生理信号数据集上进行，用于情感识别，分别是DEAP（Koelstra等人，2012年）、DREAMER（Katsigiannis和Ramzan，2018年）和PhyMER（Pant等人，2023年），并在交叉试验和跨受试者两种场景下进行。数据集的描述见表2。

DEAP：该数据集收集了32名参与者对40个情感相关音乐视频刺激的多模态生理信号。这些信号包括32通道的EEG信号

实验结果与讨论

在本节中，首先测试了所提出模型在交叉试验和跨受试者两种场景下在三个数据集上的性能，并与所有基线模型进行了比较。接下来，在所有三个数据集上进行了消融实验，以研究每个关键模块和每种模态对模型性能提升的贡献。

结论与未来工作

不同生理信号、不同通道（或传感器）和不同时间片段中存在的复杂异质性是提高多模态生理信号情感识别融合效果的障碍。为了解决这个问题，引入了一种基于GAT的可学习视图增强策略来适应性地模拟异质性，并在无监督条件下结合训练视图增强模块。

CRediT作者贡献声明

袁天：撰写 – 审稿与编辑，撰写 – 原稿，验证，软件，方法论，概念化。李静：撰写 – 审稿与编辑，撰写 – 原稿，验证，软件，方法论。陈宁：撰写 – 审稿与编辑，监督。李光强：软件。徐张勇：验证。朱洪庆：撰写 – 审稿与编辑。李宇：撰写 – 审稿与编辑。朱志英：撰写 – 审稿与编辑。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

致谢

本工作得到了国家自然科学基金的支持[资助编号61771196，61872143]。

联系信箱：

粤ICP备09063491号

摘要

引言