编辑推荐:
本文提出一种创新的时空解耦混合Mamba注意力(STHMA)框架,通过结合双领域物理感知嵌入与解耦扫描策略,利用线性复杂度状态空间模型(SSMs)有效克服了脑电图(EEG)信号在非平稳性、时空动态纠缠及Transformer二次复杂度(O(N2))方面的建模瓶颈,在FACED和SEED-V数据集上实现了最先进的情绪识别性能,为实时脑机接口(BCI)的发展提供了可扩展且理论自洽的解决方案。
1. 引言
情感识别是人机交互和神经健康领域的基石。脑电图(EEG)为理解大脑神经动态提供了直接、非侵入性的窗口。然而,EEG信号固有的非平稳性、低信噪比以及显著的被试间差异,使得鲁棒的EEG解码面临巨大挑战。其核心困难在于EEG时空流形的复杂纠缠,表现为两种依赖关系:空间连接性(给定时刻大脑区域间的功能同步)和时间动态性(神经状态随时间的连续演化)。传统深度学习范式,如卷积神经网络(CNNs)和循环神经网络(RNNs),在处理这些复杂依赖时各有局限。Transformer凭借自注意力机制在全局建模上表现出色,但其离散的token化操作与生物信号的连续动态系统本质存在理论不匹配,且二次复杂度(O(N2))限制了其处理高分辨率、长时程信号的能力。
近年来,结构化状态空间模型(SSMs)作为一种范式转换出现。其数学上根植于连续时间常微分方程的离散化,自然地与生物信号的连续性相契合,同时实现了线性计算复杂度(O(N))。然而,将一维SSMs简单地应用于多通道EEG数据存在“序列化模糊性”问题,即将二维EEG张量(通道×时间)扁平化为一维序列时,不可避免地会破坏空间拓扑或时间连续性,导致次优的表示学习。
为此,本文提出了时空解耦混合Mamba注意力(STHMA),一种旨在显式解耦和建模EEG信号时空复杂性的新架构,其核心包含三项基于物理的架构创新。
2. 相关研究
EEG解码算法的发展轨迹经历了从手工特征工程到端到端表征学习的演进。现有文献可归纳为三个范式:卷积与循环基线、基于Transformer的全局建模以及新兴的结构化状态空间模型。
2.1. 局部特征提取
早期深度学习主要利用卷积神经网络(CNNs)从电极网格中提取拓扑特征,如EEGNet引入了深度可分离卷积。为整合时间建模,将CNN与循环神经网络(RNNs)级联的混合架构变得普遍。然而,这些方法存在固有的结构限制:CNN具有强烈的局部性偏差,而RNN则受到“视野问题”的困扰,且其顺序性阻碍了并行训练。
2.2. 基于离散Token化的全局建模
为克服CNN的局部约束,该领域转向了基于Transformer的架构,利用自注意力建模全局依赖。尽管其占据主导地位,但Transformer在处理生物信号时引入了理论不匹配。标准的“分块”操作不可避免地破坏了波形的时间平滑性和相位完整性。此外,注意力机制的二次复杂度限制了可扩展性。
2.3. 连续动态与状态空间模型
结构化状态空间模型(SSMs)为连续时间下的长程依赖建模提供了严谨的数学框架。Mamba架构进一步引入了数据依赖的选择机制,使其能够以线性复杂度处理无限长序列。然而,将其应用于多维生理信号(如EEG)仍面临挑战,核心在于序列化模糊性。本研究提出的STHMA框架通过引入解耦时空扫描策略,显式地在空间和时间视图之间交替,从而解决这一问题。
3. 方法
STHMA框架的整体架构如图所示。
3.1. 双领域物理感知嵌入
标准的线性投影通常忽略生理信号独特的光谱特征。为此,我们提出双领域物理感知嵌入,显式地整合时域波形和频谱功率分布。该嵌入包含两个并行的流:
- •
时域流:应用沿时间轴的深度可分离卷积,并在激活前应用组归一化(GN),以捕获局部波形语义。
- •
频域流:为整合情感生物标志物相关的特定频带信息,引入了显式的傅里叶变换分支。为应对EEG谱功率典型的1/f分布,采用了对数幅度缩放策略来均衡高低频特征。
3.2. 解耦时空扫描
为克服一维SSMs在处理EEG二维拓扑时的序列化模糊性,提出了解耦时空扫描策略。该策略的核心是动态重组数据张量,在模型的不同层间严格分离对瞬时脑功能连接和独立通道时间动态的学习。通过在这两个正交视角之间交替,STHMA能够在不损失拓扑信息的情况下重建时空流形。
3.3. 混合Mamba注意力架构
认识到循环SSMs虽擅长跟踪动态,但可能在全局上下文比较上存在不足,STHMA最终采用了一个全局多头注意力层。这种设计结合了Mamba高效的连续建模能力和注意力的全局推理能力,形成了一个混合架构。
4. 结果与意义
在FACED和SEED-V数据集上的广泛实验表明,STHMA实现了最先进的性能,显著超过了随机基线(9类FACED的11.11%和5类SEED-V的20.00%)。消融研究证实,“解耦时空扫描”策略是重建EEG数据复杂时空流形的最关键组件。
主要发现与意义:
- 1.
STHMA框架在FACED和SEED-V数据集上实现了最先进的情绪识别性能,有效结合了线性复杂度状态空间模型与全局注意力机制。
- 2.
通过状态空间模型将生理信号建模为连续动态系统,比Transformer中使用的离散token化提供了更好的表示保真度,解决了生物信号处理中的理论不匹配问题。
- 3.
该架构的线性计算复杂度克服了传统注意力机制的可扩展性瓶颈,使得开发能够处理长时程高分辨率神经记录的实时脑机接口(BCI)成为可能。
5. 总结
本研究提出的STHMA框架,通过双领域物理感知嵌入和解耦时空扫描策略,成功地将状态空间模型的连续建模能力应用于EEG分析,为解决EEG信号时空动态纠缠的挑战提供了一种可扩展、高效且理论自洽的新范式。这项工作不仅推进了EEG情感识别技术的发展,也为未来实时、高精度的脑机接口系统奠定了重要的方法论基础。