编辑推荐:
提出基于扩散模型的3D EEG生成框架DiffEEGBooth,通过跨帧注意力与时序优化捕捉时空依赖,并融入区域化ERD/ERS约束提升生理合理性,实验证明其生成质量及分类性能优于现有方法。
黄楚斌|李高强|钟胜华|卢荣荣|高天豪
深圳大学计算机科学与软件工程学院,中国深圳市518060
摘要
基于运动想象(MI)的脑机接口(BCI)使用户能够通过想象肢体运动来控制外部系统,这在康复和辅助技术等应用中具有巨大潜力。然而,基于EEG的MI解码受到信噪比(SNR)低和标记数据稀缺等挑战的阻碍。为了解决这些问题,我们提出了DiffEEGBooth,这是一种新型的基于扩散的EEG生成框架,它利用3D EEG结构化表示来增强空间和时间建模能力。为了确保相邻帧之间的平滑过渡同时保持全局一致性,我们引入了跨帧注意力机制和时间序列优化模块。此外,我们在扩散过程中加入了基于区域的ERD/ERS约束,以确保生成的EEG信号符合神经生理学原理和领域特定先验。实验结果表明,DiffEEGBooth在信号质量和分类性能方面均优于现有方法,全面的消融研究验证了关键组件的有效性。
引言
运动想象(MI)是BCI研究中广泛研究的认知过程,允许用户通过想象肢体运动来控制外部系统[1]。脑电图(EEG)是最常用的非侵入性技术之一,用于获取脑信号,因为它具有高时间分辨率、成本效益和易于部署的优点[2]。基于MI的EEG分类在各种应用中起着关键作用,包括神经康复[3]、假肢控制[4]以及为运动障碍者提供的辅助技术[5]。然而,深度学习模型在MI-EEG解码方面的有效性往往受到EEG信号固有挑战的限制,如低SNR、高个体间变异性和有限的标记数据。
深度生成模型的最新进展在通过合成真实的EEG信号进行数据增强方面展示了显著潜力[6]。在这些方法中,生成对抗网络(GANs)[7]已被广泛应用于EEG生成任务[8]、[9]。然而,基于GAN的方法在训练过程中经常出现不稳定性和模式崩溃,限制了生成样本的多样性和保真度[10]。最近,扩散概率模型(DPMs)[11]作为一种强大的替代方案出现,在图像和音频生成方面表现出优越的性能[12]、[13]。DPMs通过迭代去噪过程捕获复杂数据分布的能力使它们特别适合于EEG数据合成[14]、[15]、[16]、[17]。
大多数EEG生成模型仍然关注二维(2D)表示,其中EEG通道被视为独立特征或排列在固定矩阵中。尽管这种方法被广泛使用,但它可能无法充分利用EEG信号的空间和时间结构。使用这种表示时,具有相似空间位置的通道不一定相邻。相比之下,EEG可以自然地表示为三维(3D)结构,其中电极之间的空间关系通过结构化的2D网格保持,第三个维度代表采样时间。使用这种3D结构化表示已被证明可以提高模型检测和解释脑电图(EEG)信号中的空间和时间依赖性的能力。
尽管深度生成模型在EEG合成方面具有潜力,但确保生成信号的时间连贯性和生理合理性仍然是一个重大挑战。现有方法往往难以捕捉EEG数据的复杂时空依赖性,导致信号随时间的演变不一致。此外,生成的EEG样本经常缺乏神经生理学对齐,这可能限制了它们在分类和解释等下游任务中的有效性。解决这些挑战需要一种结合神经科学领域知识和生成建模技术的原则性方法。
为了解决这些挑战,我们提出了DiffEEGBooth,这是一种新型的基于扩散的EEG生成框架。EEG信号以3D结构化表示,其中二维网格保持了通道的空间映射,时间维度表示采样数据点,增强了模型捕捉时空依赖性的能力。跨帧注意力机制确保了相邻时间步骤之间的平滑过渡和上下文依赖性,而时间序列优化模块保持了全局时间尺度上的一致性。此外,基于区域的ERD/ERS约束被集成到扩散过程的损失函数中,指导生成与MI特征对齐的信号,提高了其在分类中的适用性。
本文的主要贡献总结如下:
- •
我们提出了DiffEEGBooth,它采用基于网格的3D结构化EEG表示来增强模型的EEG信号建模能力。我们引入了跨帧注意力机制和时间序列优化模块,以确保相邻帧之间的平滑过渡同时保持全局时间一致性,从而提高了生成信号的保真度。
- •
我们在扩散过程的损失函数中设计了基于区域的ERD/ERS约束,确保合成的EEG信号符合神经生理学特征,与领域特定先验知识对齐,并提高其在下游任务中的适用性。
- •
实验结果表明,我们的方法在EEG生成质量和数据增强后的分类性能方面均优于现有生成方法,验证了所提方法的有效性。
相关工作
相关工作
EEG数据增强已被广泛探索,以提高模型的泛化和分类性能,特别是在收集大规模EEG数据集具有挑战性的情况下。现有的增强方法大致可以分为传统的基于变换的技术和深度生成方法。本节概述了这两类方法的代表性工作,并讨论了它们的优点和局限性。ERD/ERS
MI任务会在EEG信号中诱导出称为事件相关去同步(ERD)和事件相关同步(ERS)的特定模式。这些模式通常发生在MI期间和之后的alpha(8–12 Hz)和beta(13–30 Hz)频段[31]。ERD通常在对侧感觉运动皮层中发生,表明活跃的MI处理,而ERS反映了想象后的同步反弹,标志着认知过程的结束[32]。ERD/ERS的程度通过
实验设置
本节提供了用于测试数据增强方法有效性的数据集、比较方法、评估指标和分类模型的概述,以及生成和增强实验期间的超参数设置。
结论与未来工作
在这项工作中,我们提出了DiffEEGBooth,这是一种用于MI-BCI的新型基于扩散的EEG生成框架。该框架利用3D结构化表示来保持电极的空间拓扑,结合了跨帧注意力(CFA)和时间序列优化(TSO)来共同捕捉短距离和长距离的时间依赖性,并加入了基于区域的ERD/ERS约束来增强神经生理学的合理性。在BCI Competition IV 2a和2b上的广泛实验表明
CRediT作者贡献声明
黄楚斌:撰写 – 原始草稿,验证,软件。李高强:撰写 – 原始草稿,验证。钟胜华:撰写 – 审稿与编辑,监督,方法论,资金获取。卢荣荣:验证,资金获取,概念化。高天豪:撰写 – 审稿与编辑,监督,方法论,调查。
利益冲突声明
作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:钟胜华报告获得了中国国家自然科学基金的支持。卢荣荣报告获得了中国国家自然科学基金的支持。钟胜华还报告获得了广东省基础与应用基础研究基金的支持。卢荣荣报告获得了
致谢
本研究得到了中国国家重点研发计划(2023YFC3604503)、中国国家自然科学基金(62472291,82372570)、上海市科学技术委员会资助的医学创新研究项目(23Y11900900)、广东省基础与应用基础研究基金(2025A1515012154)以及深圳市科技计划(JCYJ20250604181605008)的支持。