EEGDiffuser：基于扩散模型的标签引导脑电图（EEG）信号合成技术，用于脑机接口（BCI）应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：EEGDiffuser: Label-guided EEG signals synthesis via diffusion model for BCI applications

【字体：大中小】 时间：2026年01月06日 来源：Neurocomputing 6.5

编辑推荐：

　　EEGDiffuser提出基于扩散模型的生成方法，通过条件化机制生成与任务标签一致的EEG信号，解决BCI领域数据稀缺问题。实验表明该方法在三类基准数据集上提升解码性能4%-6%，并保留情绪相关脑图等神经生理特征。

浙江大学脑机智能国家重点实验室，杭州，311121，中国

摘要

标记的与任务相关的大脑电图（EEG）数据有限，这继续阻碍了脑机接口（BCI）研究的进展。在特定实验条件下获取和注释EEG信号通常既费力又耗时，给数据收集的扩展和确保模型鲁棒性带来了重大挑战。为了解决这一限制，我们提出了EEGDiffuser，这是一个基于扩散的生成模型，旨在根据任务标签合成EEG信号。EEGDiffuser将EEG合成视为一个由学习到的得分函数引导的逆向随机过程，逐步将高斯噪声细化为结构化信号。为了确保生成的样本与特定的实验条件一致，在生成过程中引入了一个条件引导机制来结合标签信息。通过模拟EEG的关键神经生理特征，EEGDiffuser能够生成真实且与标签一致的EEG信号。在多种任务和解码器架构上的实证评估表明，即使在资源有限的场景下，结合合成信号也能持续提高解码性能。在三个基准数据集（FACED、BCIC-IV-2a和BCIC2020-3）上，EEGDiffuser相对于仅使用真实数据的基线相比，性能提高了4%–6%，并且始终优于现有的EEG合成方法。进一步分析显示，生成的EEG数据保留了与神经生理相关的模式，如与情绪相关的地形图和运动想象激活分布，与在特定条件下收集的真实数据观察到的模式相当。EEGDiffuser突显了基于扩散的生成建模在促进数据驱动的EEG研究以及探索BCI应用中的神经生理模式方面的潜力。

引言

由于非侵入性、毫秒级的时间分辨率以及在基础神经科学和辅助技术领域的广泛应用，脑电图（EEG）已成为脑机接口（BCI）[43], [45], [49], [68], [73]研究中的关键技术。近年来，基于EEG的BCI系统在运动想象分类[1], [2], [16], [37]、情绪识别[10], [12], [24], [25], [29], [42], [50], [57], [66]、注意力和工作负荷评估[17], [20]、听觉/视觉刺激解码[38], [39], [54]，甚至想象语音解码[27], [40]等应用中取得了有希望的结果。这些系统的成功在很大程度上依赖于准确解码神经信号，而这又依赖于大量高质量、标记好的EEG数据的可用性。

然而，获取高质量、标记好的EEG数据仍然是BCI研究中的一个关键瓶颈。 EEG记录通常需要专门的设备、严格控制实验室环境以及长时间的记录会话，使得大规模数据收集既昂贵又耗时。此外，注释过程——无论是将EEG信号与外部刺激、行为结果还是内部认知状态对齐——往往涉及帧级的时间精度和专家领域知识，这使得它既费力又难以扩展。这些实际限制严重限制了大规模、精心策划的数据集的可用性，成为开发可靠、高性能BCI系统的根本障碍。

对于深度学习[11], [26], [36], [62], [63], [77]等现代数据驱动方法来说，这一挑战尤为突出，因为这些方法需要大量的训练数据以避免过拟合并实现可靠的性能。在许多实际的BCI场景中——例如临床诊断[65], [67]、移动系统[6], [31]或个性化应用[75], [76]——只有有限量的标记数据可用，这成为阻碍算法进展和实际部署的关键瓶颈。为应对这些挑战，最近的研究探索了EEG基础模型[14], [28], [30], [34], [61], [64], [69], [70]的开发，这些模型旨在通过从大规模未标记的EEG数据中学习通用表示，并通过微调将其转移到下游任务中，以缓解标记数据稀缺的问题。尽管这些模型显示出前景，但有证据表明，它们仍然需要大量的标记数据才能有效地进行任务特定适应。因此，BCI应用中标记数据稀缺的挑战在很大程度上仍未解决。

为了解决这一限制，我们提出了EEGDiffuser，这是一个基于扩散概率模型[21], [22], [53], [55]的生成框架，旨在根据任务相关标签合成EEG信号。EEGDiffuser将信号生成过程建模为一系列去噪步骤，将高斯噪声转换为结构化的、类似EEG的信号，并通过条件机制确保与所需任务标签的一致性。重要的是，EEGDiffuer的目标不是替代真实的EEG数据，而是提供一种可扩展且可控的方法来生成真实、与标签对齐的合成数据。这样的合成数据可以帮助缓解标记EEG数据的稀缺性，从而实现更有效的模型训练，并可能提高BCI中的解码性能。基于合成EEG信号的这种改进解码过程的示意图如图1所示。

从EEG解码的角度来看，像EEGDiffuser这样的生成模型提供了模拟额外样本、解决数据不平衡问题以及在数据有限条件下支持预训练的宝贵机会。更广泛地说，它们促进了数据高效和适应性BCI系统的开发，可能降低实际部署的障碍。我们的实证评估表明，用EEGDiffuser生成的信号增强真实数据可以持续提高跨受试者或跨会话的EEG解码性能，尤其是在数据量少的情况下。进一步分析证实，生成的信号保留了与真实EEG数据中发现的基本神经生理特征一致，突显了它们在BCI研究中的实际价值。

我们的主要贡献总结如下：

•

合成框架：我们提出了EEGDiffuser，一个基于标签的扩散模型，用于生成EEG信号以缓解BCI中的数据稀缺问题。

•

实证评估：我们在多种BCI任务和数据集上进行了广泛的评估，显示EEGDiffuer生成的合成数据一致地提升了多个EEG解码器的性能。这突显了其在实际应用中的价值。

•

神经生理分析：我们的分析表明，生成的信号表现出与真实EEG相似的神经特征，支持了它们的神经生理合理性以及它们在神经解码和更广泛的神经科学发现方面的潜力。

部分片段

基于EEG的BCI

基于EEG的BCI系统旨在解码用于运动想象[2]、情绪识别[57]和想象语音[40]等任务的脑信号。尽管深度学习[9], [35], [47], [48], [72]在解码方面取得了进展，但由于标记EEG数据的稀缺，性能往往受到限制。最近的EEG基础模型[14], [28], [30], [34], [61], [64], [69], [70]利用了大规模未标记的语料库，但仍需要标记数据来进行任务特定的微调，这突显了

问题表述

设

X = {x_{i}}_{i = 1}^{N}

表示一组EEG记录，其中每个

x_{i} \in R^{C L}

代表一个具有

C

个通道和

L

个时间点的多通道EEG片段。设

Y = {y_{i}}_{i = 1}^{N}

为相应的任务标签，表示认知或行为状态（例如，运动想象、情绪或想象语音）。我们的目标是学习一个条件生成模型

p_{θ} (x ∣ y)

，该模型能够生成与给定任务标签

y

对齐的EEG信号。这个模型能够生成反映在特定

数据集和预处理

我们在三个公开可用的EEG数据集——FACED [7], BCIC-IV-2a [5]和BCIC2020-3 [23]——上评估了EEGDiffuser，这些数据集涵盖了情绪识别、运动想象和想象语音解码。这些数据集涵盖了多样的认知任务和实验条件，使我们能够对模型在多种BCI场景下的性能进行全面评估。数据集特征总结见表1，详细信息如下：

FACED[7]是一个大规模的情感EEG数据集，包含

意义

这项工作探索了基于扩散的生成建模在EEG信号合成方面的潜力，旨在解决脑机接口（BCI）研究中长期存在的标记数据稀缺问题。通过将条件扩散模型适应EEG的结构和特征，EEGDiffuser为生成技术如何协助神经信号解码和数据驱动的BCI发展提供了新的视角。

所提出的基于标签的公式使得生成

结论

我们提出了EEGDiffuser，这是一个基于标签的扩散模型，用于生成真实且与类别一致的EEG信号。EEGDiffuer在原则性的生成框架内捕捉了EEG信号的神经生理特征。在情绪识别、运动想象和语音解码任务上的广泛实验验证了其在改善解码性能方面的有效性，即使在资源有限的条件下也是如此。除了准确性的提高之外，地形图分析还揭示了合成EEG

CRediT作者贡献声明

Jiquan Wang：撰写——原始草稿。Sha Zhao：撰写——审阅与编辑。Zhiling Luo：验证。Yangxuan Zhou：数据管理。Shijian Li：项目管理。Gang Pan：项目管理。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

Jiquan Wang于2025年在中国杭州的浙江大学获得了计算机科学与技术博士学位。他目前是浙江大学脑机智能国家重点实验室的研究员。他的研究兴趣包括EEG解码、脑机接口和人工智能。他获得了2025年ACM杭州杰出博士论文奖。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号