具有自适应多尺度频谱注意力机制和时间建模的自监督脑电图（EEG）Transformer模型，用于癫痫发作预测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Biomedical Signal Processing and Control》：Self-supervised EEG transformer with adaptive multi-scale spectral attention and temporal modeling for seizure prediction

【字体：大中小】 时间：2026年02月23日 来源：Biomedical Signal Processing and Control 4.9

编辑推荐：

　　本研究提出一种新型自监督学习框架，通过多尺度自适应光谱块（MSASB）和全局局部时间模块（GLTM）联合建模，有效捕捉EEG信号的频域和时域联合特征，显著提升癫痫预测的准确性和鲁棒性。实验表明，该模型在CHB-MIT、TUAB和TUSZ数据集上分别达到98.14%准确率、0.897 AUROC和0.668 F1-score，超越现有自监督方法。

黄亚金|陈允灿|徐世民|王一桥|吴东彦|吴迅怡

复旦大学华山医院神经科，上海200040，中国

摘要

基于头皮脑电图（EEG）信号的可靠癫痫发作预测对于提高癫痫患者的生活质量和安全至关重要。自监督学习（SSL）在从未标记的EEG记录中学习特征表示方面显示出强大的潜力。然而，许多现有的预训练任务未能充分考虑非平稳性和噪声问题，也没有明确建模癫痫发作预测所需的联合频谱-时间结构。为了解决这些挑战，我们提出了一种新的SSL框架，该框架通过两个核心组件共同建模频域和时间域特征：多尺度自适应频谱块（MSASB）和全局与局部时间模块（GLTM）。MSASB应用可学习的多带滤波和频域注意力来增强频谱表示并抑制噪声，而GLTM结合多头自注意力和卷积来捕捉全局和局部时间动态。这种双域设计显著提高了特征的鲁棒性和可解释性。在三个基准数据集上的广泛实验证明了我们模型的有效性。在波士顿儿童医院-MIT（CHB-MIT）数据集上，该模型达到了98.14%的准确率，并超越了所有现有的基于SSL的方法。在坦普尔大学医院异常EEG语料库（TUAB）和坦普尔大学医院癫痫发作语料库（TUSZ）上，该模型获得了0.814的平衡准确率、0.897的AUROC和0.668的F1分数，证实了其在多种癫痫预测任务中的鲁棒性和泛化能力。这些发现表明我们的框架作为未来实时癫痫预测和更广泛的基于EEG的临床应用的有效基础具有潜力。

引言

癫痫是最常见的神经系统疾病之一，影响着全球超过5000万人，给个人和社会带来了重大负担[1]。其特征是神经元活动过度和异常，导致反复发作，可能引起意识丧失、情绪障碍、认知障碍，在严重情况下还会增加早死风险[2]。尽管有多种治疗方法，但大约30%的患者仍然经历药物难治性癫痫发作，而外科干预往往面临多个癫痫灶或关键脑区受累等挑战，这限制了其适用性[3]。鉴于当前对药物难治性癫痫治疗的局限性，开发可靠的癫痫发作预测方法变得至关重要——这些方法通常依赖于区分发作前和发作期间的EEG状态以预测癫痫发作——从而提供早期预警并降低与不可预测的癫痫发作相关的风险[4]。从信号处理的角度来看，癫痫发作表现为神经元群体的短暂同步，这在EEG中表现为节律性放电、频谱功率变化和非平稳时间振荡[5]、[6]、[7]。这些电生理模式通常涉及发作前delta、theta和gamma波段能量的变化，为预测建模提供了可测量的生物标志物。

传统的癫痫发作预测方法严重依赖于基于经典信号处理的手工特征提取技术。在时间域，如方差、Hjorth参数和高阶统计矩等特征被广泛用于表征幅度波动和非平稳动态[8]。在频域，频谱能量和功率谱密度（PSD）分析作为发作前演变和异常振荡的重要指标[6]。时频方法，包括小波变换、经验模态分解（EMD）和Hilbert-Huang变换，能够实现多分辨率分析，以捕捉EEG节律中的瞬态事件和频率特异性激活[8]、[9]。虽然这些方法提供了对癫痫发作机制的生理学可解释性见解，但它们依赖于手工制作的特征，并且常常受到受试者间变异性和噪声污染的限制，从而限制了它们在大规模临床数据集上的泛化能力。

近年来，随着深度学习的迅速发展，基于EEG的癫痫发作预测方法取得了显著进展。许多研究利用卷积神经网络（CNN）、循环神经网络（RNN）和Transformer架构从EEG信号中自动提取区分性特征[10]、[11]、[12]、[13]，显著提高了预测准确性。然而，这些方法通常依赖于受试者内训练策略，并需要大量标记数据，这不仅增加了临床医生的工作负担，也限制了模型在实际应用中的可扩展性和泛化能力。此外，传统的监督学习方法难以充分利用临床环境中常见的大量未标记EEG数据，导致宝贵数据资源的严重浪费[14]、[15]。为了解决这些挑战，SSL作为一种有前景的方法应运而生[16]。通过设计诸如掩蔽与重建和时间序列预测等预训练任务，自监督学习（SSL）能够在无需手动注释的情况下自动学习潜在的EEG表示，从而显著减少对标记数据的依赖，并增强模型对噪声和信号退化的鲁棒性[17]、[18]。这些方法特别适合处理常规临床实践中收集的大量未标记EEG数据，部分缓解了标记数据集稀缺带来的限制。

SSL已成为解决EEG信号分析中标记数据集有限挑战的强大工具。近年来，研究人员开发了各种自监督框架来提高癫痫分析的准确性和泛化能力。例如，自监督图神经网络（GNN）方法引入了节点预测和边重建任务，以提取EEG通道之间的时空依赖性，开创了在EEG分析中使用图结构的先河[17]。在此基础上，BIOT模型[18]通过将EEG通道分割并重新组合成“句子”状结构，将SSL扩展到跨数据集学习。这种策略有效解决了异构生物信号和通道配置不匹配的问题，增强了学习框架的灵活性[18]。为了进一步推进通用EEG表示，EEGPT[19]采用了基于Transformer的架构，结合了掩蔽重建和时间对齐任务。这种方法通过使用高容量Transformer模型将BIOT的跨域设计扩展到更广泛的统一任务，展示了强大的多任务性能。为了减轻噪声的影响并捕获稳定、可解释的特征，VQ-MTM方法[20]引入了随机投影和相位对齐策略来细化从噪声EEG信号中提取语义单元。然而，这种方法并未完全解决噪声被编码到表示中的问题。

尽管SSL在EEG分析方面取得了显著进展，但在癫痫发作预测的背景下仍存在一些理论和实践挑战。之前的SSL框架通常依赖于掩蔽与重建或时间序列预测等预训练任务，这些任务隐含地假设EEG信号中的表示是稳定和明确定义的[18]、[20]。然而，EEG信号本质上是非平稳的，容易受到各种噪声源的影响，包括眼动和肌肉伪迹，导致表示不稳定和模型性能下降[19]、[21]。此外，许多现有的SSL方法缺乏对EEG数据联合频谱-时间特征的明确建模[22]，这使得捕捉发作前和发作期间状态之间的微妙但关键的转换变得困难。这一限制阻碍了模型准确预测癫痫发作的能力，因为它未能充分利用EEG信号在频域和时间域中嵌入的丰富信息。

为了解决这些不足，我们提出了一种新的基于SSL的方法，明确整合了频域和时间域特征提取。我们的方法包括两个关键创新：多尺度自适应频谱块（MSASB）和全局与局部时间模块（GLTM）。具体来说，MSASB利用多尺度滤波和频域注意力机制选择性地提取关键频谱特征并有效抑制EEG噪声干扰。通过动态强调相关频段，这种频谱域策略在噪声条件下稳定了表示学习。同时，GLTM使用多头自注意力（MSA）建模长距离全局时间依赖性，并利用CNN捕捉局部时间动态和细粒度的EEG信号变化。通过整合这些互补机制，我们的方法稳健地捕捉了全局和局部时间结构，增强了特征提取的稳定性和表示的可解释性。与将频谱和时间特征分开处理的传统信号处理流程不同，我们的框架通过自监督目标学习了一个自适应的联合表示。这种设计提高了可解释性，同时保持了对大规模EEG语料库的可扩展性。最终，这种双域方法显著提高了模型从复杂原始EEG数据中进行癫痫预测的鲁棒性和预测准确性。

本文的主要贡献如下：

•
提出了一种新的SSL框架，该框架联合整合了频域和时间域特征提取，以实现稳健的EEG表示学习。
•
开发了一个自适应的多尺度频谱注意力模块，提高了对噪声和伪迹的鲁棒性，并捕获了更准确的癫痫发作预测所需的区分性频谱线索。
•
引入了时间建模，以捕捉EEG信号中的长距离依赖性和细粒度局部动态，提高了预测性能。
•
在CHB-MIT数据集上实现了最先进的癫痫发作预测结果，准确率达到98.14%，在TUAB数据集上的AUROC为0.897。

部分摘录

用于癫痫预测的深度学习方法

近年来，深度学习方法在基于EEG的癫痫发作预测任务中取得了显著进展，主要通过使用CNN、RNN和Transformer等架构。基于CNN的方法在捕捉EEG信号中的空间和频谱模式方面表现出色，从而提高了癫痫预测的准确性[10]、[11]、[13]。例如，Schirrmeister等人提出了一个能够解码和可视化

预训练数据

为了模型预训练，我们选择了包含多种脑活动和记录条件的多个EEG数据集。这些数据集包括SEED数据集[34]，其中包含15名受试者在观看情感视频刺激时进行的62通道EEG记录；PhysioMI数据集[35]，包含109名受试者在执行运动任务和运动想象任务时的64通道EEG记录；以及TSU SSVEP数据集[36]，其中包含

方法

我们提出了一种新的自监督框架，该框架整合了频域和时间域特征提取，以增强基于EEG的癫痫发作预测，如图1所示。该方法将MSASB和GLTM集成到每个Transformer块中。MSASB利用多尺度滤波和频域注意力选择性地提取关键频谱特征，同时抑制噪声，捕捉低频和高频成分。GLTM结合MSA来建模长距离时间依赖性

在CHB-MIT数据集上的评估

我们对CHB-MIT数据集中的所有患者使用了留一癫痫发作交叉验证协议，以确保公平的泛化评估。为了提前4秒预测癫痫发作，使用敏感性、特异性、AUROC和准确性作为评估指标，对CHB-MIT数据集中的13名患者评估了BIOT[18]模型和所提出的模型（“我们的模型”）。详细结果如表2和表3所示。可以看出，所提出的模型取得了更好的

讨论

所提出的自监督EEG Transformer结合了自适应的MSASB和双路径GLTM，以学习稳健的频谱-时间表示，用于癫痫预测。在三个基准头皮EEG数据集（CHB-MIT、TUAB、TUSZ）上，该模型一致地获得了有竞争力的AUROC性能，证明了在统一的SSL框架内结合频域和时间域分析的有效性。消融实验确认MSASB和GLTM都发挥了互补作用

结论

本研究提出了一个用于癫痫预测的自监督频谱-时间Transformer，整合了两个互补组件：MSASB和GLTM。与主要依赖于重建或时间连续性的先前SSL框架不同，我们的方法明确建模了多带频谱动态和长短期时间依赖性，从而能够从非平稳的头皮EEG中实现更稳健的学习。在三个基准数据集上的全面评估证明了这一优势

CRediT作者贡献声明

黄亚金：撰写——原始草稿、软件、方法论、数据管理、概念化。陈允灿：撰写——审阅与编辑、可视化、方法论、调查。徐世民：形式分析、数据管理。王一桥：可视化、软件、概念化。吴东彦：数据管理。吴迅怡：撰写——审阅与编辑、监督、项目管理、方法论、资金获取、概念化。

利益冲突声明

我们声明与任何可能不恰当地影响我们工作的人或组织没有财务和个人关系，也没有任何形式的专业或其他个人利益涉及可能影响本文所述立场或手稿评审的任何产品、服务或公司。

致谢

本工作得到了国家重点研发计划的支持，授权编号为2022YFC2503803。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号