《Pattern Recognition》:EEGcUCC: Semi-Supervised Deep EEG Clustering with Union Constraint Learning and Contrastive Learning
编辑推荐:
EEG信号半监督深度聚类方法首次融合对比预聚类与联合约束学习,通过对比学习构建簇友好嵌入,结合硬约束与高置信度软约束解决标签稀缺问题,实验验证其在12类数据集上优于传统无监督和半监督聚类方法。
陈俊福|皮德昌|姜晓义|高峰|陈阳
南京航空航天大学计算机科学与技术学院,南京,211100,中国
摘要
基于脑电图(EEG)的应用迅速增长,导致EEG数据量呈指数级上升,尤其是未标记的数据,这对像EEG分类这样的监督学习技术构成了挑战。尽管已经出现了一些无监督的EEG聚类研究来提供EEG标记的解决方案,但这些研究主要集中在浅层模型上,并忽略了具有部分先验信息的实际场景。为此,我们提出了一种半监督深度聚类方法,用于处理部分标记的EEG信号,称为带有联合约束学习和对比学习的半监督深度EEG聚类(EEGcUCC)。据我们所知,这项工作是首次尝试使用深度学习来解决半监督EEG聚类问题。在EEGcUCC中,开发了一种基于无监督对比学习的预训练范式——对比预聚类,用于初始化适合聚类的嵌入和端到端的聚类分配输出。为了减轻标签稀缺引起的确认偏置,我们引入了一种联合成对约束损失,将先验的硬约束与来自高置信样本的软伪约束结合起来。此外,所提出的联合对比学习利用半监督对比损失全局整合了先验样本、类别原型和伪标记样本,有助于学习鲁棒的嵌入。在12个EEG数据集上的全面实验表明,与先进的无监督和半监督聚类方法相比,EEGcUCC取得了更好的聚类结果。
引言
由于非侵入性、低成本和高时间分辨率,EEG已成为记录大脑活动最流行的技术之一。因此,基于EEG的脑机接口(BCI)系统在临床应用[1]、认知科学[2]和人机交互[3] [4]等领域展示了重要的研究价值和潜力。然而,现有的研究[5]主要集中在需要大量标记数据作为训练先验知识的监督EEG分析任务上。不幸的是,EEG并不总能在受控实验室环境之外轻松获取和记录。例如,在癫痫和中风等诊断情境中,由于利益冲突或隐私问题[6] [7],EEG标记变得复杂且具有挑战性。不准确或缺失的标签会降低诊断模型的准确性,从而对患者构成潜在风险。因此,随着基于EEG的应用扩展和未标记数据的积累,EEG标记变得越来越劳动密集和耗时。
一种直接但有效的EEG标记解决方案是数据聚类。聚类根据对象的相关性或模式将它们分组,而无需监督信息。一些研究[8] [10]填补了无监督EEG聚类的研究空白,为EEG标记提供了有希望的解决方案。例如,戴等人[10]将EEG信号映射到Fréchet相似性加权图中,并使用最大权重团搜索进行聚类。然而,这些研究依赖于低级别的手工特征来划分EEG数据,可能无法揭示更高层次的语义。因此,聚类性能可能会受到限制。为了解决这个问题,一些开创性的研究[11] [12]转向探索深度聚类用于EEG分析。具体来说,埃利斯等人[11]提出使用卷积自编码器中的潜在空间来聚类静息阶段的EEG数据。
在现实世界中,EEG数据通常以少量标记数据与大量未标记数据混合的形式存在。在这种情况下,如何充分利用标记数据来提高EEG聚类性能已成为一个更具挑战性和实际意义的研究方向。尽管当前的深度学习聚类算法在无监督聚类领域已经得到了充分研究,但与半监督深度聚类相关的研究,特别是EEG信号的半监督聚类,仍然处于起步阶段。
为了解决上述挑战,我们提出了一个名为带有联合约束和对比学习的半监督深度聚类框架(EEGcUCC)。在EEGcUCC中,引入了一个基于Mamba的骨干网络BrainMamba,使用对比预聚类范式进行预训练,该范式包括实例级对比头和簇级对比头。在预训练期间,实例级对比头和簇级对比头最大化/最小化正样本对/负样本对的嵌入以及正簇对/负簇对的概率分配的一致性。随后,联合约束学习通过成对约束损失同时处理软伪约束和先验的硬约束,其中软伪约束是由归一化熵选择的高置信伪标签生成的。值得注意的是,我们计算了Jensen-Shannon距离(JSD),这是一种从0到1的对称度量,用于作为软伪约束。同时,我们采用监督对比损失来结合监督的先验样本、类别原型以及高置信和低置信样本进行联合对比学习,从而有助于学习鲁棒的嵌入。我们的实验结果表明,与先进的无监督和半监督方法相比,EEGcUCC取得了更好的聚类结果。
总结来说,我们工作的主要贡献如下:
- •
我们提出了一种新颖的端到端半监督深度聚类框架,其中使用无监督技术——对比预聚类进行预训练,以获得适合聚类的嵌入。据我们所知,这是首次尝试使用深度学习来解决半监督EEG聚类问题。
- •
所提出的联合约束学习不仅通过硬约束考虑了先验信息,还构建了具有高置信聚类分配的信息样本之间的软伪约束。随后,通过预测约束关系,它将先验知识与高质量未标记信息结合起来。
- •
本研究介绍了一种联合对比学习策略,用于处理先验样本、类别原型以及高置信和低置信样本,以实现鲁棒的嵌入学习。具体来说,我们根据实际预测为高置信样本分配伪标签,并为低置信样本分配偏移的伪标签,以便在嵌入空间中将它们分开。
接下来,第2节将总结与EEG聚类和半监督深度学习相关的工作。第3节介绍了半监督EE聚类的初步知识。第4节详细描述了EEGcUCC的细节。随后,第5节展示了在12个EEG数据集上的实验结果。最后,第6节给出了结论和未来的工作方向。
相关工作
相关工作
在本节中,我们概述了与我们的研究相关的工作,包括EEG聚类和半监督深度聚类。
初步
在实际的EEG半监督聚类任务中,先验信息主要来自标签,而不是像图像半监督聚类中通常使用的成对约束。具体来说,EEG信号的复杂性使得判断一对EEG是否属于同一类别变得更加复杂,而在图像中这项任务通常更为直接。
因此,我们考虑将一个包含标记集
和方法论
在本节中,提出了用于半监督深度EEG聚类的EEGcUCC。为了初始化适合聚类的嵌入,我们建议使用对比预聚类进行预训练。在微调过程中,联合约束和对比学习全面结合了先验知识与整个数据分布。以下小节详细介绍了EEGcUCC的每个组成部分,图1提供了概述。
数据集和评估指标
如表1所述,来自基准EEG聚类仓库[10]的评估数据集包括12个不同的EEG数据集,这些数据集分为:(1)三个慢皮层电位(SCPs)数据集,包括一个健康个体(II_Ia)、一个被诊断为肌萎缩侧索硬化症(ALS)的患者(II_Ib)以及它们的合并数据集(表示为II_Ia&Ib);(2)三个类别的心理意象EEG数据集包含频谱
结论
在BCI、疾病诊断和康复领域,未标记EEG信号的数量持续增加。在这种背景下,分析部分标记的EEG信号已成为一个紧迫且极具挑战性的问题。然而,关于半监督EEG聚类的研究仍处于起步阶段,现有工作主要集中在使用手工特征的浅层模型上。为此,本文首次尝试将深度学习技术应用于半监督EEG聚类
CRediT作者贡献声明
陈俊福:撰写——原始草稿、可视化、软件、资源、项目管理、方法论、调查、正式分析、数据整理、概念化。皮德昌:撰写——审阅与编辑、方法论。姜晓义:撰写——审阅与编辑、方法论。高峰:软件、方法论。陈阳:软件、方法论。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
致谢
本工作得到了国家科技重大项目(项目编号2021ZD0113103)和江苏省研究生研究与实践创新计划(项目编号KYCX24_0609)的支持。