重度抑郁症(MDD)是全球范围内最普遍和致残的精神疾病之一,影响所有年龄段、性别和社会经济地位的人群[1],[2]。作为一种情绪障碍,MDD的临床特征包括持续的抑郁情绪、对大多数活动的兴趣或愉悦感降低(快感缺失)、无价值感或过度内疚感、认知缺陷以及反复出现的死亡或自杀念头[3],[4]。这些症状通常会持续数周或数月,并可能严重损害个人的社交、学术和职业功能。根据世界卫生组织(WHO)的数据,全球有超过2.8亿人受到抑郁症的影响,使其成为全球疾病负担的主要因素[5]。除了情感影响外,MDD还与心血管疾病、神经退行性疾病和物质使用障碍等共病风险增加有关[6]。MDD的隐匿性和慢性特征,加上其在青少年和年轻人中的发病率上升,凸显了改进检测、干预和长期管理策略的迫切需求。
早期和准确的诊断是减轻其长期后果的关键步骤,可以及时进行药物和心理治疗干预,最终减少与该疾病相关的个人和社会负担。然而,MDD的诊断仍然主要依赖于主观评估。标准临床协议通常包括基于《精神疾病诊断与统计手册》(DSM-5)中概述的标准结构化或半结构化访谈,以及广泛使用的自我报告工具,包括患者健康问卷(PHQ-9)、汉密尔顿抑郁量表(HDRS)和贝克抑郁量表(BDI)[7],[8]。虽然这些工具为识别抑郁症状提供了基础框架,但其诊断可靠性受到几个固有限制的制约。首先,自我报告症状的准确性经常受到患者内省能力、情绪认知能力和披露心理困扰意愿的影响。此外,社会污名、文化规范和对心理健康问题认识不足等因素可能导致症状报告不足或误判[9]。其次,临床访谈容易产生评分者间差异,不同临床医生可能对同一患者的回答解释或评分不一致,尤其是在边缘病例或共病情况下[10]。此外,抑郁症状的时间不稳定性,表现为情绪状态波动、认知障碍和间歇性复发,给单次评估带来了额外挑战,常常导致诊断延迟或遗漏[11]。因此,MDD经常被漏诊或误诊,特别是在心理健康专业知识有限的初级保健环境中。这些因素促使精神病学研究社区探索提供更高客观性、一致性和可扩展性的补充诊断方法[12]。特别是整合生理和神经生物学数据,如脑成像、电生理记录和可穿戴传感器输出,为增强临床决策开辟了新途径[13],[14],[15],[16]。
在新兴的精神病学评估技术中,脑电图(EEG)因其独特的优势而受到广泛关注。与MRI等结构成像技术或fMRI等高成本功能工具不同,EEG是非侵入性的、便携的、成本效益高的,并且能够以毫秒级的时间分辨率捕捉神经振荡[17],[18]。EEG通过放置在头皮上的电极直接记录由皮层神经元产生的电活动,提供了通过行为观察无法获得的实时大脑动态洞察[19],[20]。在MDD的背景下,许多研究表明患者表现出多个领域的独特EEG变化。这些变化包括额叶θ波功率增加、异常的α波不对称性(通常表现为右侧额叶激活增强)、功能连接中断以及半球间相干性模式改变[21],[22]。这些发现支持MDD是由可以通过EEG信号分析捕捉和量化的神经生理功能障碍所支持的假设。然而,大多数现有研究仅关注孤立的频率带或简单的功率谱密度,可能忽略了可能包含有关疾病神经基础的关键信息的多尺度和跨频率相互作用[23],[24]。因此,开发能够全面利用EEG信号中的空间和频谱信息的模型是推进MDD检测的关键下一步。
因此,基于EEG的计算方法已被广泛研究。早期方法依赖于手工制作的频谱或非线性特征与传统的机器学习分类器的结合。最近,包括卷积神经网络(CNN)和循环神经网络(RNN)在内的深度学习模型通过自动从原始EEG信号中学习判别性时空表示,展示了优越的性能[25],[26],[27],[28],[29]。
最近的研究进一步将深度学习技术应用于从EEG信号中解码MDD。例如,Seal等人[30]引入了一种深度卷积神经网络,直接从多通道EEG数据中学习时空模式,使用可视化技术揭示半球活动差异以进行抑郁检测。Sam等人[31]提出了一个混合框架,将尖峰神经网络与长短期记忆网络结合,有效分类个体抑郁程度。Hou等人[32]开发了一种轻量级卷积变换器神经网络,结合CNN的局部特征提取和变换器的全局依赖性捕获能力进行抑郁检测。Wu等人[33]提出了TwoM框架,通过双向交叉注意力模块整合了学习到的空间特征和时间频率特征。
尽管取得了这些进展,但仍存在重大挑战。首先,许多现有方法依赖于固定大小的时间核,限制了它们捕捉非平稳EE信号中快速瞬变和长距离动态的能力。其次,大多数模型独立处理频率带和多尺度特征,并在分类阶段进行简单连接,从而忽略了潜在的关键跨带相互作用和跨尺度依赖性。总体而言,这些限制限制了当前模型全面描述与MDD相关的复杂、多尺度和跨频率神经变化的能力。本研究的目标是开发一个具有交互意识的多尺度多带EEG框架用于MDD检测,并在公共数据集上验证其有效性和稳健性。
具体来说,我们提出了一个端到端模型MSMBANet。MSMBANet不是将多尺度时间特征和频率带表示视为独立组件,而是在统一的基于注意力的框架内明确建模它们的相互作用。该模型提取多尺度带内特征,并构建了一个双分支尺度和频率注意力模块,生成了一个统一的时间-频谱表示,既捕捉局部瞬变也捕捉全局节奏模式。该模型在两个公开可用的MDD EEG数据集上进行了评估,在准确率、敏感性和特异性方面始终优于最近的最先进方法。总结来说,本工作的主要贡献如下:
(1) 我们提出了MSMBANet,一个统一的多尺度多带注意力网络,明确建模了EEG基于MDD检测中的跨时间尺度和频率带的相互作用。
(2) 引入了一个多尺度特征提取模型(MFE-Module),在每个带内使用并行的大核、中核和小核卷积来捕捉固定核CNN设计之外的互补时间动态。
(3) 开发了一个双分支尺度和频率注意力模块(BiSFA-Module),以联合建模跨尺度依赖性和跨频率耦合,能够在减少参数冗余的同时,自适应地强调信息丰富的尺度和频率带。
本文的其余部分组织如下。第2节介绍了提出的MSMBANet,详细说明了其动机和模块设计。第3节描述了两个公开可用的MDD EEG数据集。第4节详细介绍了使用MSMBANB的EEG解码工作流程,并通过与基线模型和有效性分析进行比较来评估模型的性能。最后,第5节总结了本文。