精神障碍,包括精神分裂症,是一种慢性且致残的神经精神疾病,其特征是妄想、幻觉、思维障碍和认知功能障碍,给患者和医疗系统带来巨大负担。尽管临床诊断主要依赖于精神病学访谈,但缺乏客观生物标志物仍然给诊断和预后带来挑战。脑电图(EEG)因其可获取性、低成本和高时间分辨率而成为识别精神谱系障碍神经生物标志物的有力工具。先前的研究已记录了患者脑电信号中的慢波节律(delta/theta)、α活动和非线性动态的异常(Newson和Thiagarajan, 2019; Ba?ar等人, 2021; Chen等人, 2022; Keshavan等人, 2021; Naeim和Narimani, 2025)。然而,预处理流程、特征提取方法、建模策略的差异以及许多研究中相对较小的样本量限制了研究结果的普遍性(Michel和Murray, 2012; Babiloni等人, 2020)。
在过去十年中,经典机器学习(ML)和深度学习(DL)越来越多地被应用于揭示多维EEG模式,但非技术读者常常误解它们的相对优势和劣势。为了向更广泛的生物心理学读者群体普及这些方法论概念,有必要进行澄清。支持向量机(SVM)和深度神经网络(DNN)是两种不同的分类方法,每种方法根据数据特点具有特定优势。支持向量机(SVM)是一种监督学习算法,通过识别最佳区分两组数据的边界来进行分类。在实际应用中,该算法确定哪些EEG特征组合最能清晰地区分患者和对照组,并利用这种学习模式对新个体进行分类。当参与者数量较少但提取的特征较多时,SVM尤为适用,因为它们依赖于决策边界附近的信息量最大的样本,在小样本条件下不易过拟合。相比之下,DNN可以从原始或经过最小处理的数据中自动学习层次化表示。然而,由于其大量参数,在训练样本有限时容易过拟合,除非有大型数据集、广泛的正则化或数据增强措施的支持(Barros等人, 2021; Keihani等人, 2022; Fahimi等人, 2023; Zhang等人, 2023)。此外,对模型可解释性的日益重视推动了排列重要性和SHapley加性解释(SHAP)等技术的应用,这是一种基于博弈论的可解释性方法,可为每个特征分配一个反映其对模型预测影响的贡献值,从而了解单个特征如何影响分类决策(Lundberg SM, Lee, 2017; Samek等人, 2021; Aziz等人, 2022)。尽管如此,许多研究要么缺乏在样本量有限条件下的SVM和DNN直接比较,要么未能系统地将可解释性纳入结果分析(Fahimi等人, 2023; Samek等人, 2021)。
系统综述和元分析一致显示,患者在静息状态EEG中通常表现出α功率降低和慢波活动增加(Ba?ar等人, 2021; Newson和Thiagarajan, 2019;以及2021-2024年的最新综述)。虽然本研究基于任务相关的EEG数据(“最后通牒游戏”),但结果也揭示了关键指标中的相似模式。在以分类为导向的研究中,Barros等人(2021)和Keihani等人(2022)的研究表明,结合频谱和非线性特征的SVM和随机森林模型在样本量有限的情况下也能实现高准确率。相反,Zhang等人(2023)和Tiwari等人(2024)的综述指出,当数据不足时,DL模型容易过拟合,需要仔细调整超参数。同时,越来越多的研究将可解释性置于核心位置:从Lundberg和Lee(2017)关于SHAP的基础工作,到Samek等人(2021)和Aziz等人(2022, 2023)报告的EEG中可解释AI(XAI)的应用。这些研究表明,将特征重要性与神经生理现象联系起来对于临床应用和机制假设的生成至关重要。
在特征层面,非线性指标常用于捕捉精神障碍中EEG信号的复杂和非平稳特性。Hjorth参数是时间域描述符,用于表征信号的统计特性:“活动性”表示信号功率(方差),“移动性”估计平均频率,“复杂性”衡量信号与纯正弦波的偏差。此外,熵指标(如近似熵)量化系统的不规则性或不可预测性,而分形维数评估信号的自相似性和复杂性(Hjorth, 1970; Jalili, 2010; Ahmadlou等人, 2020)。对于不熟悉非线性信号分析的读者来说,明确这些定义至关重要,因为这些指标是许多基于EEG的分类研究的基础,并在当前研究中发挥核心作用。
从创新的角度来看,本研究利用了公开可用的“精神分裂症中的最后通牒游戏”数据集(OpenNeuro: ds004000)。尽管数据集名称提到精神分裂症,但诊断记录表明样本包括偏执型精神分裂症(F20.0)和急性短暂性精神障碍(F23),因此将其视为精神谱系障碍队列。研究采用了标准化的预处理程序(过滤、ICA、平均参考和2秒时间窗口),以实现两个互补目标:(1)在样本量有限但特征丰富的情况下公平比较SVM和DNN(包括频谱、非线性和经典指标如Hjorth参数);(2)通过排列重要性和SHAP分析提高可解释性,明确哪些特征最能区分患者和对照组。通过明确描述SVM和DNN背后的方法论假设并定义关键的非线性EEG特征,本研究旨在确保其分析方法对不同学科背景的读者透明且可解释。
该设计在方法论上通过受试者交叉验证、过拟合控制和使用AUC/准确率/召回率/特异性进行评估,在解释性方面通过将模型解释直接与神经生理标志物联系起来,填补了文献中的关键空白。重要的是,它试图回答一个临床相关的问题:当样本量有限时,基于EEG的精神谱系障碍应用中,基于特征的SVM还是DNN更可靠?(Barros等人, 2021; Zhang等人, 2023; Samek等人, 2021; Tiwari等人, 2024)。
因此,本研究的目标有三个:
- 1.
评估和比较SVM和DNN在分类精神谱系障碍患者与健康对照组EEG数据方面的性能。
- 2.
使用排列重要性识别最具信息量的特征,并通过SHAP解释其效应的方向和幅度。
- 3.
讨论这些发现对基于EEG的筛查和监测的潜在临床应用,同时承认与样本量小的限制,并展望未来方向(扩大数据集规模、开展多中心研究和整合多模态数据)。