基于脑电图(EEG)的精神病生物标志物:支持向量机与深度神经网络的比较性能

【字体: 时间:2026年03月05日 来源:Biological Psychology 2.9

编辑推荐:

  精神分裂症等精神病谱障碍的EEG特征分析显示,支持向量机(SVM)在小样本条件下表现优于深度神经网络(DNN),准确率达89.9%。关键区分特征为非线性指标(Hjorth复杂度/活动度)及delta/theta低频功率。研究强调传统机器学习在小数据集中的稳定性优势,并指出非线性脑电特征在早期筛查和个性化神经反馈中的潜力。

  
Mahdi Naeim | Mohammad Narimani
伊朗阿尔达比勒莫哈格赫阿达比勒大学教育科学与心理学学院心理学系

摘要

脑电图(EEG)为研究精神谱系障碍中的神经异常提供了便捷的窗口,但在样本量有限的情况下,经典机器学习与深度学习的相对效用仍不确定。本研究比较了支持向量机(SVM)和深度神经网络(DNN)在基于“最后通牒游戏”期间收集的任务相关EEG数据进行精神障碍分类时的表现。43名参与者(19名患者,24名对照组)的数据经过预处理后,用于提取频谱特征、非线性动态(Hjorth参数、熵、分形维数)和功能连接性指标。分类采用5折受试者交叉验证方法,特征重要性通过排列法和SHapley加性解释(SHAP)进行分析。结果表明,支持向量机(SVM)的性能优于深度神经网络(DNN)(准确率=89.9%,AUC=0.959 vs 准确率=78.1%,AUC=0.879)。非线性特征,尤其是Hjorth复杂性和活动性,以及delta/theta功率,是区分精神障碍患者和对照组的最重要因素。这些发现表明,在样本量小但特征丰富的EEG数据集中,经典机器学习比深度学习具有更稳定和更易解释的结果。非线性和低频指标作为精神谱系障碍的潜在生物标志物,在早期筛查、治疗监测和个性化神经反馈中具有应用价值。更大规模的多站点数据集对于验证其普遍性和临床实用性至关重要。

引言

精神障碍,包括精神分裂症,是一种慢性且致残的神经精神疾病,其特征是妄想、幻觉、思维障碍和认知功能障碍,给患者和医疗系统带来巨大负担。尽管临床诊断主要依赖于精神病学访谈,但缺乏客观生物标志物仍然给诊断和预后带来挑战。脑电图(EEG)因其可获取性、低成本和高时间分辨率而成为识别精神谱系障碍神经生物标志物的有力工具。先前的研究已记录了患者脑电信号中的慢波节律(delta/theta)、α活动和非线性动态的异常(Newson和Thiagarajan, 2019; Ba?ar等人, 2021; Chen等人, 2022; Keshavan等人, 2021; Naeim和Narimani, 2025)。然而,预处理流程、特征提取方法、建模策略的差异以及许多研究中相对较小的样本量限制了研究结果的普遍性(Michel和Murray, 2012; Babiloni等人, 2020)。
在过去十年中,经典机器学习(ML)和深度学习(DL)越来越多地被应用于揭示多维EEG模式,但非技术读者常常误解它们的相对优势和劣势。为了向更广泛的生物心理学读者群体普及这些方法论概念,有必要进行澄清。支持向量机(SVM)和深度神经网络(DNN)是两种不同的分类方法,每种方法根据数据特点具有特定优势。支持向量机(SVM)是一种监督学习算法,通过识别最佳区分两组数据的边界来进行分类。在实际应用中,该算法确定哪些EEG特征组合最能清晰地区分患者和对照组,并利用这种学习模式对新个体进行分类。当参与者数量较少但提取的特征较多时,SVM尤为适用,因为它们依赖于决策边界附近的信息量最大的样本,在小样本条件下不易过拟合。相比之下,DNN可以从原始或经过最小处理的数据中自动学习层次化表示。然而,由于其大量参数,在训练样本有限时容易过拟合,除非有大型数据集、广泛的正则化或数据增强措施的支持(Barros等人, 2021; Keihani等人, 2022; Fahimi等人, 2023; Zhang等人, 2023)。此外,对模型可解释性的日益重视推动了排列重要性和SHapley加性解释(SHAP)等技术的应用,这是一种基于博弈论的可解释性方法,可为每个特征分配一个反映其对模型预测影响的贡献值,从而了解单个特征如何影响分类决策(Lundberg SM, Lee, 2017; Samek等人, 2021; Aziz等人, 2022)。尽管如此,许多研究要么缺乏在样本量有限条件下的SVM和DNN直接比较,要么未能系统地将可解释性纳入结果分析(Fahimi等人, 2023; Samek等人, 2021)。
系统综述和元分析一致显示,患者在静息状态EEG中通常表现出α功率降低和慢波活动增加(Ba?ar等人, 2021; Newson和Thiagarajan, 2019;以及2021-2024年的最新综述)。虽然本研究基于任务相关的EEG数据(“最后通牒游戏”),但结果也揭示了关键指标中的相似模式。在以分类为导向的研究中,Barros等人(2021)和Keihani等人(2022)的研究表明,结合频谱和非线性特征的SVM和随机森林模型在样本量有限的情况下也能实现高准确率。相反,Zhang等人(2023)和Tiwari等人(2024)的综述指出,当数据不足时,DL模型容易过拟合,需要仔细调整超参数。同时,越来越多的研究将可解释性置于核心位置:从Lundberg和Lee(2017)关于SHAP的基础工作,到Samek等人(2021)和Aziz等人(2022, 2023)报告的EEG中可解释AI(XAI)的应用。这些研究表明,将特征重要性与神经生理现象联系起来对于临床应用和机制假设的生成至关重要。
在特征层面,非线性指标常用于捕捉精神障碍中EEG信号的复杂和非平稳特性。Hjorth参数是时间域描述符,用于表征信号的统计特性:“活动性”表示信号功率(方差),“移动性”估计平均频率,“复杂性”衡量信号与纯正弦波的偏差。此外,熵指标(如近似熵)量化系统的不规则性或不可预测性,而分形维数评估信号的自相似性和复杂性(Hjorth, 1970; Jalili, 2010; Ahmadlou等人, 2020)。对于不熟悉非线性信号分析的读者来说,明确这些定义至关重要,因为这些指标是许多基于EEG的分类研究的基础,并在当前研究中发挥核心作用。
从创新的角度来看,本研究利用了公开可用的“精神分裂症中的最后通牒游戏”数据集(OpenNeuro: ds004000)。尽管数据集名称提到精神分裂症,但诊断记录表明样本包括偏执型精神分裂症(F20.0)和急性短暂性精神障碍(F23),因此将其视为精神谱系障碍队列。研究采用了标准化的预处理程序(过滤、ICA、平均参考和2秒时间窗口),以实现两个互补目标:(1)在样本量有限但特征丰富的情况下公平比较SVM和DNN(包括频谱、非线性和经典指标如Hjorth参数);(2)通过排列重要性和SHAP分析提高可解释性,明确哪些特征最能区分患者和对照组。通过明确描述SVM和DNN背后的方法论假设并定义关键的非线性EEG特征,本研究旨在确保其分析方法对不同学科背景的读者透明且可解释。
该设计在方法论上通过受试者交叉验证、过拟合控制和使用AUC/准确率/召回率/特异性进行评估,在解释性方面通过将模型解释直接与神经生理标志物联系起来,填补了文献中的关键空白。重要的是,它试图回答一个临床相关的问题:当样本量有限时,基于EEG的精神谱系障碍应用中,基于特征的SVM还是DNN更可靠?(Barros等人, 2021; Zhang等人, 2023; Samek等人, 2021; Tiwari等人, 2024)。
因此,本研究的目标有三个:
  1. 1.
    评估和比较SVM和DNN在分类精神谱系障碍患者与健康对照组EEG数据方面的性能。
  2. 2.
    使用排列重要性识别最具信息量的特征,并通过SHAP解释其效应的方向和幅度。
  3. 3.
    讨论这些发现对基于EEG的筛查和监测的潜在临床应用,同时承认与样本量小的限制,并展望未来方向(扩大数据集规模、开展多中心研究和整合多模态数据)。

研究设计

研究设计

本研究采用分析性二次数据分析方法,采用横断面框架,旨在识别精神谱系障碍的基于EEG的生物标志物,并将其与健康对照组进行比较。数据来自一个公开可用且经过验证的存储库,并使用机器学习算法进行分析。本研究的主要焦点是提取电生理特征和进行预测建模,这两者在目标和分析方法上有所不同。

参与者

分析了43名参与者的数据,包括19名患者(P)和24名健康对照组(HC)。患者的平均年龄为26.7 ± 6.2岁,对照组的平均年龄为27.4 ± 5.9岁。两组在性别分布上相当,患者组有12名男性和7名女性,对照组有15名男性和9名女性(表2)。
基线人口统计变量在两组间基本相当,表明分类分析未受到年龄或性别的干扰。

排列重要性

如图2所示,排列分析显示,非线性特征(如hj_complexity_mean和hj_activity_mean)以及低频功率指标(如rp_theta_mean和bp_delta_mean)在区分患者和健康对照组方面贡献最大。这些结果表明,变异性、复杂性和低频神经活动是影响最大的因素,这些特征反映了精神谱系障碍中改变的皮层动态。

讨论

本研究的主要发现是,基于特征的机器学习,特别是支持向量机(SVM),使用任务相关EEG数据实现了对精神障碍患者与健康对照组的稳健且相对稳定的分类性能,而深度神经网络(DNN)在这种小样本设置下的表现较差。这一结果强调了在样本量小且特征丰富的EEG数据集中,经典算法通常比深度学习方法更可靠和可解释。

结论

本研究表明,在样本量有限的情况下,基于特征的机器学习,特别是支持向量机(SVM),在基于任务相关EEG的数据分类中比深度神经网络提供了更稳定和准确的分类结果。非线性指标(尤其是Hjorth复杂性和活动性)以及低频功率(delta和theta)的显著作用突显了时间组织和大规模神经协调的核心变化。

未引用的参考文献

(Kannathal等人, 2005; Ramsay等人, 2023)

CRediT作者贡献声明

Mohammad Narimani:撰写 – 审稿与编辑、初稿撰写、可视化、验证、监督、软件使用、资源管理、项目管理、方法论设计、研究实施、资金获取、正式分析、数据整理、概念构思。Mahdi Naeim:撰写 – 审稿与编辑、初稿撰写、可视化、验证、监督、软件使用、资源管理、项目管理、方法论设计、研究实施、资金获取、正式分析、数据整理

写作过程中生成式AI和AI辅助技术的声明

本研究未使用任何生成式AI或AI辅助技术。

利益冲突声明

作者声明没有利益冲突。

致谢

我们衷心感谢弗里堡精神分裂症中的最后通牒游戏数据集的作者(Anna Padée, Pascal Missonnier, Anne Prévot, Grégoire Favre, Isabelle Gothuey, Marco Merlo, Jonas Richiardi)通过OpenNeuro存储库公开提供数据(访问编号:ds004000,DOI: 10.18112/openneuro.ds004000.v1.0.0)。该数据集在瑞士弗里堡大学收集,符合伦理批准要求(参考编号:054/13-CER-FR),包含基于任务的EEG数据
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号