《Machine Learning with Applications》:EEG-FADE: A generalizable and explainable framework for EEG-based driver fatigue detection
编辑推荐:
驾驶员疲劳可导致高达20%的交通死亡。然而,基于脑电图(EEG)的检测系统仍然受到以下问题限制:生理学依据较弱的行为学标签、较差的跨被试泛化能力,以及不足的可解释性。研究人员提出了基于脑电图的疲劳分析与检测引擎(EEG-FADE),以应对这些挑战。EEG-FA
驾驶员疲劳可导致高达20%的交通死亡。然而,基于脑电图(EEG)的检测系统仍然受到以下问题限制:生理学依据较弱的行为学标签、较差的跨被试泛化能力,以及不足的可解释性。研究人员提出了基于脑电图的疲劳分析与检测引擎(EEG-FADE),以应对这些挑战。EEG-FADE引入了基于比值的阈值法(Ratio-Based Thresholding, RBT),通过相对于被试基线清醒状态脑电图校准的theta/beta比值(Theta/Beta Ratio, TBR)动态来生成标签。该方法通过敏感性分析得到验证(Cohen’s κ>0.84),并通过时间独立性检验进一步证实(平均时间–标签相关系数 r=0.044)。研究提取了一个480维特征集,涵盖频谱、时间和复杂度特征,并采用三条流程进行评估:自动化机器学习(AutoML,AutoGluon)、双向长短期记忆网络(Bidirectional LSTM, Bi-LSTM)以及带有压缩-激励注意力机制(Squeeze-and-Excitation, SE)的图神经网络(Graph Neural Networks, GNN-SE)。基于Cao等人的数据集(23名被试,98,848个片段)的实验显示出性能排序反转现象:AutoML在全局分层F1上取得最高成绩(0.908),而GNN-SE在留一被试交叉验证(Leave-One-Subject-Out, LOSO)下取得显著更高的F1值(0.792;p<0.001),且具有最低的被试间方差(SD = 0.086)。对150个与TBR相关特征的消融实验表明,非TBR特征仍可维持0.65–0.69的LOSO F1得分,证明该分类并未陷入标签循环依赖(label circularity)。跨架构可解释性分析(置换重要性、积分梯度、SE注意力)一致指向额叶通道(Fz、F4、Fp1)为主要疲劳标志物,这与已知神经生理学规律一致。EEG-FADE从生理学标注、跨被试泛化和可解释性三个方面提供了独特的综合性解决方案,并建议在无需个体化校准的多用户部署场景中采用GNN-SE流程。
该文发表于《Machine Learning with Applications》,聚焦于脑电图(EEG,electroencephalography)驱动的驾驶员疲劳检测这一智能交通与神经工程交叉领域中的关键问题。研究背景在于,驾驶疲劳与严重交通事故高度相关,且传统基于行为表现或车辆状态的方法虽然非侵入、成本较低,但通常只能捕捉疲劳的外在后果,易受环境条件、驾驶风格和个体差异影响,难以及时反映真实的神经认知状态。相较之下,EEG能够以毫秒级时间分辨率直接表征皮层活动,尤其能够捕捉清醒向疲劳转变过程中beta波主导活动减弱、theta与alpha功率上升等典型神经生理变化,因此被认为是更具潜力的疲劳监测信号来源。然而,现有EEG疲劳检测研究仍面临三类核心瓶颈:其一,多数研究依赖反应时、车道偏移、PERCLOS或主观量表等行为代理标签,生理学基础薄弱,易引入标签噪声与类别失衡;其二,EEG存在显著个体间差异,模型在已见被试上表现良好,但在未见被试上的泛化性能常明显下降;其三,深度学习模型尽管精度较高,但往往呈“黑箱”状态,不利于安全关键场景中的可信部署。正因如此,开展一项同时整合生理学标注、跨被试评估与可解释分析的统一框架研究,具有明确的方法学必要性和应用价值。
为解决上述问题,研究人员提出了EEG-FADE框架,将疲劳标签构建、特征工程、模型训练、跨被试验证和解释性分析整合为一个完整流程。研究以Cao等人提出的持续注意驾驶任务(SADT)公开数据集为基础,纳入23名被试的40段记录,共获得98,848个4 s重叠片段。研究首先对30导联EEG进行预处理,包括重参考、1–50 Hz带通滤波、50 Hz陷波、降采样至128 Hz,以及独立成分分析(ICA,independent component analysis)结合ICLabel进行伪迹剔除。随后,研究人员提出基于Theta/Beta比值的比值阈值标注法(RBT),以每名被试清醒基线阶段的TBR均值经个体化校准生成疲劳阈值,从而直接从EEG频谱动力学推断疲劳状态,而非依赖外部行为代理。围绕该标签体系,研究提取了每通道16个手工特征,共形成480维特征向量,涵盖时域统计量、频域功率及功率比、谱熵、Hjorth参数、MFCC-1和mel能量等。其后采用方差阈值、F检验、随机森林重要性和稳健交集四种策略进行特征筛选,并分别输入三类互补模型:以表格特征为输入的AutoML,以序列建模为核心的Bi-LSTM,以及以空间关系建模为核心的GNN-SE。研究在全局分层划分与留一被试交叉验证(LOSO)两种协议下系统比较各方法表现,并通过置换特征重要性、积分梯度与SE通道注意力三类解释手段进行交叉验证。
在技术方法上,研究主要使用了五个关键策略。第一,基于SADT公开数据集构建分析样本,对23名被试、98,848个EEG片段进行统一处理。第二,采用个体化Theta/Beta比值阈值法(RBT)进行生理学标签构建,并通过参数敏感性、Cohen’s κ和时间独立性检验验证其稳健性。第三,构建覆盖时域、频域与复杂度域的480维多域特征表示,并以四种特征选择策略形成不同输入配置。第四,比较AutoGluon集成学习、Bi-LSTM时序学习和GNN-SE空间图建模三种建模范式。第五,结合置换特征重要性(PFI)、积分梯度(IG)和SE注意力进行跨架构解释性分析,并以LOSO作为主要部署相关评估标准。
在结果部分,论文依次围绕多个小节展开。首先是“Global stratified performance”。该部分显示,在训练集与测试集分布匹配的全局分层评估中,AutoML取得最高性能,其最佳配置在保留TBR特征时达到F1 = 0.9077、AUC = 0.983,显著优于Bi-LSTM和GNN-SE。该结果说明,在表格化手工特征输入且数据分布一致的情况下,基于集成学习的自动建模对结构化特征的利用效率最高。
接着是“TBR ablation impact”。研究人员系统去除了全部150个与TBR相关的特征,以检验分类是否依赖标签生成信号本身。结果显示,三类模型在去除相关特征后F1均显著下降,平均降幅为0.1021,但性能并未坍塌,提示模型并非仅凭标签同源特征进行识别,而是仍能依赖其他神经动力学特征完成分类。该部分为后文关于“避免标签循环依赖”的核心论断提供了直接证据。
在“LOSO subject-independent performance”中,论文给出了最具部署意义的发现。在更严格的跨被试场景下,模型性能排序发生逆转:GNN-SE取得最高 pooled F1 = 0.792,且被试层面均值为0.775 ± 0.086,显著优于Bi-LSTM和AutoML;同时其被试间方差最低,显示出更稳定的主体独立泛化能力。与全局分层结果对照可见,AutoML虽然在同分布条件下最强,但跨被试迁移时下降最明显;相反,GNN-SE几乎没有明显的global-to-LOSO性能落差。这说明图结构中的空间消息传递更能捕捉跨被试稳定存在的通道间关系,是实现主体独立疲劳检测的关键机制。
在“LOSO TBR ablation”及相关表格中,作者进一步说明,在LOSO场景下去除TBR相关特征带来的影响小于全局分层场景,提示TBR特征更偏向于辅助同被试或近分布条件下的区分,而真正支撑跨被试泛化的还有大量非TBR特征。特别是非TBR特征在LOSO中仍可维持0.65–0.69的F1,进一步证明分类机制并不等价于简单复现标签定义。
在“Matched-feature comparison”中,研究通过让各模型在相同特征集上训练,剥离了“输入特征数量不同”这一混杂因素。结果表明,在全局分层协议下,即便使用相同特征,AutoML通常仍优于Bi-LSTM和GNN-SE。这表明深度模型在匹配分布条件下并不天然优于表格学习,而GNN-SE在LOSO中的优势确实来自其架构对主体独立空间关系的建模能力,而非特征预算差异。
“Temporal independence of TBR labels”是该文验证标签有效性的关键部分。研究从三个角度分析TBR标签是否只是随驾驶时间单调变化:按会话四分位统计疲劳比例、检查各被试疲劳轨迹是否单调、以及计算时间位置与标签之间的相关性。结果显示,平均疲劳比例仅轻度上升且无显著趋势,多数被试表现出非单调波动,时间–标签平均相关仅r = 0.044且不显著。因此,RBT标签反映的是动态警觉性波动,而不是“开车越久越疲劳”的简单时间代理。
在“Per-subject error analysis”中,研究总结了导致LOSO表现不佳的五个因素:较低的基线TBR水平、较低theta功率、极端类别不平衡、决策阈值失配以及数据量不足。其中,基线TBR水平和theta功率与F1的相关性最高,表明疲劳相关神经信号表达较弱的被试更难被正确分类。该分析还发现,一些低F1被试仍具有较高AUC,说明问题部分出在统一0.5阈值并不适合所有个体,而非排序能力本身完全缺失。
在“Feature importance and interpretability analysis”中,研究分别利用AutoML的PFI、Bi-LSTM的IG和GNN-SE的SE注意力进行解释。多种方法一致发现,额叶通道特别是Fz、F4和Fp1在疲劳判别中最为重要。当保留TBR相关特征时,theta功率及theta/beta比在额叶通道上占主导;当移除这些特征后,模型转而依赖Hjorth mobility、零交叉率(ZCR,zero-crossing rate)和谱熵等复杂度与动力学特征,但重要性仍集中在相同额区通道。这种“特征类型变化但空间焦点稳定”的结果非常关键,说明模型识别到的是一致的神经生理来源,只是数学表征形式不同,并非由标签定义导致的伪相关。
在“Cross-architecture convergence”中,论文进一步强调,三种架构尽管建模机制不同,但都独立收敛于额叶主导这一结论。这种跨架构一致性增强了发现的可信度,也与既有关于疲劳状态下额叶theta增强、beta减弱的神经生理证据相吻合。最后在“Comparison with existing methods”中,研究表明EEG-FADE在主体独立评估下具有竞争性性能,更重要的是,它同时提供了生理学标签、系统消融、跨架构解释和部署相关验证,这些方法学完整性是多数既有研究所缺乏的。
讨论部分的核心在于,现有EEG疲劳检测研究往往只解决标签、泛化或解释性中的一个或两个问题,而EEG-FADE通过统一框架同时处理三者,从而更接近真实部署需求。结果表明,生理学标注提高了标签有效性,GNN-SE在未见被试上的稳健表现说明空间关系建模对跨被试泛化尤为关键,而跨架构解释结果与额叶疲劳神经标志的一致性则增强了模型的可信性。论文同时指出,被试间TBR水平、类别比例和基线稳定性仍会影响性能,这说明未来改进方向应集中于更强的主体适应策略,而非单纯追求更复杂的分类器。
研究结论部分可概括翻译如下:该研究提出了EEG-FADE,一种系统应对生理学标签薄弱、跨被试泛化不足与模型可解释性有限三大挑战的EEG驾驶疲劳检测框架。个体自适应的TBR比值阈值标注策略显示出稳定的参数鲁棒性和时间独立性,证明其能够反映真实警觉性波动。全局分层评估下,AutoML取得最佳性能;而在更具实际意义的LOSO评估中,GNN-SE获得最高F1和最低被试间方差,显示出更优的主体独立泛化能力。多方法解释分析一致确定额叶通道Fz、F4和Fp1为主要疲劳判别来源。移除全部TBR相关特征后,模型仍能维持中等水平的LOSO性能,说明分类并未依赖标签循环。总体而言,该框架为构建可泛化、可解释且具有生理学依据的EEG驾驶疲劳检测系统提供了系统性证据,并支持在无需个体化校准的多用户部署中优先采用GNN-SE流程。