在癫痫持续状态期间识别脑电图(EEG)特征,以利用监督学习预测小鼠内侧杏仁核凯尼酸模型中出现的癫痫表型

《Hygiene and Environmental Health Advances》:Identification of EEG Features During Status Epilepticus for Prediction of Emergent Epilepsy Phenotype in the Mouse Intra-Amygdala Kainic Acid Model Using Supervised Learning

【字体: 时间:2026年05月04日 来源:Hygiene and Environmental Health Advances 2.7

编辑推荐:

  赛义德·穆罕默德·拉扎·阿比迪(Syed Muhammad Raza Abidi)|奥马尔·马马德(Omar Mamad)|乔丹·希金斯(Jordan Higgins)|大卫·C·亨斯霍尔(David C. Henshall)|加布里埃尔-米罗·穆恩特安(Gabriel-Miro

赛义德·穆罕默德·拉扎·阿比迪(Syed Muhammad Raza Abidi)|奥马尔·马马德(Omar Mamad)|乔丹·希金斯(Jordan Higgins)|大卫·C·亨斯霍尔(David C. Henshall)|加布里埃尔-米罗·穆恩特安(Gabriel-Miro Muntean)
都柏林城市大学电子工程学院,爱尔兰都柏林

**摘要**
临床前动物模型对于研究癫痫机制和评估新型疗法至关重要。在啮齿动物中,癫痫可以通过癫痫持续状态(status epilepticus)诱发,随后导致自发性反复发作(SRSs)。然而,不同动物之间的发作负担存在差异,这可能限制了其作为药物研究的适用性。本研究探讨了在癫痫持续状态期间(约40分钟)获取的早期脑电图(EEG)记录是否能够预测小鼠内侧杏仁核凯尼酸(IAKA)模型中后期自发性发作的负担。

从IAKA模型小鼠(n = 19)中提取了频谱和统计EEG特征,并用于训练监督分类器,包括随机森林(Random Forest)、支持向量机(Support Vector Machine, SVM)和逻辑回归(Logistic Regression)。通过留一法(Leave-One-Out)和5折分层交叉验证(5-fold-stratified cross-validation)评估了模型性能。通过结合方差分析(ANOVA)、互信息(Mutual Information)、随机森林重要性(Random Forest importance)和SHAP分析的交叉策略,以及基于变化(?)的特征(即KA后活动减去基线活动),增强了特征的鲁棒性。在评估的模型中,SVM取得了最强的内部性能(加权F1分数:0.74),表明癫痫持续状态期间的早期EEG动态编码了与后期SRS负担相关的预后信息。重要的是,该模型能够可靠地识别出发作负担处于中间水平(正常)的小鼠,这些小鼠的平均发作次数为53 ± 11次,而低负担组为18 ± 11次,高负担组为85 ± 43次。尽管模型在独立验证队列(n = 11)中的泛化能力有限,但这可能反映了生物学异质性和EEG变化的时序依赖性。总体而言,这些发现强调了早期电生理活动在塑造发作负担结果中的重要性,并为未来的纵向预后研究奠定了基础。

**1. 引言**
癫痫是一种常见的神经系统疾病,其特征是反复出现的无诱因发作,并伴有认知功能下降、发病率和生活质量降低。脑电图(EEG)仍然是评估大脑电活动的金标准工具,在临床和临床前研究中常用于监测发作起始、发作间异常和治疗反应。EEG生物标志物,如高频振荡、δ波和θ波段的频谱功率变化或波形对称性的改变,已被证明与人类和啮齿动物模型中的疾病严重程度和预后相关(Kanai等人,2019年;Song等人,2024年;Zijlmans等人,2012年)。

包括内侧杏仁核凯尼酸(IAKA)诱导的啮齿动物模型在内,被广泛用于复制颞叶癫痫(TLE),并能够再现大脑内的关键病理生理学特征和共病现象。KA注射后,会发展出癫痫持续状态(连续发作),随后几天内会出现自发性反复发作(SRSs)。一旦癫痫建立,IAKA模型中的小鼠通常每天会出现5-10次SRS(Mamad等人,2023年;Mouri等人,2008年;Reschke等人,2021年)。

EEG分析为了解发作诱导期间的大脑动态提供了窗口,但很少有研究探讨基线或KA后早期EEG特征是否能够预测长期的癫痫严重程度结果(Puttachary等人,2015年;Sharma等人,2018年;White等人,2010年)。在IAKA模型的癫痫持续状态后,大多数动物会发展出典型的(正常)SRS频率。然而,一些个体小鼠会发展出过低或过高的SRS频率,这使得它们不适合测试实验性疗法或因发病率问题而无法使用。预测哪些小鼠会发展出过高或过低的SRS频率将减少资源消耗,并有助于实现临床前试验中的伦理终点。然而,目前尚不确定早期KA后记录或定量EEG特征变化(例如,KA后与基线的差异)是否与该模型中的后续自发性发作负担表型相关。

机器学习(ML)的最新进展为自动化EEG信号分析提供了机会,并将其应用于临床和临床前癫痫研究中的发作分类和预测模型(Acharya等人,2012年;Edoho等人,2025年;Sheikh等人,2024年)。值得注意的是,最近的研究表明,使用基于特征的策略和迁移学习策略,训练有素的机器学习模型可以在癫痫持续状态期间对临床前EEG记录进行分类,将出现的表型分为正常组和异常组(Edoho等人,2025年)。

基于这些进展,本研究旨在利用监督学习和系统特征选择策略,识别IAKA模型中预测后续自发性发作负担表型最有效的早期EEG特征。我们采用基于标记的小鼠EEG数据训练的监督机器学习方法,来预测三种类别的自发性发作负担严重程度:低、正常和高。利用每只小鼠的记录级特征,我们整合了KA后的特征和基于变化的(?)特征(KA后活动减去基线活动),以捕捉KA给药后的神经变化。提取了一系列频谱、统计和Hjorth基础的EEG特征(Hjorth,1975年),并通过方差分析(ANOVA)、互信息(Mutual Information)、随机森林(Random Forest)和SHAP重要性排名技术来指导特征选择。

所得到的紧凑特征集用于在5折分层KFold交叉验证下训练和评估多个分类器。为了确保透明度和生物学可解释性,应用了可解释AI(XAI)方法(包括Shapley加性解释(SHAP)和特征贡献可视化),以量化每个特征在预测严重程度中的作用。这种可解释性揭示了与低、正常和高SRS率表型相关的独特EEG模式,特别强调了KA后的移动性、θ波活动和波形不对称性如何共同编码严重程度谱。总体而言,这些发现表明机器学习模型可以利用小鼠在癫痫持续状态期间的早期EEG记录来预测后续的自发性发作负担表型,具有实际应用价值。

**2. 材料与方法**
2.1. 数据集和记录
小鼠研究遵循欧洲共同体理事会指令(2010/63/EU)进行。程序获得了RCSI医学与健康科学大学研究伦理委员会(REC 1587)的批准,并获得了爱尔兰健康产品监管局(AE19127/P057)的许可。动物在受控条件下(温度:20°C–25°C;湿度:40%–60%)处于12小时光照-黑暗周期中。食物和水可以自由获取(Edoho等人,2025年)。这些动物研究是关于实验性癫痫的原因和治疗的持续研究的一部分,并非专门为这项研究而设计。

癫痫通过IAKA模型技术诱发。简要来说,雄性C57BL/6JOlaHsd小鼠(体重:28–30克;年龄10周)用异氟烷(5%诱导剂量,2%维持剂量)麻醉,并放置在一个适应小鼠的立体定位框架中。接下来,进行四次部分颅骨切开术以固定表面EEG电极。EEG发射器单元(型号HDX-02;Data Systems International,美国明尼苏达州)被植入小鼠背部皮下的口袋中。主要记录电极位于两侧,视觉引导下放置在海马体上方;大约在Bregma后方-2.1毫米,两侧±1.2毫米的位置,同时避开杏仁核插管位置。另外两个参考电极也通过视觉引导放置在这些位置前方,大约在每侧前方+2.7毫米和±1.5毫米的位置。48小时后,所有动物都接受了内侧杏仁核的凯尼酸(KA)微注射(0.3微克,0.2微升体积)。随后发展出癫痫持续状态,并在几天内出现自发性反复发作(SRSs)。一旦癫痫建立,IAKA模型中的小鼠通常每天会出现5-10次SRS(Mamad等人,2023年;Mouri等人,2008年;Reschke等人,2021年)。

EEG分析提供了发作诱导期间大脑动态的窗口,但很少有研究探讨基线或KA后早期EEG特征是否能够预测长期的癫痫严重程度结果(Puttachary等人,2015年;Sharma等人,2018年;White等人,2010年)。在IAKA模型的癫痫持续状态后,大多数动物会发展出典型的(正常)SRS频率。然而,一些个体小鼠会发展出过低或过高的SRS频率,这使得它们不适合测试实验性疗法或因发病率问题而无法使用。预测哪些小鼠会发展出过高或过低的SRS频率将减少资源使用,并使临床前试验中的终点更加人道。然而,目前尚不确定早期KA后记录或定量EEG特征变化(例如,KA后与基线的差异)是否与该模型中的后续自发性发作负担表型相关。

**2.2. 数据预处理**
多项研究使用基于特征和迁移学习的方法来预测癫痫持续状态后的表型(正常组与异常组)(Edoho等人,2025年;Peng等人,2020年);我们采取了补充方法,重点关注基于变化(?)和多类严重程度。在本研究中,收集的小鼠EEG数据的采样频率为500 Hz,根据需要进行了直流偏移去除和带通滤波(例如,0.5–80 Hz)。所有分析都使用了两个海马通道(同侧通道1和对侧通道2)。整个工作流程如图2所示。

**2.3. 分期和特征估计**
分期:连续记录被分割成连续的、不重叠的2秒时期,这是EEG分析中用于频谱和统计特征提取的标准做法(Gramfort等人,2014年)。这确保了特征提取的一致时间分辨率。对于5分钟的基线期,每条记录大约有155个时期(每个2秒)。

特征提取(时间与时间-频率):对于每个时期和每个通道,我们计算了频谱带功率和几个时间域和非线性特征。主要特征集包括每个时期和每个通道的特征,如表1所示。特征分别针对基线期、KA后期及其变化(?)进行了计算,以捕捉表明兴奋毒性反应的动态信号变化。

**2.4. 记录级聚合**
为了获得每个记录(小鼠)的一个特征向量用于分类,通过计算属于该记录的所有时期的每个特征的汇总统计量(平均值和标准差),将时期级特征聚合到记录级别。这产生了一个记录级别的特征矩阵,其中行=记录(小鼠),列=聚合特征(例如,base_ch1_alpha_mean,base_ch1_alpha_std等)。**数据聚合减少了受试者内的相关性,并为每个受试者生成了一个样本,从而使模型评估能够反映受试者层面的泛化能力。**我们选择使用汇总统计量(均值和标准差)在鼠标层面聚合EEG特征的理由是确保在模型评估期间受试者之间的独立性,并防止数据泄露,即同一动物的不同时间段数据可能同时出现在训练集和测试集中。

**EEG频段及其生物学意义:**EEG信号通常可以划分为不同的频段,每个频段都有其特定的功能/临床意义:
- **δ波(0.5–4 Hz):**与深度睡眠、慢波活动以及癫痫的严重程度相关(Bernardi等人,2019年)。
- **θ波(4–8 Hz):**参与记忆编码、困倦状态,在癫痫中表现为异常活动(Jarovi等人,2018年)。
- **α波(8–13 Hz):**与视觉处理、放松的清醒状态以及视觉皮层节律相关(van Kerkoerle等人,2014年)。
- **β波(13–30 Hz):**与运动处理和控制相关,与活跃思维相关,在癫痫中表现为异常兴奋(Pierrieau等人,2025年)。
- **γ波(30–80 Hz):**γ波本身不具有特异性,但它是信息处理、认知绑定、视觉处理和癫痫发作特征的指标(Fernandez-Ruiz等人,2023年)。

**功率谱密度(PSD)计算:**PSDf = 在频率f处的功率。

**绝对频段功率:**我们整合了每个频段的PSD值。例如:Pα = ∑f=8^13 PSD(f)。

**相对频段功率:**由于不同鼠标之间、不同电极之间或不同记录条件下的功率存在差异,因此我们对功率进行了归一化:rel_alpha = Pα / Ptotal,其中Ptotal = Pδ + Pθ + Pα + Pβ + Pγ。

**特征选择:**进行特征选择是为了识别出最具区分性的EEG生物标志物,这些标志物有助于预测自发性癫痫发作的严重程度(低、正常、高)。该过程旨在减少冗余、提高模型的泛化能力,并改善最终监督模型的可解释性。EEG信号被分割成2秒的时间段,并使用快速傅里叶变换(FFT)转换为频域。采样频率为1000 Hz,FFT的大小为2000个样本,从而获得0.5 Hz的频率分辨率。仅使用单边谱进行特征提取。最初,采用了留一法交叉验证(LOOCV,Stone,1974年)来评估单个特征的重要性,并确保跨受试者的稳定性。然而,考虑到样本量较小以及LOOCV对动物间变异性的敏感性,该方法被改进为使用5折分层交叉验证(StratifiedKFold,Kohavi,1995年),这种方法提供了更平衡的分割,并在各个折叠中获得了显著更一致的结果。

**2.5.1 混合多标准选择方法:**为了同时捕捉统计相关性和预测贡献,整合了四种互补的特征排名技术:**
- **ANOVA F检验(单变量过滤方法):**评估每个特征在不同严重程度类别之间的方差比和内部方差比,选择在低、正常和高组之间存在统计学显著差异的特征(Guyon & De,2003年)。
- **互信息(MI):**量化每个EEG特征与严重程度标签之间的非线性依赖性,识别出在类别边界方面信息增益最强的特征(Vergara & Estévez,2014年)。
- **随机森林(RF)特征重要性:**提供基于模型的重要性分数,反映每个特征在树分割过程中减少Gini不纯度的频率和有效性,从而突出多变量、非线性空间中的区分性特征(Breiman,2001年)。
- **Shapley加性解释(SHAP)值排名:**在训练集成模型后应用,SHAP衡量每个特征对模型预测的边际贡献,提供了一个统一且可解释的全局重要性指标(Lundberg等人,2017年)。

**通过所有四种技术的排名最高的特征交集来确保只保留那些在统计、信息论和基于模型的标准上都具有一致信息性的特征。**这种交集策略产生了一个紧凑且可解释的关键EEG特征子集,包括基于变化的(?)和仅基于KA后的指标。

**结果与理由:**这种混合特征选择过程在可解释性和预测稳健性之间取得了良好的平衡。与基于LOOCV的选择相比,基于StratifiedKFold的混合交集不仅提高了交叉验证的稳定性,还提升了分类器的性能。**

**2.6 分类器和评估:**使用的分类器包括逻辑回归、随机森林(200棵树)和SVM(RBF核)。超参数通过交叉验证进行了调整。**

**为了避免数据泄露,我们使用了按受试者划分的数据。**对于最终评估,我们在受试者层面使用了留一法(LOMO,如实验中指定的)。当N较小时(N=19),优先选择LOOCV来衡量对未见过的鼠类的泛化能力。然后我们使用StratifiedKFold CV来获得最佳结果。

**3.1 实验设计和数据处理概述:**本研究使用IAKA诱导癫痫发作时的EEG记录来预测出现的自发性癫痫发作负担表型。主要训练队列包括19只小鼠,另外还有一个独立的11只小鼠队列用于在癫痫发作期间的验证,每组的两周期间的癫痫发作次数均值和标准差(SD)分别被分类为低、正常和高,如表2所示。**

**值得注意的是,**研究的目的是尽可能准确地识别出那些在IAKA后首次癫痫发作直至注射劳拉西泮之前会发展出正常癫痫发作表型的小鼠,如图1所示。EEG记录以欧洲数据格式(.edf)收集,然后预处理后的信号被分割成两秒不重叠的时间段。**时段划分是将EEG信号分割成时间间隔的过程,每个时间间隔内的信号称为一个时段。**从时间和时频域中提取特征。**我们分两个阶段进行实验。在第一阶段,我们使用图3中显示的四种技术(ANOVA、MI、RF和SHAP)提取的前15个特征来评估模型性能,并使用LOOCV进行分类,分类器比较报告见表3。它系统地使用三种分类器(随机森林、逻辑回归和SVM)通过单个特征选择技术来评估严重程度。**随机森林和SVM使用MI选择技术分别获得了(F1 = 0.67和F1 = 0.63)的准确率,而逻辑回归使用RF获得了(F1 = 0.68)的准确率。**

**3.2 优化和超参数调整:**在第二阶段,为了生成一个简洁且稳定的EEG特征集,我们应用了一个多阶段的监督选择流程。首先,我们使用单变量ANOVA F检验(SelectKBest, f_classif)筛选出具有显著类别间差异的特征。同时,我们计算MI分数以捕捉特征与类别标签之间的非线性关联。接下来,我们训练了一个RF分类器并提取了基于模型的特征重要性(并通过排列重要性进行了验证以减少不纯度偏差)。最后,我们计算了(调整后的)模型的SHAP值,并将每个特征的聚合均值(|SHAP|)作为以模型为中心的重要性分数。然后我们选择了在多个评分器中排名较高的特征——这些特征是ANOVA、MI、RF和SHAP的交集/共识——从而得到了一个最终的紧凑且可解释的关键EEG特征子集,包括基于变化的(?)特征和仅基于KA后的特征。**

**3.3 最终模型选择:**SVM被认为是最佳的最终模型,用于预测严重程度,如表5所示,混淆矩阵如图4所示,该矩阵展示了模型的预测与真实类别标签的匹配情况,包括每个类别的正确和错误分类(包括假阳性和假阴性)。**

**3.4 最具预测性的EEG生物标志物:**特征重要性分析识别出一组一致的EEG生物标志物,这些标志物在区分19只小鼠训练队列中的严重程度方面最具信息性。特别是,?_ch1_hjorth_complexity_mean和post_ch1_hjorth_mobility_mean反映了信号复杂性和频率变化性的改变,捕捉到了KA给药后神经不规则性和皮层兴奋性的增加。**频谱特征如?_ch2_rel_theta_mean和post_ch2_rel_alpha_mean揭示了功率分布向θ波的增加和α波的减少,这些模式通常与皮层同步性的破坏和早期癫痫样动态相关。**更高阶的统计量,包括?_ch2_skew_mean和post_ch2_skew_mean,量化了波形的不对称性,表明了病理放电的非线性扭曲。此外,post_ch1_zcr_mean突出了癫痫发作开始时的时间不规则性和振荡活动。**

**除了在训练队列内的交叉验证外,我们还使用了一个独立的验证数据集来评估模型的泛化能力,**该数据集包含了来自另一个队列(N = 11)的小鼠的EEG记录,这些小鼠与主要训练队列中的小鼠属于同一品系,并在相同的实验条件下使用相同的IAKA协议诱导了癫痫发作。**所有数据都使用了上述相同的预处理、时段划分和特征提取流程。**重要的是,验证数据集在模型训练、特征选择、特征聚合或超参数优化的任何阶段都没有被使用。**因此,该数据集上的模型预测代表了一个完全未见的评估,旨在评估在实际实验变异性下的外部性能。**

**3.5 实施细节:**我们使用了在Jupyter Notebook版本(6.5.4)中实现的Python代码(pandas、scikit-learn、SHAP、matplotlib)(Kluyver等人,2016年,Pedregosa等人,2011年)和Python-MNE版本(1.6.0)(Gramfort等人,2013年)。**为了可重复性,随机种子被固定。**

**3.6 分类器和评估:**使用的分类器包括逻辑回归、随机森林(200棵树)和SVM(RBF核)。超参数通过交叉验证进行了调整。**

**为了避免数据泄露,我们使用了按受试者划分的数据。**对于最终评估,我们在受试者层面使用了留一法(LOMO,如实验中指定的)。**对于N较少的情况(N=19),优先选择LOOCV来衡量对未见过的鼠类的泛化能力。然后我们使用StratifiedKFold CV来获得最佳结果。**

**3.7 独立验证数据集:**为了评估训练分类器的泛化能力,我们组装了一个包含来自另一个队列(N = 11)小鼠的EEG记录的独立验证数据集。**这些EEG记录与主要训练数据集(N = 19)是分开收集的。**这些动物与主要队列中的动物属于同一品系,并且在相同的实验条件下使用相同的IAKA协议诱导了癫痫发作。**所有数据都使用了上述相同的预处理、时段划分和特征提取流程。**重要的是,验证数据集在模型训练、特征选择、特征聚合或超参数优化的任何阶段都没有被使用。**因此,该数据集上的模型预测代表了一个完全未见的评估,旨在评估在实际实验变异性下的外部性能。**

**3.8 实施细节:**我们使用了在Python 3中实现的代码,基于Jupyter Notebook版本(6.5.4)(pandas、scikit-learn、SHAP、matplotlib)(Kluyver等人,2016年,Pedregosa等人,2011年)和Python-MNE版本(1.6.0)(Gramfort等人,2013年)。**为了可重复性,随机种子被固定。**这一结果突显了癫痫发作后脑电图(EEG)记录中存在的显著动物间变异性和时间异质性。重要的是,尽管在群体层面的预测性能有所下降,但在训练期间识别出的相同一组EEG生物标志物仍然表现出强烈的区分能力,这支持了它们作为自发性癫痫发作负担严重程度候选预测指标的稳健性。这些发现强调了即使在严格的外部验证下分类性能可能受到限制,仍然可以识别出具有生物学意义的EEG特征,这些特征能够反映驱动癫痫发生的早期病理生理过程。

在初步特征筛选之后,第二阶段通过计算四种互补的特征选择技术(方差分析(ANOVA)、互信息(Mutual Information)、随机森林重要性(Random Forest importance)和SHAP值)的交集,来识别最稳定和生物学上最相关的EEG生物标志物。这种保守的策略最终得到了一组七个在所有方法中都被一致认为是高度信息性的EEG特征。图6展示了这七个共识特征的相对重要性,突出了它们对严重程度区分的贡献。所选的生物标志物捕捉了互补的时间、频谱和非线性信号特征,包括KA给药后信号复杂性的变化、频谱功率的重新分配以及波形的不对称性。多种特征选择方法在这一简化特征集上的共识支持了它们的稳健性,并表明这些生物标志物代表了早期癫痫发生过程的核心电生理特征。

为了进一步研究动物间的变异性,对小鼠应用了Z分数标准化,将特征值相对于群体均值和标准差进行标准化。这种转换使得可以在不同尺度上记录的测量结果进行直接比较,并突出显示与群体平均值显著偏离的动物。如图7所示,得到的Z分数曲线揭示了小鼠之间的明显趋势,正负偏差分别表示高于或低于群体均值。

为了提高多类分类器的可解释性,使用了SHAP分析来量化最终七个EEG生物标志物对模型预测的类别特异性贡献。这种方法确定了每个特征对分类为低、正常或高癫痫发作负担组的支持程度。如图8所示,几个生物标志物在不同类别中显示出不同的重要性。例如,d_ch2_rel_theta_mean对正常组的贡献最大,而对低组的贡献较弱,对高组的贡献最小。这些发现表明,单个EEG特征携带了不同的类别依赖性预测信息,而不是在所有严重程度组中均匀贡献。

为了进一步研究训练和验证性能之间的泛化差距,图9中的小提琴图用于比较最终七个EEG生物标志物在各个群体中的分布。与仅使用汇总统计量不同,这些图表揭示了每个特征的完整密度和变异性。几个生物标志物在独立验证群体中显示出了中位数和分布宽度的变化,表明数据集之间的信号动态和频谱组成存在差异。这种分布差异表明,尽管这些特征在训练群体中具有高度区分能力,但它们的统计特性在未见过的记录中并未完全保留,这为验证准确性的降低提供了一个合理的解释。

IAKA小鼠模型已被使用超过20年来研究癫痫发作对大脑的影响,并寻找新的癫痫治疗方法。然而,该模型中的一部分小鼠并不会发展出典型的SRS( Status Epilepticus)发生率。由于这些小鼠可能不适合用于药物筛选,要么是因为SRS发生率太低而无法观察到药物的效果,要么是因为动物发病率和癫痫发作导致的死亡风险,因此能够在IAKA实验后尽快识别出这些小鼠具有重要意义。我们之前发现,通过分析IAKA后最初的40分钟EEG记录,在癫痫发作期间,我们可以相当有信心地预测哪些小鼠将是正常的或异常的。

本研究证明,短时间(5分钟)的基线和KA后(约40分钟)的EEG记录,结合基于变化的(?)和频谱-统计特征,可以提供关于小鼠IAKA模型中随后自发性癫痫发作负担严重程度的有意义预测信息。在严格的交叉验证方案下评估了多种监督分类器。SVM模型取得了最强的内部性能,支持了早期电生理动态包含与随后自发性癫痫发作负担相关的预测信息的假设。这些发现符合3Rs原则,有助于使用这种流行的耐药性癫痫模型改进设计、实施和结果跟踪。

在这里,我们开发了一个模型并采用了混合多标准选择方法(即ANOVA、MI、RF和SHAP)进行特征选择。从所有四种技术中选出的顶级特征交集确保只有始终具有信息性的特征被保留下来。这种交叉策略产生了一组紧凑且可解释的关键EEG特征,包括基于变化的(?)和KA后的指标。在没有适当区分标志物的情况下,癫痫表型的分类仍然是一个未知的任务。我们的特征选择不仅提高了模型性能,通过去除冗余特征减少了特征数量,还挖掘并明确了区分低、正常和高癫痫发作负担的关键方面。

重要的是,所选的EEG特征能够区分在癫痫发作期间记录的脑活动模式,这些模式与随后低、正常或高癫痫发作率的表型相关。这些发现表明,这样的特征可能作为区分后期癫痫发作负担风险较低、中等或较高的候选生物标志物。这种混合特征选择过程在可解释性和预测稳健性之间取得了良好的平衡。在评估的模型中,支持向量机(Model C)取得了最高的预测性能(准确率约为0.79,F1值约为0.74),证实了非线性特征边界更有效地捕捉了区分低、正常和高严重程度的多变量模式。混合选择特征子集的一致优越性强调了EEG描述符与癫痫发作结果之间的非线性依赖性的重要性——这些依赖性往往被单变量统计方法所忽略。

在生物标志物层面,最终的特征集整合了KA后和基于变化的(?)成分,反映了兴奋性损伤后的动态神经生理变化。Hjorth参数和theta及alpha频段中的频谱功率比的主导地位与先前的报告一致,这些报告将皮层去同步、高频活动性和改变的丘脑-海马耦合与癫痫发生联系起来。具体来说,同侧海马通道中Hjorth活动性和复杂性的增加表明了皮层兴奋性的增强和不规则的振荡动态,而対侧通道中delta-theta活动的增加和alpha功率的降低反映了异常的同步。这些发现共同表明,半球相互作用和时间-频谱不平衡在定义严重程度的发展轨迹中起着核心作用。

混淆矩阵分析进一步显示,该模型对正常严重程度类别的召回率接近完美,表明在识别未发展出病理癫痫发作负担的动物方面假阴性率较低。相比之下,错误分类主要发生在低严重程度组和高严重程度组之间,反映了在中间和严重癫痫状态期间delta和theta频段中的电生理特征重叠。从实验角度来看,这些错误主要是由低严重程度组和高严重程度组之间的假阳性预测驱动的,而不是将正常动物错误分类为病理状态,这对于严重程度筛查研究来说是一个更有利的结果。假阴性——即高度癫痫发作的动物被预测为低严重程度——相对较少,表明模型在保持对明显病理模式的敏感性方面表现良好。尽管泛化性能有所下降,但这种在假阳性和假阴性率之间的权衡在基于EEG的早期严重程度分层中是预期之中的。在定量EEG研究中,无论是啮齿动物还是人类癫痫,都报告了类似的趋势,其中中间表型表现出共享的频谱特征,这些特征挑战了严格的类别分离。

我们的结果扩展了主要依赖于癫痫发作期间或长期记录的工作,证明了仅通过KA后的早期EEG变化就可以产生有意义的严重程度预测。混合特征选择框架,整合了ANOVA、MI、RF和SHAP排名,提供了一种稳健且可解释的生物标志物发现途径——平衡了统计相关性和基于模型的证据。这种可解释性对于转化EEG研究至关重要,允许计算特征与潜在的神经生理学之间的对应关系。未来的研究可以通过在更大群体中验证当前的生物标志物、结合额外的模式(例如LFP、行为指标),以及探索深度学习架构进行端到端的严重程度预测来扩展这些发现,同时保持可解释性。

使用SVM获得的相对较高的训练准确率和加权F1分数表明,工程化的EEG特征,特别是那些捕捉基线活动偏差的特征,有效地编码了癫痫发作期间诱导的生物学上有意义的改变。四种独立特征选择技术(ANOVA、互信息、随机森林重要性和SHAP)的收敛进一步支持了所选特征子集的稳定性和相关性。这些发现与先前的研究一致,这些研究报告称早期损伤后的EEG异常与随后的自发性癫痫发作负担和严重程度相关,强化了早期网络功能障碍在疾病进展中的作用。

尽管分类器在训练群体中表现强劲,但在独立验证数据集上的预测准确性下降了。这种下降可能反映了癫痫发作后观察到的显著动物间变异性和电生理模式的异质性,以及动物之间的癫痫发作负担和记录持续时间的差异。重要的是,这项研究的主要目的不是优化分类准确性本身,而是识别对未来癫痫严重程度具有信息性的早期EEG生物标志物。在这种情况下,特征在交叉验证和独立测试中的一致性支持了它们的生物学相关性,即使在外部预测性能下降的情况下也是如此。重要的是,重叠但偏移的分布表明所选的生物标志物捕捉到了与自发性癫痫发作负担严重程度相关的真实神经生理特征,而不是虚假噪声。然而,生物学异质性、可变的癫痫发作持续时间和KA后记录的时间差异可能影响了验证群体中的特征分布。这些发现强调了群体匹配采集协议的重要性,并支持将所识别的生物标志物解释为具有机制信息性的,即使在没有强泛化能力的情况下也是如此。

训练群体和未见过的群体之间特征分布的观察到的差异表明了一个领域转变,为外部验证性能的下降提供了一个合理的解释,尽管内部准确性很高。在基于实验和临床脑电图(EEG)的癫痫研究中,都报告了类似的泛化挑战,这突显了将复杂的神经生理特征跨不同队列进行迁移的难度(Truong等人,2018年)。特征提取依赖于精心设计的统计和频谱描述符,虽然这些描述符具有可解释性,但可能无法捕捉到超出二阶统计的复杂非线性动态(Craik等人,2019年)。未来的工作可以探索深度学习或基于时间图的方法,直接从原始EEG数据中自动学习区分性模式。此外,整合多模态数据(如行为评分、基于视频的癫痫发作检测或分子生物标志物)可以进一步提高预测准确性和转化相关性(Mirowski等人,2008年;Raghu和Schmidt,2020年)。重要的是,这些泛化挑战在癫痫预后建模中已被广泛报道,并不一定意味着基础生物信号的无效性。相反,它们强调了机器学习模型在小型数据集上训练时对队列特定特征的敏感性,尤其是在高维EEG特征空间中。

尽管有这些有希望的发现,但仍需承认几个重要的考虑因素。需要注意的是,本研究关注的是癫痫持续状态(status epilepticus)期间的早期EEG动态及其与随后自发性癫痫发作负担表型之间的关联。虽然这些发现提供了关于疾病严重程度的早期电生理标志物的见解,但它们并不能直接预测慢性癫痫的进展(L?scher,2017年;Pitk?nen和Engel,2014年)。未来需要结合更长期的纵向记录来研究早期EEG特征在预测慢性癫痫发生和持续癫痫易感性方面的作用。

5. 局限性和未来方向
本研究的局限性在于样本量相对较小,且缺乏详细的癫痫发作事件注释,这限制了直接建模癫痫发作频率动态的能力。此外,尽管使用了时间标准化聚合来减少持续时间的变化,但残余分布的偏移可能仍然存在。未来的工作将侧重于扩大数据集,纳入癫痫发作事件级别的信息,并探索领域适应策略,以提高跨队列的泛化能力。

6. 结论
6.1. 总体意义
综上所述,这些发现表明,在癫痫持续状态期间记录的早期EEG特征携带了关于IAKA模型中自发性癫痫发作负担严重程度的有意义预后信息,同时也揭示了将内部验证的模型迁移到独立数据集时的固有挑战。这项工作为未来旨在弥合癫痫研究中机制性EEG生物标志物与可靠预后工具之间差距的研究提供了一个稳健的方法论框架。最后,当前框架主要关注KA后的早期记录;将这种方法扩展到纵向数据集可以揭示生物标志物的时间演变,并实现持续的严重程度监测。这样的扩展将增强基于早期EEG的预后的临床和伦理影响,支持更加人道和数据高效的临床前癫痫研究。

尽管在独立未见过的队列中观察到了性能下降,但这一结果反映了癫痫进展的固有异质性以及与小型临床前EEG数据集相关的方法论挑战。重要的是,该模型一致地识别出那些发展为正常或低癫痫发作负担的动物,表明早期电生理特征可能可靠地捕捉到非进展性或具有抵抗力的表型。这些发现支持了癫痫持续状态期间早期网络活动的性质在塑造长期疾病结果中起因果作用的观点。

总体而言,这项工作提供了一个原理性强且可复制的机器学习框架,用于利用早期EEG记录预测自发性癫痫发作负担的严重程度。结果强调了当前预后建模方法的前景和局限性,并激发了未来研究纳入更大队列、标准化记录协议和纵向癫痫发作特征描述的需求,以提高泛化能力。最终,这些努力可能有助于开发用于风险分层和针对性治疗干预的早期生物标志物。

伦理声明/标准
小鼠研究是根据欧洲共同体理事会指令(2010/63/EU)进行的。程序得到了RCSI医学与健康科学大学研究伦理委员会(REC 1587)的批准,并获得了爱尔兰健康产品监管局(AE19127/P057)的许可。

CRediT作者贡献声明
Omar Mamad:验证、资源管理、调查、数据管理、概念化。
Syed Muhammad Raza Abidi:撰写——初稿、可视化、软件开发、方法论设计、调查、形式分析。
Gabriel-Miro Muntean:撰写——审稿与编辑、监督、资源管理、项目管理、方法论设计、调查、资金获取。
David C. Henshall:撰写——审稿与编辑、验证、监督、项目管理、方法论设计、调查、资金获取、概念化。
Jordan Higgins:撰写——审稿与编辑、验证、方法论设计、调查、形式分析、概念化。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号