NARCOX：用于认知建模的非平稳自回归变换器，支持眼部外部输入数据

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：NARCOX: Non-stationary auto-regressive transformers for cognitive modeling with ocular exogenous input

【字体：大中小】 时间：2026年02月21日 来源：Neurocomputing 6.5

编辑推荐：

　　认知负荷预测基于Transformer的NARCOX框架，利用外生眼部数据和非线性时间序列回归，解决传统方法依赖离散EEG数据和静态模型的局限，通过频谱和波let变换捕捉动态特征，在EEGEyeNet数据集上优于LSTM基线。

Jayanth Shreekumar|Qiang Qiu|Sabine Brunswicker

普渡大学埃尔莫尔电气与计算机工程学院，美国印第安纳州西拉斐特市47907

摘要

在需要及时干预以防止认知过载并确保人类安全的危险领域中，准确预测处理信息所需的认知努力至关重要。现有的认知负荷测量方法面临两个主要限制：（1）它们通常依赖于离散且采样稀疏的测量指标，忽略了工作记忆随时间变化的连续性、非线性和非平稳性；（2）大多数方法依赖脑电图（EEG）记录作为真实标签，这在实际应用中不切实际。为了解决这些限制，本文将认知负荷预测视为一个时间序列回归任务，并提出了NARCOX框架，这是一个基于变压器的非线性自回归时间序列回归模型（NARX），该模型利用眼动输入来预测TAR（一种经过验证的、由EEG导出的连续认知负荷指标）。我们提出了在频率域和小波域中运行的NARCOX变压器变体，并通过一个同步的EEG-注视数据集证明，它们在捕捉注视和EEG信号的变化频谱特征方面优于基于LSTM和变压器的基线模型。

引言

认知负荷（CL）[1]可以广泛定义为大脑工作记忆（WM）在任何时刻所执行的精神活动量[3]、[4]、[5]。在任何当前和未来的时间点准确测量和预测认知负荷在各种应用领域都至关重要：在教育领域，用于设计个性化的在线材料和智能对话代理以加速学习和理解[6]；在自主无人和有人航空领域，使用自适应界面动态预测和防止由于认知过载或不足导致的机载或远程飞行员的重大错误[7]；在医疗保健领域，用于设计能够实时监测外科医生认知工作负荷并提供自主辅助的医疗机器人[8]；在娱乐领域，用于动态调整游戏难度以保持玩家的参与度[9]。然而，由于认知负荷是一种潜在的、动态变化的心理状态，直接受到用户任务环境中外部刺激的影响，因此进行如此精确的时间预测在技术上具有挑战性。传统的测量方法使用间接和主观的方法（例如NASA-TLX调查[10]或即时自我评估[11]）来近似人类工作记忆的参与度。这些方法会中断主要任务，使其不适合连续的实时评估，并且仅限于在离散时间点进行分类（例如低、中、高认知负荷）。为了克服这些缺点，脑电图（EEG）作为一种直接从神经活动数据推断认知负荷的方法应运而生[12]、[13]、[14]。研究人员转向机器学习（ML）和深度学习（DL），使用EEG特征对认知负荷进行分类，并在带有此类主观指标的标记数据上进行训练[15]、[16]、[17]。尽管取得了这些进展，但仍存在多个挑战：（1）这些方法仍然依赖于在离散时间点收集的主观分类标签；（2）它们在推理过程中要求佩戴EEG设备，限制了实际应用；最重要的是，（3）这些方法忽略了工作记忆参与的动态、非线性和非平稳性[18]。

因此，在本文中，我们提出了一种新的深度学习方法来进行时间序列预测，以克服这些缺点。首先，我们基于神经科学的证据，表明从EEG记录中提取的连续Theta-Alpha比率（TAR）值是认知负荷的可靠代理指标[20]、[21]。其次，我们的方法在训练深度学习框架时使用这些TAR值作为回归目标，但在推理过程中不需要访问连续的TAR值，这为实际应用中的认知负荷测量提供了显著的优势。第三，我们的方法考虑到神经活动表现为高度复杂和非平稳的过程，因此预测未来的TAR值需要先进的时间序列建模方法来捕捉这些时间神经动态。虽然传统的时间序列模型（如ARMA[22]和ARIMA[23]可用于预测，但它们假设过去和未来值之间存在线性关系[24]，这使它们不足以处理神经数据。相比之下，深度学习方法可以从低级特征空间学习高级表示，并建模复杂的非线性时间依赖性[25]。因此，我们借鉴了最近关于时间序列分析的深度学习架构的研究[26]、[27]、[28]。具体来说，我们利用了变压器[29]，因为它们通过使用注意力机制和残差连接克服了RNN[30]和LSTM[31]中的梯度消失和爆炸问题，从而在时间序列预测方面取得了最先进的结果[32]、[33]、[34]、[35]。

时间序列预测的变压器研究主要分为两个范式：长期预测[36]和自回归预测[37]。前者基于固定范围的过去数据预测未来状态，而不考虑预测范围内的因果依赖性[32]、[33]、[34]。后者采用递归预测，并更新其上下文窗口以包括预测样本，从而直接考虑预测序列中出现的时间依赖性[38]。在这两个范式中，除了少数例外，学者们没有考虑外生输入，即除了内生变量之外的额外信息[35]、[39]，尽管这些外生输入可能与内生变量相关，从而显著提高预测准确性和鲁棒性。为了解决这个问题，我们采用了非线性自回归带外生输入（NARX）框架，这是一种经典建模方法，其中时间序列的未来值不仅取决于其自身的历史值（自回归内生成分），还取决于外生时间序列的当前和过去值。

基于这一原则，我们引入了NARCOX：一种专为使用眼动外生输入进行认知负荷预测而设计的基于变压器的NARX框架实现。在认知负荷预测的背景下，我们认为带有外生输入的自回归框架具有两个主要优势：（1）它能够整合与工作记忆参与波动相关的特征（如眼动指标），从而提高认知负荷估计的准确性；（2）从实际角度来看，该模型在推理状态下不需要访问EEG数据，使得非侵入性和实用的方法适用于实际应用。眼动特征和TAR本质上是非平稳的，因此，我们假设单纯的时间表示可能不足以捕捉眼动外生输入的复杂性。相反，我们提出光谱表示（基于传统的傅里叶方法）和连续小波变换（CWT）表示可能优于时间表示。这种光谱和小波编码方案分别提供频率和局部时频表示。特别是CWT允许网络通过自适应小波系数学习粗粒度和细粒度结构，从而有效捕捉随时间变化的因果光谱依赖性。我们认为考察这一论点对我们的研究至关重要。

本文的结构如下：首先，我们使用CWT来捕捉非平稳信号的瞬态光谱内容，从而实证支持我们的论点。随后，我们介绍了基于变压器的架构，将神经建模和认知负荷预测视为具有外生（NARX）眼动输入的非线性自回归时间序列问题（NARCOX）。最后，我们通过实验证明了我们的NARCOX模型优于基于时间域的基线模型。所有模型都在EEGEyeNet数据集[40]上训练，以预测TAR。

本文的主要贡献是：（1）我们将认知负荷估计表述为NARX回归任务，提出了NARCOX框架，利用眼动外生输入来预测任何给定未来时间的非平稳神经活动和认知负荷；（2）我们通过模拟研究证明了连续小波变换（CWT）频谱图的合理性；（3）我们开发并评估了NARCOX变压器变体，并证明了傅里叶和小波表示在预测TAR方面优于基于时间域的基线模型。

章节片段

Theta-Alpha比率：认知负荷的代理指标

Theta-Alpha比率（TAR）定义为EEG通道中Theta和Alpha频段的平均功率谱密度的比值，已被证明是认知负荷的有效指标。设

表示通过Welch方法[41]估计的频率

处的通道

的功率谱密度，

为频率bin宽度，

为用于计算Theta功率的通道集，

为用于计算Alpha功率的通道集。TAR的计算公式为：

热点排行

新闻专题

联系信箱：

粤ICP备09063491号