PVN-LBRL：基于潜在信念强化学习的在线运动想象动态窗口分类框架

《Pattern Recognition》：Latent Belief Reinforcement Learning for Online Motor Imagery Classification

【字体：大中小】 时间：2026年03月21日 来源：Pattern Recognition 7.6

编辑推荐：

　　本文提出了一种名为点投票网络-潜在信念强化学习（PVN-LBRL）的创新框架，用于解决在线脑机接口（MI-BCI）中运动想象（MI）信号的低延迟、高精度分类难题。该框架将在线动态窗口分类问题建模为部分可观测马尔可夫决策过程（POMDP），通过引入潜在信念更新机制和“等待-停止”决策机制，有效缓解了传统强化学习（RL）方法的早期停止困境，实现了分类时机与准确率的自适应平衡。实验表明，其在BCI Competition IV-2a数据集上取得了96.35 bits/min的信息传输率（ITR）。

亮点

引言

脑机接口（BCIs）绕过了受损的神经肌肉通路，在大脑与外部设备之间建立了直接连接[1]。在各种BCI模态中，基于脑电图（EEG）的系统因其无创性、便携性和操作简便性而备受关注[2]。在此领域内，基于运动想象（MI）的脑机接口通过分析来自脑电图信号的传感器运动节律（SMRs）来解码用户意图[3]，从而在没有外部刺激的情况下实现对设备的控制[4]，[5]。这类MI-BCIs已应用于身份认证[6]、轮椅/机器人控制[7]、中风康复[8]和游戏[9]等领域。然而，延迟仍是MI-BCIs中一个持续存在的挑战，损害了其实时性能和用户体验[10]。

现有的离线MI分类方法通过分析完整分割的脑电图试次，虽然通过分析较短片段（1-2秒）降低了延迟[11]，但这些方法并不适合在线场景。现有的在线方法通常依赖于滑动固定长度窗口，顺序处理数据。此类固定长度窗口方法面临局限：短窗口可能截断信息性信号，而长窗口则会引入噪声和延迟[12]。它们无法适应试次间脑电图信号质量的变化。为解决此限制，在线动态窗口分类方法被提出。例如，前端复制动态窗口（FRDW）算法[13]根据试次质量自适应调整窗口长度，允许高质量试次早期分类，模糊试次则推迟分类。

在线动态窗口MI分类构成了一个时间序列早期分类问题。这项任务是模式识别中在部分可观测条件下进行顺序决策的一个典型挑战，其目标是从增量呈现的、有噪声的时间序列数据中实现早期分类。尽管强化学习（RL）框架已被探索用于此类问题[14]，[15]，但其在脑电图分析中的直接应用带来了重大挑战。首先，传统的基于RL的方法将动作集定义为{“等待” vs. “分类标签”}。这种表述在探索过程中造成了早期停止困境。随着标签数量的增加，等待的概率减小，导致智能体倾向于过早分类而非持续观察。其次，在没有编码器潜在特征表示的情况下，智能体难以从有噪声的高维脑电图片段中提取判别性模式。这些挑战阻碍了有效的证据积累，导致策略学习效果欠佳。

为应对这些挑战，在线动态窗口分类被构建为部分可观测马尔可夫决策过程（POMDP）[16]。我们的方法引入了信念更新机制，该机制维持累积证据的潜在表示，从而实现对预测时机的决策。通过将停止决策与分类决策解耦，动作集被简化为{“等待”vs.“停止”}，在探索阶段将初始等待概率提高到1/2，并提升了策略学习效率。信念更新机制通过潜在信念和编码观察进一步减轻噪声影响，以跨时间片段提取判别性特征。

总之，我们提出了点投票网络-潜在信念强化学习（PVN-LBRL）框架来解决在线分类POMDP。该框架整合了：(1) 一个基于点投票网络（PVN）的编码器，用于将原始脑电图片段映射到潜在特征；(2) 一个基于门控循环单元（GRU）的潜在动态模型，利用RNN隐藏状态作为潜在信念表示；(3) 一个信念解码器，将潜在信念转化为对可能MI标签的显式信念估计；(4) 一个用于停止决策的Q网络。主要贡献总结如下。

•
1. 1.
  在线动态窗口MI分类被构建为POMDP问题。BCI智能体按顺序观察脑电图数据流的片段，使用信念更新机制累积证据，并自适应地决定何时停止数据流以输出预测的MI标签。
•
1. 2.
  提出了PVN-LBRL框架来解决POMDP问题。我们的框架整合了用于特征提取的基于PVN的编码器、用于信念更新的基于GRU的潜在动态模型、用于显式信念解码的信念解码器，以及用于基于RL决策的Q网络。
•
1. 3.
  我们展示了如何通过调整折扣因子实现灵活的分类时机与准确性权衡。在BCI C IV-2a数据集上的评估表明，PVN-LBRL在40个样本片段长度和小折扣因子(γ=0.1)下实现了激进的动态窗口适应（ITR: 96.35 bits/min），或在100个样本片段长度和大折扣因子(γ=0.997)下实现了保守的适应（准确率: 74.88%）。

本文其余部分组织如下。第2节回顾相关文献。第3节详细介绍提出的PVN-LBRL方法论。第4节呈现广泛的实验评估，验证了在离线和在线设置下的先进性能。该评估辅以对跨受试者和跨MI任务中学习到的自适应脑电图预测长度异质性的深入可视化分析。最后，第5节总结全文。

片段摘要

离线MI分类

离线MI分类指的是在预先记录的脑电图试次上训练和测试分类器。在此设置中，分类器使用完全分割的试次时段进行特征提取和评估。例如，在BCI竞赛IV-2a数据集[17]中，每个完整试次包括2秒准备、4秒MI执行和1.5秒休息。传统上，分类器使用完整的4秒MI执行段[18]，虽然这能带来高准确率，但也引入了延迟。

问题表述

给定一个包含_{n_d}个脑电图试次的数据集D={(x_1:Tⁱ, yⁱ)}_i=1^n_d，每个试次x_1:Tⁱ= [x₁ⁱ, ..., x_Tⁱ] ∈ R^C×T包含MI执行期间来自C个电极的T个样本，标签yⁱ∈ L表示|_L|个MI类别之一。L代表标签集。在时间步t ∈ {1, ..., T}记录的样本为x_tⁱ∈ R^C。

对于离线MI分类，测试试次逐个到达。训练一个模型f_offline来预测完整试次的标签，公式为?ⁱ= f_offline(x_1:Tⁱ)。

对于在线MI分类，每个测试试次以片段形式到达。

数据集与预处理

采用两个公共MI数据集来评估PVN-LBRL框架：BCI竞赛IV-2a [17] 和 PhysioNet MI [37]。BCI竞赛IV-2a数据集包含来自9名受试者执行4种运动想象任务（左手、右手、双脚、舌头）的脑电图记录。数据通过22个脑电图电极和3个眼电图电极以250Hz采样率采集。每个受试者在不同日期完成了两次会话，每次会话包含288个试次（每个试次包含4秒MI执行）。训练集和测试集是分开的。

结论

本文介绍了PVN-LBRL框架，该框架将在线动态窗口MI分类构建为部分可观测马尔可夫决策过程。这项工作的主要创新是解决了早期停止困境，这是先前基于RL的脑机接口场景时间序列早期分类方法的一个关键限制。通过将动作集从{“等待” vs. “分类标签”}重构为{“等待” vs. “停止”}，并整合信念更新机制，智能体的初始等待概率在探索期间从1/(|_L|+1)增加到1/2，从而缓解了早期停止困境。此外，基于点投票网络的编码器和GRU信念更新模块增强了从嘈杂脑电图片段中提取判别性特征和跨片段积累证据的能力，从而促进了更优的策略学习。在BCI竞赛IV-2a和PhysioNet MI数据集上的大量实验证实，PVN-LBRL在在线动态窗口分类任务中，在信息传输率（ITR）和准确率方面，均优于最先进的方法。通过调整折扣因子γ，PVN-LBRL在分类时机和准确性之间实现了灵活权衡，满足了不同脑机接口应用的多样化需求。可视化分析进一步验证了PVN-LBRL能够适应不同受试者和不同MI任务的不同脑电图信号动态。

热点排行