基于临界状态加速的RNN强化学习

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

基于临界状态加速的RNN强化学习

【字体：大中小】 时间：2026年03月04日 来源：Neurocomputing 6.5

编辑推荐：

　　本文提出基于矩阵的临界性正则化损失函数，将临界状态嵌入循环神经网络，通过分解高维网络为三节点元网络并增强特定 motifs 比例，在 MuJoCo、Atari 和 POMDP 强化学习任务中实现更优奖励性能和更快收敛。

王梓尧|孙月|徐波|张铁林

中国科学院自动化研究所，北京，中国

摘要

许多研究强调了临界状态（临界性）的好处。然而，在高维网络中推导出封闭形式的临界性条件仍然具有挑战性。因此，大多数现有的嵌入临界性的方法依赖于迭代或数值方法，这些方法往往难以处理且不支持反向传播（BP）。为了克服这一限制，我们引入了一种基于矩阵的临界性正则化器作为额外的损失函数，并通过整合3节点元网络的多个临界状态来近似整个网络的临界性。我们展示了使用所提出的临界性损失函数的循环神经网络（RNN）可以有效地集成到各种流行的强化学习架构中（例如，SAC、PPO、TD3、DDPG、VPG）。此外，与普通的RNN和一些基准算法相比，它们在MuJoCo Atari和POMDP任务中实现了更高的奖励性能和更快的收敛速度。因此，验证了临界状态对于动态网络学习的重要性。

引言

临界状态（临界性）是动态系统介于稳定性和混沌之间的一种动态属性，已被认为具有许多有利特性。自从Langton首次提出“在临界点进行计算”并讨论将临界性嵌入计算系统和网络[1]以来，许多研究者证明了临界状态带来的好处，包括最佳计算能力[2]、最大信号传输[3]、[4]、高效的信息存储[5]以及对感官输入的更高敏感性[6]、[7]、[8]。在动态系统中，人脑尤为突出，它结合了丰富的动态性和能源效率，同时保持高性能[9]。

人们已经做出了许多努力将临界性嵌入高维人工神经网络（ANN）中。一种有效的测量临界性的方法是估计高阶矩阵的谱半径，然后成功将其嵌入到回声状态网络中[10]、[11]、[12]、[14]，其中大多数权重被冻结以保持临界性，只留下输入层和输出层可训练。另一种非冻结的受突触启发的方法是根据尖峰时序依赖性（STDP）调整突触权重，以实现临界状态的自发调整[15]、[16]、[17]。然而，这些方法的主要目标是再现物理或生物学上可解释的现象，但在动态调整突触权重方面存在严重限制。因此，传统方法只能用于相对简单的强化学习任务，例如平面导航任务（包含随机起始位置、固定目标和无障碍物[18]）或工作记忆任务[19]。

因此，需要一种新的方法，能够在更复杂和实际的任务中平衡学习能力和临界性。为了解决这个问题，我们设计了一个额外的、易于处理的损失函数（临界性损失函数），以及一个传统的基于误差的损失函数，以便在学习过程中自动测量网络的临界性。此外，为了克服在临界性损失中推导高维常微分方程（ODE）的挑战，我们将全局网络的临界性分解为局部不同电路的临界性（定义为四种特殊类型的网络模式[20]）。这种方法的另一个洞察是，局部电路（低维ANN）中的临界性约束本质上比全局网络（高维ANN）中的约束更简单、更容易分析。此外，我们还可以增加某些特定模式类型的比例，例如那些具有高临界性特征的模式（在四种候选网络模式中），以增强整个网络的临界性。

此外，我们将所提出的方法扩展到更复杂和实际的Open-AI MuJoCo[21]、Atari[22]和POMDP[23]强化学习任务中，并观察到在网络学习过程中奖励性能和收敛速度的加速。我们发现，在这里临界性在平衡探索和利用之间起着重要作用，表现出多样的稳定、临界和混沌行为，如图1所示。

总结如下。

•
我们通过识别一种新的、与原始误差损失函数兼容的计算友好型临界性损失函数，成功地将临界状态嵌入到RNN中。与一些传统的迭代、数值或难以处理的方法不同，这种新设计完全支持BP过程[24]。
•
我们通过首先将高维ODE分解为局部网络模式，选择四种具有临界性的特定模式，并通过增加所选模式类型的比例来提高网络临界性，从而解决了推导高维ODE的挑战性问题。
•
在MuJoCo、Atari和POMDP基准任务中，所提出的算法实现了更高的奖励性能和更快的收敛速度。与之前仅限于玩具任务的工作相比，所提出的算法能够扩展学习能力以处理更困难的RL任务并更快地学习。
•
我们通过实验验证了使用大量局部临界状态来近似整个网络的临界状态是成功的。具体来说，在训练过程中整个网络的谱范数收敛到了1，这是网络处于临界状态的标志。

初步知识

在本节中，我们简要回顾了我们的方法所基于的基本概念：强化学习、循环神经网络、常微分方程和动态临界性。

方法

在本节中，我们首先介绍了四种特殊类型的三节点子网络，称为网络模式。然后我们分析了其中一类模式的封闭形式临界性条件。最后，通过增加这些临界状态模式的比例来近似整个网络的临界状态。

实验

首先，我们在四个OpenAI-MuJoCo强化学习基准任务和一个经典控制基准任务中评估了我们提出方法的加速性能。然后我们测试了我们设计的损失函数，发现特定模式的比例确实增加了。我们进一步发现，这些网络模式中的大多数都被驱动进入临界状态。最后，消融实验证明了所提出方法在网络学习过程中的实用性

结论

评估高维循环神经网络中的临界状态在计算上具有挑战性。为了解决这个问题，我们将高维网络分解为更简单、低维的结构——具体来说，是一个以矩阵形式表示的三节点循环网络模式。这种表示大大简化了网络动态的分析。然后我们设计了一个基于矩阵的模式损失函数，并用它成功地训练了RNN，引导它们朝向拓扑配置

CRediT作者贡献声明

王梓尧：撰写——原始草稿，验证，软件，方法论，形式分析。孙月：撰写——原始草稿，验证，监督。徐波：监督。张铁林：撰写——原始草稿，验证，资金获取，形式分析。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

王梓尧于2023年在中国西北工业大学获得机械工程学士学位。目前，他是中国科学院自动化研究所的硕士研究生。他的研究兴趣包括强化学习，以及将生物学和物理知识嵌入人工神经网络的数学原理。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

相关工作

初步知识

方法

实验

结论

CRediT作者贡献声明

利益冲突声明

热点排行