模仿复发现象的学习方法：在离线循环强化学习中消除顺序式部署机制

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：Recurrence mimicking learning: Eliminating sequential rollouts in offline recurrent reinforcement learning

【字体：大中小】 时间：2026年01月25日 来源：Neurocomputing 6.5

编辑推荐：

　　提出基于循环模拟学习（RML）的新方法，通过并行枚举所有可能的前序动作，将传统 offline RRL 的每个周期前向传播次数从 T 次减少到 2 次，在保持轨迹精确性和全局奖励优化的同时，显著降低计算量，适用于金融交易等高频重训场景。

托马斯·维特科夫斯基（Tomasz Witkowski）| 克日什托夫·卡尼亚（Krzysztof Kania）| 托马斯·瓦乔维茨（Tomasz Wachowicz）

波兰卡托维兹经济大学运筹学系

摘要

循环强化学习（Recurrent Reinforcement Learning, RRL）广泛应用于行为依赖于先前决策的情境中，例如动态决策制定。然而，离线RRL存在一个主要的计算瓶颈：它需要逐步评估每个轨迹，这使得在长预测范围、复杂模型和高维特征的情况下训练效率低下。为了解决这个问题，我们提出了“循环模仿学习”（Recurrence Mimicking Learning, RML）方法，该方法重新安排离线RRL的流程，使得每个训练周期只需进行两次批量前向计算，且不受预测范围长度的影响。RML能够在一次计算中枚举所有“先前的动作”，并通过一个简单的选择步骤重建出精确的循环路径。实验表明，RML能够保持标准离线RRL的最终动作轨迹，允许直接优化全局奖励，并将训练计算时间减少到传统方法的约5%，同时还能有效应对序列长度和动作空间规模的变化。

引言

强化学习（Reinforcement Learning, RL）通过与环境互动并基于试错来学习如何在动态和不确定的环境中采取最优行动[1]。在其作为马尔可夫决策过程（Markov Decision Process）的标准形式中，智能体观察一个状态，选择一个动作，接收一个奖励，并转移到新的状态，目标是找到一个能够最大化预期折扣回报的策略[2]。与从固定数据集中提取模式的监督学习不同，RL从评估反馈中学习，而这些反馈往往存在延迟，并且与智能体自身的过去选择相互关联。这种反馈结构导致了“时间信用分配问题”（temporal credit assignment problem），即必须将奖励归因于许多步骤之前的动作；同时还有“探索-利用困境”（exploration–exploitation dilemma），即需要在短期收益与获取新信息的潜在价值之间做出平衡[1],[3]。这些挑战对于RL在那些干预不仅影响即时结果还影响环境本身演变的领域（如金融市场、机器人技术和在线平台）的应用至关重要[2]。

过去十年中，随着深度神经网络作为强大函数逼近器的整合，RL的应用范围已经远远超出了早期阶段[2],[3]。深度RL智能体取得了里程碑式的成就，例如直接从原始像素中以超人类水平玩奏数十款Atari游戏，或者通过结合监督学习、RL和搜索技术的AlphaGo击败围棋世界冠军。这些进展将RL的应用扩展到了机器人技术、自主导航、资源分配和自然语言处理等复杂控制问题中。

与此同时，深度RL的高样本复杂性促使人们研究数据高效的方法，包括基于模型的方法（用于规划）和“离线RL”算法（在现实世界交互成本高昂或风险较大时从固定数据集中优化策略）[4]。行为规范化的离线学习、使用学习到的模型进行规划以及自监督表示学习等方法体现了减少部署需求的同时保持对长预测后果推理能力的趋势[3],[4]。这种形式化的决策理论基础与实际算法创新的结合，使得RL成为跨多样化、高影响力领域的序列优化的统一范式。

循环强化学习（RRL）[5]是RL的一个子领域，它处理那些“先前的动作”自然影响后续动作并且对奖励结构至关重要的任务。RRL的一个主要应用领域是金融，因为在金融交易中，交易成本使得决策与最终奖励之间存在密切关系[6]。此外，它也被应用于机器人技术、硬件管理和自主船舶等领域[1],[7],[8]。

在离线RRL中，拥有完整的数据集，优化目标是整个序列中的全局奖励[9]。当收集新数据涉及高昂成本和风险时，这种方法可能特别有利[4]。不幸的是，由于每个训练周期都需要多次模型前向计算来生成动作路径（也称为轨迹或 rollout），这些离线过程的速度非常慢[10],[11]。这一瓶颈阻碍了其在时间敏感或高维环境中的实际应用[12]，并且在像金融市场这样的动荡环境中，也可能使得频繁重新训练变得不可行[13]。

已经提出了多种方法来加速学习算法（例如，近似局部奖励、并行扩展或部分扩展）[2],[14]，但这些方法往往需要牺牲全局奖励优化的核心目标，而这正是离线RRL的特点。其他作者提出了基于时间反向传播（backpropagation through time）的方法[15]，尽管这种方法很受欢迎，但仍需要为每个时间步骤重新运行模型以获得精确的离线路径。

在本文中，我们介绍了循环模仿学习（RML），这是一种从根本上重构离线RRL计算流程的方法，以消除其主要瓶颈。RML实现了三项关键创新：首先，它通过并行枚举所有可能的“先前的动作”，将每个训练周期的训练时间减少了约95%；其次，它通过一个轻量级的选择机制保持了精确的轨迹等价性和全局奖励优化的完全可微性，无需任何近似；第三，它能够高效地应对序列长度T和动作空间规模K的变化，即使面对数百个离散动作也能保持实用性。与那些为了速度而牺牲精度的近似方法不同，RML保持了与传统离线方法相同的最终动作序列和梯度流，同时大幅降低了计算开销。这使得RML在计算资源紧张的情况下，特别是在需要频繁重新训练长序列的领域（如金融交易系统）中具有特别的价值，同时适用于任何环境观察在训练期间独立于智能体动作变化的离线RRL场景。

RL中的效率

应用于复杂问题的强化学习方法面临多种效率挑战。效率比较的一个关键方面是明确所针对的效率概念，因为文献中区分了样本效率、数据效率和计算效率。

样本效率：一些近期研究致力于从更少的环境交互中提取更多价值。

提出的方法：循环模仿学习（RML）旨在复制离线RRL的流程，其中每个动作都依赖于之前的动作，但不需要按顺序遍历所有时间步骤。相反，RML在一次性批量前向计算中枚举所有可能的“先前的动作”，然后重建出与传统流程相同的序列。下面我们将详细介绍RML的主要组成部分：如图1所示的循环模仿前向计算（Recurrence Mimicking Forward Pass, RMFP）。

实验

为了评估所提出的RML框架，我们进行了一系列受控实验，以测试其相对于标准离线RRL的效率和准确性。实验重点关注两个方面：计算性能和轨迹保留能力。我们还分析了编码器-解码器分离等架构选择的贡献，并考察了算法的可扩展性。

结论

我们提出了循环模仿学习（RML），用于解决随着训练周期增加而导致的成本爆炸问题。通过在一次批量计算中枚举所有可能的“先前的动作”，并增加一次额外计算以确保端到端的可微性，RML在保持精确全局奖励优化的同时，将多个序列计算步骤合并为两次运行。

所提出的算法具有以下优点：

能够以远低于传统逐步方法的时间复杂度，生成与标准离线流程完全相同的轨迹；

RML的实现和所有实验脚本均可在以下链接公开获取：

https://github.com/tomWitkowski/recurrence-mimicking-learning

在撰写本文过程中，作者使用了gpt-4o和gpt-o1模型来纠正错误、改进语言和重组不清晰的文本。使用这些工具/服务后，作者对内容进行了审查和编辑，并对出版物的内容承担全部责任。

作者贡献声明

托马斯·维特科夫斯基（Tomasz Witkowski）：负责写作、原始草稿的撰写、可视化、软件开发、项目管理、方法论制定和概念化。

克日什托夫·卡尼亚（Krzysztof Kania）：负责写作审查与编辑、监督和项目管理。

托马斯·瓦乔维茨（Tomasz Wachowicz）：负责写作审查与编辑、监督和项目管理。

作者声明

作者声明没有已知的财务利益冲突或个人关系可能影响本文的研究结果。

联系信箱：

粤ICP备09063491号

摘要

引言

RL中的效率

实验

结论

热点排行