通过保守型智能体在具有随机延迟的环境中进行强化学习

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：Reinforcement Learning via Conservative Agent for Environments with Random Delays

【字体：大中小】 时间：2026年01月28日 来源：Neural Networks 6.3

编辑推荐：

　　针对强化学习中随机延迟环境的问题，提出保守代理方法，将随机延迟转化为恒定延迟模型，理论分析并验证其优于现有基线，在MuJoCo基准上实现高样本效率和渐近性能。

Jongsoo Lee|Jangwon Kim|Jiseok Jeong|Soohee Han

韩国庆北道浦项市南区Cheongam-ro 77号，浦项科技大学融合IT工程系，邮编36763

摘要

现实世界的强化学习应用往往受到环境中不可避免的延迟反馈的影响。在这种情况下，除非在决策时加入额外信息，否则标准的状态表示可能不再能体现马尔可夫动态特性，这给学习和控制带来了重大挑战。虽然已经为具有固定延迟的环境提出了许多延迟补偿方法，但由于随机延迟的固有变异性和不可预测性，这些方法在随机延迟环境中仍然很少被研究。在这项研究中，我们提出了一种能够在有界随机延迟下进行决策的鲁棒代理，称为保守代理。该代理将随机延迟环境重构为固定延迟环境，使得任何固定延迟方法都可以直接扩展到随机延迟环境，而无需修改其算法结构。除了最大延迟外，保守代理不需要预先了解延迟分布，并且只要最大延迟保持不变，其性能就不会因延迟分布的变化而受到影响。我们对保守代理进行了理论分析，并在MuJoCo基准测试中的多种连续控制任务上评估了其性能。实验结果表明，它在渐近性能和样本效率方面显著优于现有的基线方法。

引言

强化学习（RL）在许多领域取得了显著进展，从游戏（Mnih等人，2015年；Qi等人，2023年；Silver等人，2016年；Wang等人，2021年）到控制系统（Bouktif等人，2023年；Fan等人，2025年；Hoeller等人，2024年；Noh等人，2025年；Qureshi等人，2018年；Wu等人，2025年；Zhuang, Fu, Wang, Atkeson, Schwertfeger, Finn, Zhao，2023年；Zhuang, Yao, Zhao，2025年）。Mnih等人（2015年）展示了一个能够直接从高维感官输入中学习控制策略的RL代理，在Atari游戏中的表现与人类专家相当甚至更优。Wang等人（2021年）进一步提出了一个RL代理，通过结合模仿学习（Hussein等人，2017年）和RL，在复杂的实时策略（RTS）游戏StarCraft II中击败了顶级专业玩家。在控制系统方面，RL已成功应用于实际问题，如交通信号控制（TSC）以优化城市地区的交通流量和缓解拥堵（Bouktif等人，2023年），以及商业建筑中的供暖、通风和空调（HVAC）系统以管理多区域预冷和提高能源效率（Fan等人，2025年）。从控制理论的角度来看，Wu等人（2025年）提出了一个适用于离散时间线性控制系统的RL框架，该系统具有多个决策者，被建模为非零和多人游戏，并在初始激励条件下近似纳什均衡解。RL的最新进展还使四足和人形机器人能够在具有挑战性的非结构化地形上获得高度敏捷和动态的运动能力，并执行类似跑酷的机动动作（Hoeller等人，2024年；Zhuang, Fu, Wang, Atkeson, Schwertfeger, Finn, Zhao，2023年；Zhuang, Yao, Zhao，2025年）。

通过与环境互动的系统试错过程，RL代理发展出了熟练的决策能力，使它们能够解决复杂问题，这从上述关键领域之外的广泛应用中得到了证明（Brown等人，2020年；Degrave等人，2022年；Feng等人，2023年；Hambly等人，2023年）。然而，现实世界的RL应用经常遇到与延迟反馈相关的挑战，例如通信系统中的网络延迟和机器人控制系统中的响应延迟（Abadía等人，2021年；Ge等人，2013年；Kaufmann等人，2022年）。这种延迟可能会使标准状态表示不足以确保马尔可夫动态特性，除非在决策时加入足够的信息。如果这个问题得不到解决，不仅会降低RL代理的性能，还可能使其在动态系统中的行为变得不稳定（Hwangbo等人，2017年；Mahmood等人，2018年）。

在RL框架内解决延迟问题的现有研究大致可以分为两个分支：完全信息方法和基于模型的方法。完全信息方法通过添加与延迟相关的历史信息来重构原始状态，从而在存在延迟的情况下恢复马尔可夫动态特性（Katsikopoulos和Engelbrecht，2003年）。尽管其理论基础扎实，但增加状态的核心策略可能会导致与样本复杂性相关的问题。为了解决这一限制，人们采用了循环神经网络（Cho，2014年）将与延迟相关的历史信息嵌入到一个紧凑的隐藏状态中，从而从部分可观察的动态中恢复马尔可夫状态表示，而无需显式扩大状态空间（Duell等人，2012年）。另一种方法是Kim等人（2023年）引入了一种基于增强值的表示方法，这些值是根据原始状态空间而不是增强后的状态空间进行评估的，这本质上减轻了样本效率低下的问题。Wu等人（2024b）通过利用具有较短延迟的辅助任务来帮助学习具有较长延迟的任务，从而缓解了这一问题的性能下降。Wang等人（2023年）采取了不同的方法，利用离线数据来获取时间校准的信息，以避免这种样本复杂性问题。最近，Wu等人（2024a）将延迟RL表述为一个变分推断问题，并提出了一种迭代方法，首先学习无延迟策略，然后通过行为克隆将其应用到延迟环境中，从而实现高样本效率。

另一方面，基于模型的方法旨在通过学习潜在的无延迟动态，然后在延迟环境中使用学习到的动态进行规划（Chen等人，2021年；Derman等人，2021年；Firoiu等人，2018年；Walsh等人，2009年）。例如，Derman等人（2021年）从无延迟环境中收集的转移样本中近似MDP动态模型，并在其延迟环境中使用它来通过递归一步预测推断无延迟信息。同样，Firoiu等人（2018年）采用循环神经网络来捕捉时间动态。尽管这些方法有助于更高效的样本学习，但它们对动态模型的准确性依赖性强，使得它们容易受到模型错误和环境随机性的影响；即使是很小的预测不准确也会严重降低策略性能和稳定性。

尽管在RL框架内提出了许多延迟补偿方法，并展示了它们的潜力，但大多数方法依赖于固定延迟的不现实假设，或者需要明确了解潜在的延迟分布（Chen等人，2021年；Derman等人，2021年；Kim等人，2023年；Liotet等人，2022年；Wu, Zhan, Wang, Wang, Lin, Lv, Zhu, Huang，2024a；Wu, Zhan, Wang, Wang, Lin, Lv, Zhu, Schmidhuber, Huang，2024b）。因此，与具有固定延迟的环境相比，具有随机延迟的环境相对较少被研究，主要是由于它们的固有变异性和不可预测性。这种随机性质使得传统固定延迟方法的直接适应变得复杂，这些方法通常依赖于结构化和有序的历史信息，从而大大限制了它们在具有未知特征的随机延迟的现实环境中的适用性。

在这项研究中，我们提出了一种能够在有界随机延迟下进行鲁棒决策的代理，称为保守代理。该代理将随机延迟环境重构为固定延迟环境，提供了一个即插即用的框架，使得任何固定延迟方法都可以直接扩展到随机延迟环境，而无需修改其算法结构。除了最大延迟外，保守代理不需要预先了解潜在的延迟分布，并且只要最大延迟保持不变，其性能就不会因延迟分布的变化而受到影响。该代理消除了估计单个延迟或延迟分布本身的需要，有效解决了随机延迟固有不可预测性带来的困难。我们对保守代理进行了理论分析，并在MuJoCo基准测试中的多种连续控制任务上评估了其性能（Todorov等人，2012年）。实验结果表明，所提出的保守RL算法在渐近性能和样本效率方面始终优于现有的随机延迟基线方法。本研究的主要贡献总结如下：•

我们提出了一种能够在有界随机延迟下进行鲁棒决策的保守代理。它将随机延迟环境重构为固定延迟环境，从而提供了一个即插即用的框架，允许传统的固定延迟方法直接应用于随机延迟环境，而无需进行算法修改。除了最大延迟外，它不需要预先了解潜在的延迟分布，并且只要最大延迟保持不变，其性能就不会因延迟分布的变化而受到影响。

•

我们推导出了在有限随机延迟下正常代理和保守代理之间的性能差距的正式界限，这为何时使用保守代理提供了指导。

•

我们研究了我们方法的局限性，并提出了一种有效的缓解策略。通过实验验证，我们确认所提出的框架在性能上显著优于直接在随机延迟环境中运行的现有随机延迟方法。

•

我们提供了支持我们理论发现的实证证据，并在MuJoCo基准测试中的多种连续控制任务上评估了所提出的保守RL算法。实验结果证实，我们的算法在渐近性能和样本效率方面显著优于现有的随机延迟基线方法。

章节片段

无延迟强化学习

马尔可夫决策过程（MDP）（Bellman，1957年）可以用五元组定义：

M = (S

,

A

,

P

,

R

, γ），其中

S

和

A

代表状态空间和动作空间，

P : S \times A \times S \to [0, 1

是转移核，

R : S \times A \to R

是奖励函数，γ∈（0, 1）是折扣因子。此外，策略

π : S \times A \to [0, 1

将状态映射到动作分布。在每个时间步长t，代理从环境中观察到一个状态

s_{t} \in S

，根据π选择一个动作at∈A，接收一个有界奖励

r_{t} = R (s_{t}, a_{t}) \in [0, R_{max}

，

保守强化学习

在本节中，我们提出了一种保守代理，并展示了它如何将随机延迟环境重构为固定延迟环境。然后我们提供了理论结果，以指导何时使用保守代理是合理的。最后，我们研究了一种保守方法的局限性，并随后提出了一种有效的缓解策略。

实验

在本节中，我们对第3.2节中提出的理论分析进行了实证验证，并评估了所提出的保守RL算法与现有随机延迟算法的整体性能。此外，我们还进行了消融研究，以检验保守代理的通用适用性并量化其计算开销。

结论

在这项研究中，我们研究了在有界随机延迟环境中的强化学习挑战，并提出了在这种条件下进行鲁棒决策的保守代理。我们证明了这种代理可以将随机延迟MDP重构为固定延迟环境，从而提供了一个即插即用的框架，使得任何固定延迟方法都可以直接扩展到随机延迟MDP，而无需进行算法修改。除了最大延迟外，

未引用的引用

缺失的引用：图D1、图D2、图D3、算法1

CRediT作者贡献声明

Jongsoo Lee：撰写——原始草案、软件、方法论、调查、形式分析、数据整理、概念化。Jangwon Kim：验证、软件、方法论、调查。Jiseok Jeong：软件、方法论、调查。Soohee Han：撰写——审阅与编辑、监督、资源管理、项目管理、调查、资金获取、概念化。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号