强化学习(RL)在许多领域取得了显著进展,从游戏(Mnih等人,2015年;Qi等人,2023年;Silver等人,2016年;Wang等人,2021年)到控制系统(Bouktif等人,2023年;Fan等人,2025年;Hoeller等人,2024年;Noh等人,2025年;Qureshi等人,2018年;Wu等人,2025年;Zhuang, Fu, Wang, Atkeson, Schwertfeger, Finn, Zhao,2023年;Zhuang, Yao, Zhao,2025年)。Mnih等人(2015年)展示了一个能够直接从高维感官输入中学习控制策略的RL代理,在Atari游戏中的表现与人类专家相当甚至更优。Wang等人(2021年)进一步提出了一个RL代理,通过结合模仿学习(Hussein等人,2017年)和RL,在复杂的实时策略(RTS)游戏StarCraft II中击败了顶级专业玩家。在控制系统方面,RL已成功应用于实际问题,如交通信号控制(TSC)以优化城市地区的交通流量和缓解拥堵(Bouktif等人,2023年),以及商业建筑中的供暖、通风和空调(HVAC)系统以管理多区域预冷和提高能源效率(Fan等人,2025年)。从控制理论的角度来看,Wu等人(2025年)提出了一个适用于离散时间线性控制系统的RL框架,该系统具有多个决策者,被建模为非零和多人游戏,并在初始激励条件下近似纳什均衡解。RL的最新进展还使四足和人形机器人能够在具有挑战性的非结构化地形上获得高度敏捷和动态的运动能力,并执行类似跑酷的机动动作(Hoeller等人,2024年;Zhuang, Fu, Wang, Atkeson, Schwertfeger, Finn, Zhao,2023年;Zhuang, Yao, Zhao,2025年)。
通过与环境互动的系统试错过程,RL代理发展出了熟练的决策能力,使它们能够解决复杂问题,这从上述关键领域之外的广泛应用中得到了证明(Brown等人,2020年;Degrave等人,2022年;Feng等人,2023年;Hambly等人,2023年)。然而,现实世界的RL应用经常遇到与延迟反馈相关的挑战,例如通信系统中的网络延迟和机器人控制系统中的响应延迟(Abadía等人,2021年;Ge等人,2013年;Kaufmann等人,2022年)。这种延迟可能会使标准状态表示不足以确保马尔可夫动态特性,除非在决策时加入足够的信息。如果这个问题得不到解决,不仅会降低RL代理的性能,还可能使其在动态系统中的行为变得不稳定(Hwangbo等人,2017年;Mahmood等人,2018年)。
在RL框架内解决延迟问题的现有研究大致可以分为两个分支:完全信息方法和基于模型的方法。完全信息方法通过添加与延迟相关的历史信息来重构原始状态,从而在存在延迟的情况下恢复马尔可夫动态特性(Katsikopoulos和Engelbrecht,2003年)。尽管其理论基础扎实,但增加状态的核心策略可能会导致与样本复杂性相关的问题。为了解决这一限制,人们采用了循环神经网络(Cho,2014年)将与延迟相关的历史信息嵌入到一个紧凑的隐藏状态中,从而从部分可观察的动态中恢复马尔可夫状态表示,而无需显式扩大状态空间(Duell等人,2012年)。另一种方法是Kim等人(2023年)引入了一种基于增强值的表示方法,这些值是根据原始状态空间而不是增强后的状态空间进行评估的,这本质上减轻了样本效率低下的问题。Wu等人(2024b)通过利用具有较短延迟的辅助任务来帮助学习具有较长延迟的任务,从而缓解了这一问题的性能下降。Wang等人(2023年)采取了不同的方法,利用离线数据来获取时间校准的信息,以避免这种样本复杂性问题。最近,Wu等人(2024a)将延迟RL表述为一个变分推断问题,并提出了一种迭代方法,首先学习无延迟策略,然后通过行为克隆将其应用到延迟环境中,从而实现高样本效率。
另一方面,基于模型的方法旨在通过学习潜在的无延迟动态,然后在延迟环境中使用学习到的动态进行规划(Chen等人,2021年;Derman等人,2021年;Firoiu等人,2018年;Walsh等人,2009年)。例如,Derman等人(2021年)从无延迟环境中收集的转移样本中近似MDP动态模型,并在其延迟环境中使用它来通过递归一步预测推断无延迟信息。同样,Firoiu等人(2018年)采用循环神经网络来捕捉时间动态。尽管这些方法有助于更高效的样本学习,但它们对动态模型的准确性依赖性强,使得它们容易受到模型错误和环境随机性的影响;即使是很小的预测不准确也会严重降低策略性能和稳定性。
尽管在RL框架内提出了许多延迟补偿方法,并展示了它们的潜力,但大多数方法依赖于固定延迟的不现实假设,或者需要明确了解潜在的延迟分布(Chen等人,2021年;Derman等人,2021年;Kim等人,2023年;Liotet等人,2022年;Wu, Zhan, Wang, Wang, Lin, Lv, Zhu, Huang,2024a;Wu, Zhan, Wang, Wang, Lin, Lv, Zhu, Schmidhuber, Huang,2024b)。因此,与具有固定延迟的环境相比,具有随机延迟的环境相对较少被研究,主要是由于它们的固有变异性和不可预测性。这种随机性质使得传统固定延迟方法的直接适应变得复杂,这些方法通常依赖于结构化和有序的历史信息,从而大大限制了它们在具有未知特征的随机延迟的现实环境中的适用性。
在这项研究中,我们提出了一种能够在有界随机延迟下进行鲁棒决策的代理,称为
保守代理。该代理将随机延迟环境重构为固定延迟环境,提供了一个即插即用的框架,使得任何固定延迟方法都可以直接扩展到随机延迟环境,而无需修改其算法结构。除了最大延迟外,保守代理不需要预先了解潜在的延迟分布,并且只要最大延迟保持不变,其性能就不会因延迟分布的变化而受到影响。该代理消除了估计单个延迟或延迟分布本身的需要,有效解决了随机延迟固有不可预测性带来的困难。我们对保守代理进行了理论分析,并在MuJoCo基准测试中的多种连续控制任务上评估了其性能(Todorov等人,2012年)。实验结果表明,所提出的保守RL算法在渐近性能和样本效率方面始终优于现有的随机延迟基线方法。本研究的主要贡献总结如下:
•我们提出了一种能够在有界随机延迟下进行鲁棒决策的保守代理。它将随机延迟环境重构为固定延迟环境,从而提供了一个即插即用的框架,允许传统的固定延迟方法直接应用于随机延迟环境,而无需进行算法修改。除了最大延迟外,它不需要预先了解潜在的延迟分布,并且只要最大延迟保持不变,其性能就不会因延迟分布的变化而受到影响。
•我们推导出了在有限随机延迟下正常代理和保守代理之间的性能差距的正式界限,这为何时使用保守代理提供了指导。
•我们研究了我们方法的局限性,并提出了一种有效的缓解策略。通过实验验证,我们确认所提出的框架在性能上显著优于直接在随机延迟环境中运行的现有随机延迟方法。
•我们提供了支持我们理论发现的实证证据,并在MuJoCo基准测试中的多种连续控制任务上评估了所提出的保守RL算法。实验结果证实,我们的算法在渐近性能和样本效率方面显著优于现有的随机延迟基线方法。