基于双准则的政策优化在高精度强化学习中的应用

《Neural Computation》:Bicriteria Policy Optimization for High-Accuracy Reinforcement Learning

【字体: 时间:2026年01月09日 来源:Neural Computation 2.1

编辑推荐:

  双准则强化学习算法通过引入共态变量和哈密顿系统优化,有效解决复杂控制任务中政策精度低的问题,其提出的线性规划与凸约束优化方法提升了计算效率,实验验证了非线性控制场景下的性能提升。

  

摘要:

本质上,强化学习(RL)通过使用神经网络(NN)来拟合从状态到动作的最优策略,从而解决最优控制问题(OCP)。在复杂的控制任务中,策略近似的准确性通常非常低,导致控制性能不如在线最优控制器。主要原因在于价值函数的景观在大多数区域不仅崎岖不平,而且在底部是平坦的,这阻碍了向最小点的收敛。为了解决这个问题,我们开发了一种双标准策略优化(BPO)算法,该算法利用一些最优示范轨迹来指导梯度层面的策略搜索。与传统的问题定义不同,BPO旨在解决一个具有两个同构目标的双标准OCP:一个是来自标准奖励信号的目标,另一个是使示范轨迹对齐。我们为每个目标引入了两个共状态变量,并为这个双标准OCP制定了两个哈密顿量。新的最优性条件保留了两个哈密顿量的最小值。此外,我们发现梯度冲突是同时降低两个哈密顿量的关键障碍,其影响与理想梯度与实际梯度之间的内积成负比例。在每次RL迭代中构建一个极小化-最大化优化问题,以最小化两个同构目标之间的冲突,其解决方案被称为和谐梯度。通过将其内部优化循环转换为具有凸信赖区域约束的线性规划,我们将这个问题简化为一个单循环最大化问题,大大提高了计算效率。在線性和非线性控制任务上的实验测试验证了我们的BPO算法在提高策略网络准确性方面的有效性。

引言

强化学习(RL)在处理复杂控制任务(如视频游戏、机器人技术和自动驾驶车辆)方面显示出巨大潜力[1]。本质上,RL通过拟合从状态到动作的最优策略来解决最优控制问题(OCP)。在控制领域,它通常采用离线训练和在线实施的方式[2]。如图1所示,它首先在高保真环境中离线训练一个参数化的策略函数,然后将其作为在线实时控制器应用。由于参数化函数具有快速的推理能力,训练出的策略可以非常高效,从而避免了使用在线优化器的实时焦虑。然而,现代RL尚未达到可以作为即插即用解决方案所需的成熟度[3]。一个关键因素是其策略准确性低于当今的模型预测控制(MPC)方法[4]。因此,提高策略准确性已成为扩展RL算法在控制领域应用的关键课题。

离线训练和在线实施流程的示意图。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号