基于双准则的政策优化在高精度强化学习中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Computation》：Bicriteria Policy Optimization for High-Accuracy Reinforcement Learning

【字体：大中小】 时间：2026年01月09日 来源：Neural Computation 2.1

编辑推荐：

　　双准则强化学习算法通过引入共态变量和哈密顿系统优化，有效解决复杂控制任务中政策精度低的问题，其提出的线性规划与凸约束优化方法提升了计算效率，实验验证了非线性控制场景下的性能提升。

摘要：

本质上，强化学习（RL）通过使用神经网络（NN）来拟合从状态到动作的最优策略，从而解决最优控制问题（OCP）。在复杂的控制任务中，策略近似的准确性通常非常低，导致控制性能不如在线最优控制器。主要原因在于价值函数的景观在大多数区域不仅崎岖不平，而且在底部是平坦的，这阻碍了向最小点的收敛。为了解决这个问题，我们开发了一种双标准策略优化（BPO）算法，该算法利用一些最优示范轨迹来指导梯度层面的策略搜索。与传统的问题定义不同，BPO旨在解决一个具有两个同构目标的双标准OCP：一个是来自标准奖励信号的目标，另一个是使示范轨迹对齐。我们为每个目标引入了两个共状态变量，并为这个双标准OCP制定了两个哈密顿量。新的最优性条件保留了两个哈密顿量的最小值。此外，我们发现梯度冲突是同时降低两个哈密顿量的关键障碍，其影响与理想梯度与实际梯度之间的内积成负比例。在每次RL迭代中构建一个极小化-最大化优化问题，以最小化两个同构目标之间的冲突，其解决方案被称为和谐梯度。通过将其内部优化循环转换为具有凸信赖区域约束的线性规划，我们将这个问题简化为一个单循环最大化问题，大大提高了计算效率。在線性和非线性控制任务上的实验测试验证了我们的BPO算法在提高策略网络准确性方面的有效性。

引言

强化学习（RL）在处理复杂控制任务（如视频游戏、机器人技术和自动驾驶车辆）方面显示出巨大潜力[1]。本质上，RL通过拟合从状态到动作的最优策略来解决最优控制问题（OCP）。在控制领域，它通常采用离线训练和在线实施的方式[2]。如图1所示，它首先在高保真环境中离线训练一个参数化的策略函数，然后将其作为在线实时控制器应用。由于参数化函数具有快速的推理能力，训练出的策略可以非常高效，从而避免了使用在线优化器的实时焦虑。然而，现代RL尚未达到可以作为即插即用解决方案所需的成熟度[3]。一个关键因素是其策略准确性低于当今的模型预测控制（MPC）方法[4]。因此，提高策略准确性已成为扩展RL算法在控制领域应用的关键课题。

图1.

离线训练和在线实施流程的示意图。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号