动态近端策略优化:通过自适应熵和平滑裁剪技术提升PPO算法的性能

《Neurocomputing》:Dynamic proximal policy optimization: Enhancing PPO with adaptive entropy and smooth clipping

【字体: 时间:2026年02月03日 来源:Neurocomputing 6.5

编辑推荐:

  强化学习中的PPO算法存在静态熵系数无法适应探索-利用动态平衡,以及硬裁剪机制导致梯度不连续的问题。本文提出动态PPO(DPPO),通过基于代理性能的熵系数自适应调节机制(SLEA与BWEA结合)和泰勒展开平滑裁剪函数,解决上述缺陷。实验表明DPPO在PyBullet环境中六个连续控制任务上显著优于PPO及ESPO、TrulyPPO等基准,具有更快收敛和更高稳定性,尤其在高维复杂任务中表现突出。

  
沙世宇|刘艳红|霍本彦
郑州大学电气与信息工程学院,中国郑州450001

摘要

近端策略优化(PPO)在强化学习中得到了广泛应用,但存在两个根本性限制:其静态熵系数无法适应不断变化的探索-利用需求,以及其硬裁剪机制会引入梯度不连续性,可能导致策略更新不稳定。本文提出了动态近端策略优化(DPPO),通过自适应熵调节和平滑策略比率裁剪系统地解决了这些问题。DPPO引入了两项关键创新:(1)动态熵系数调整机制,根据训练性能调节探索行为,采用两种策略实现——基于替代损失的熵调整(SLEA)用于保证epoch级别的稳定性,以及批量熵调整(BWEA)用于实现细粒度响应;(2)平滑裁剪函数,结合泰勒展开和分段指数衰减,确保连续性并消除梯度不连续性。在PyBullet环境中的六个连续控制任务上的广泛实验表明,DPPO在样本效率、收敛速度和稳定性方面均优于PPO和三种最先进的基线算法(PPO-TruePPO、ESPO)。SLEA在高维任务中表现出色,需要强大的探索策略;而BWEA在低复杂度环境中收敛更快。消融研究证实了这两种机制的各自贡献,凸显了DPPO在多种强化学习应用中的潜力。

引言

强化学习(RL)作为一种强大的范式,能够通过与环境互动学习最优决策策略。与提供标记数据的监督学习不同,RL侧重于通过试错进行学习,这使其特别适用于动态和复杂的决策问题[20]、[25]。深度强化学习(DRL)结合了强化学习和深度神经网络[17]、[21]、[22],进一步扩展了RL在高维和复杂领域中的应用。DRL在机器人控制、自动驾驶、游戏和海洋自主系统等领域取得了显著成功[6]、[20]、[30]、[31]、[33]。
最近在DRL算法方面的进展集中在提高稳定性、效率和可扩展性上[32]。例如,近端策略优化(PPO)[23]通过裁剪机制改进了早期的策略梯度方法,防止策略发生剧烈变化,从而在鲁棒性和简洁性之间取得平衡。深度确定性策略梯度(DDPG)[15]将DRL的应用范围扩展到了连续控制任务,而软演员-评论家(SAC)[10]、[29]引入了熵正则化以增强探索行为。异步优势演员-评论家(A3C)[19]通过允许跨环境并行更新进一步提高了训练效率。更近期的方法,如基于模型的策略优化(MBPO)[13],通过将基于模型的元素整合到DRL中,旨在提高样本效率,推动了资源受限场景下的性能极限。
强化学习中的熵正则化,特别是在PPO中,旨在通过向目标函数添加熵项来维持探索行为。这一项防止策略过早变得过于确定,使代理能够探索更广泛的行为范围并避免过早收敛到次优行为[23]。然而,静态熵系数往往导致过度探索或过早利用,从而破坏了最优策略的收敛[16]。已经探索了自适应熵正则化来解决这个问题[5]、[12]、[28],但现有方法难以在不同任务中稳健地平衡探索-利用之间的权衡。
PPO的裁剪机制是另一个核心特性,它限制了策略更新的范围,以稳定训练并防止“破坏性”更新,这些更新可能会因策略变化过于剧烈而降低性能。尽管这种裁剪提高了稳定性,但硬裁剪的刚性可能会过度限制策略更新,尤其是在复杂或高维任务中限制了代理的学习潜力。关于自适应裁剪的研究,如衰减裁剪阈值,旨在解决这个问题[8]、[11]、[26],但这些方法增加了超参数和复杂性,使得在大规模应用中难以有效调整。
尽管自适应熵和裁剪策略带来了改进,但两个根本性限制仍未得到充分解决。首先,现有的熵正则化方法要么依赖于无法适应代理能力变化的静态系数,要么需要增加计算开销的复杂辅助网络。其次,自适应裁剪方法通常在裁剪边界处引入梯度不连续性,从而在高维任务中破坏策略优化的稳定性。本研究旨在通过提出两项关键创新来解决这些问题:动态熵调整机制和先进的裁剪方法。动态熵调整根据训练进度调整熵系数,提供随代理信心水平演变的平衡探索-利用策略。此外,我们引入了一种平滑的分段裁剪机制,取代了硬裁剪。利用二阶泰勒展开,这种方法允许逐步进行策略更新,最小化突变并支持连续、可微的调整。这些改进共同提高了PPO的适应性和稳定性,使其在复杂和动态环境中更加有效。
在本文中,我们提出DPPO来解决PPO的局限性,通过引入基于泰勒展开和分段平滑函数的动态熵系数和裁剪策略来增强策略收敛性和稳定性。本文的主要贡献如下:
  • 1.
    我们提出了一种动态熵系数调整机制,根据策略的过去表现自适应调节熵系数,结合了累积奖励和动作方差等指标。这种基于反馈的方法在整个训练过程中保持探索和利用之间的最佳平衡。
  • 2.
    引入了两种熵调整策略:第一种在每次策略更新时调整熵系数,第二种在小批量内更频繁地进行调整,从而在训练过程中实现对探索的更精细和更敏捷的控制。
  • 3.
    DPPO算法通过用二阶泰勒展开和分段平滑裁剪函数的组合替换了原有的硬裁剪机制,确保了连续和可微的策略更新。这一修改提高了策略更新的稳定性和精度,在复杂环境中表现出更好的性能。
  • 4.
    使用Bullet物理引擎在连续控制任务上的广泛实验验证了所提出的修改。结果表明,与标准PPO相比,改进后的PPO算法在收敛速度和策略稳定性方面有显著提升,特别是在具有复杂动态的高维动作空间中。这些性能改进在各种任务中都是一致的,证明了动态熵调整和平滑裁剪策略的有效性。
  • 部分摘录

    熵正则化

    熵正则化是RL中的一个基本技术,在维持探索和利用之间的平衡中起着关键作用。它通过在训练过程中鼓励随机行为来防止策略过早变得确定。这种方法最初由Schulman等人在深度强化学习的背景下推广[23]。在此基础上,Haarnoja等人[10]通过将其纳入强化学习中显著推进了熵的使用

    方法论

    本节详细介绍了所提出的动态熵调整机制和改进的裁剪策略的设计和实现。首先,我们介绍了动态熵系数的具体调整策略和实现细节。接下来,我们介绍了修改后的裁剪机制并进行了分析。最后,我们将这些方法整合到了PPO框架中。

    实验

    在本节中,我们首先将DPPO算法与标准PPO和三种最近的基线算法进行比较:、早期停止策略优化(ESPO)和TruePPO [4]、[24]、[27],在基于PyBullet仿真环境的六个连续控制任务上进行测试[7]。然后,我们评估了不同任务中策略熵损失的变化,以分析DPPO如何平衡探索和利用。此外,我们进行了消融研究,以评估在移除某些组件时算法的性能

    结论

    在本文中,我们介绍了动态近端策略优化(DPPO),这是对广泛使用的近端策略优化(PPO)算法的一种新颖改进。我们的方法解决了PPO的两个关键限制:静态熵系数在平衡探索和利用方面的低效率,以及硬裁剪机制引入的不连续性。DPPO通过结合动态熵调整策略和基于分段平滑函数的裁剪机制改进了这些问题

    CRediT作者贡献声明

    沙世宇:撰写——原始草稿、方法论、调查、概念化。刘艳红:撰写——审阅与编辑、监督、资源管理、形式分析、概念化。霍本彦:撰写——审阅与编辑、可视化、验证、方法论。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

    致谢

    本研究得到了河南省中原科技创新领军人才计划(254200510010)、国家重点研发项目(2022YFB4703203)和国家自然科学基金(62103376)的支持。
    沙世宇于2017年在中国河南城建大学获得了建筑电气与智能专业的学士学位。他目前是郑州大学的硕士研究生,研究兴趣包括强化学习和无人自行车。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号