基于约束强化学习的自主水下航行器安全路径规划方法

【字体: 时间:2026年03月11日 来源:IEEE Transactions on Vehicular Technology 7.1

编辑推荐:

  自主水下航行器(AUV)路径规划需解决高成本与复杂环境下的安全问题。本文提出基于约束强化学习(CRL)的Leash Actor-Critic(LAC)方法,通过紧急安全批评家(ESC)评估状态与动作安全性,结合拉格朗日乘数法优化策略安全,并采用样本回放缓冲区提升环境适应性。硬件在环仿真验证表明,该方法在未知非结构化水下环境中具有快速收敛、短路径、高效通行及强泛化能力。

  

摘要:

自主水下航行器(AUV)的高成本以及水下环境的复杂性和不可预测性使得安全性成为AUV路径规划中的首要考虑因素。本文提出了一种基于约束强化学习(CRL)的Leash Actor-Critic(LAC)方法,以提高AUV路径规划中的决策安全性。首先,根据当前状态从CRL框架中得出AUV的动作;随后,由Emergency Safe Critic(ESC)评估AUV状态和动作的安全性;最后,利用拉格朗日乘数法将ESC与Actor-Critic框架结合,以优化AUV策略的安全性。LAC方法通过应用ESC来限制危险动作,从而确保AUV决策过程的安全性。对拉格朗日乘数法和ESC的改进有助于减少AUV在高风险水下环境中的探索时间。此外,通过基于样本的重放缓冲区提高了AUV对环境的适应性。该方法在基于南海和渤海的海洋流数据及地形数据构建的硬件在环仿真系统中进行了测试,实验结果验证了其快速收敛速度、短路径长度、短行驶时间以及在未知和非结构化水下环境中的强泛化能力。

引言

近年来,由于自主性和智能性,自主车辆受到了工业界和学术界的广泛关注。AUV在自主车辆系统中扮演着不可替代的角色,执行诸如海数据采集和深海探索等特定任务[1]、[2]。由于海洋的不可预测性和AUV探测能力的限制,AUV的局部路径规划能力至关重要[3]。已经采用了诸如快速探索随机树(RRT)[4]、基于圆柱的RRT[5]、人工势场(APF)[6]、[7]和动态窗口方法(DWA)[8]等方法来解决AUV的局部路径规划问题。Zhang等人[9]将APF与基于样本的方法结合,以减少采样点数量并防止路径规划过程陷入局部最优解。然而,这些方法在具有复杂地形、动态场景和非结构化海洋流的水下环境中的适应性有限[10]、[11]。基于强化学习(RL)的方法具有良好的学习能力,可以在探索过程中持续优化路径规划,并在水下环境中展现出显著的适应性[12]、[13]。包括深度Q网络(DQN)[14]、[15]、近端策略优化(Proximal Policy Optimization)[16]、软Actor-Critic(SAC)[17]和深度确定性策略梯度(DDPG)[18]在内的强化学习方法已在动态和非结构化的水下环境中成功应用。Hadi等人[19]采用了双延迟DDPG(TD3)[20]在未知环境中实现AUV路径规划,该方法表现出对海洋流干扰的抵抗能力。Zhang等人[21]通过提出一种结合分层强化学习的混合经验重放策略,解决了AUV路径规划算法的收敛速度问题,从而提高了算法在复杂环境中的收敛速度和稳定性。Tang等人[22]通过处理AUV的障碍物信息并利用TD3算法,解决了水下环境中检测能力有限的问题,实现了在未知环境中的路径规划。Lidtke等人[23]利用计算流体动力学仿真模拟了简化AUV的机动特性,并整合了多种强化学习算法,在大型圆柱结构周围的湍流区域实现了路径规划。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号