
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于约束强化学习的自主水下航行器安全路径规划方法
【字体: 大 中 小 】 时间:2026年03月11日 来源:IEEE Transactions on Vehicular Technology 7.1
编辑推荐:
自主水下航行器(AUV)路径规划需解决高成本与复杂环境下的安全问题。本文提出基于约束强化学习(CRL)的Leash Actor-Critic(LAC)方法,通过紧急安全批评家(ESC)评估状态与动作安全性,结合拉格朗日乘数法优化策略安全,并采用样本回放缓冲区提升环境适应性。硬件在环仿真验证表明,该方法在未知非结构化水下环境中具有快速收敛、短路径、高效通行及强泛化能力。
近年来,由于自主性和智能性,自主车辆受到了工业界和学术界的广泛关注。AUV在自主车辆系统中扮演着不可替代的角色,执行诸如海数据采集和深海探索等特定任务[1]、[2]。由于海洋的不可预测性和AUV探测能力的限制,AUV的局部路径规划能力至关重要[3]。已经采用了诸如快速探索随机树(RRT)[4]、基于圆柱的RRT[5]、人工势场(APF)[6]、[7]和动态窗口方法(DWA)[8]等方法来解决AUV的局部路径规划问题。Zhang等人[9]将APF与基于样本的方法结合,以减少采样点数量并防止路径规划过程陷入局部最优解。然而,这些方法在具有复杂地形、动态场景和非结构化海洋流的水下环境中的适应性有限[10]、[11]。基于强化学习(RL)的方法具有良好的学习能力,可以在探索过程中持续优化路径规划,并在水下环境中展现出显著的适应性[12]、[13]。包括深度Q网络(DQN)[14]、[15]、近端策略优化(Proximal Policy Optimization)[16]、软Actor-Critic(SAC)[17]和深度确定性策略梯度(DDPG)[18]在内的强化学习方法已在动态和非结构化的水下环境中成功应用。Hadi等人[19]采用了双延迟DDPG(TD3)[20]在未知环境中实现AUV路径规划,该方法表现出对海洋流干扰的抵抗能力。Zhang等人[21]通过提出一种结合分层强化学习的混合经验重放策略,解决了AUV路径规划算法的收敛速度问题,从而提高了算法在复杂环境中的收敛速度和稳定性。Tang等人[22]通过处理AUV的障碍物信息并利用TD3算法,解决了水下环境中检测能力有限的问题,实现了在未知环境中的路径规划。Lidtke等人[23]利用计算流体动力学仿真模拟了简化AUV的机动特性,并整合了多种强化学习算法,在大型圆柱结构周围的湍流区域实现了路径规划。