《Neurocomputing》:UUV autonomous control for terrain tracking problem through distributional reinforcement learning
编辑推荐:
UUV地形跟踪问题通过分布强化学习算法DMAC解决,构建复杂海洋环境模型并定义目标跟踪与路径跟随任务,DMAC采用多智能体-多批评机机制抑制Q值过估计,提升高维状态处理能力,仿真验证其稳定性与跟踪精度优于传统算法。
阮荣顺|杨莉|刘寿福|王天舒|高忠科
天津大学电气自动化与信息工程学院,中国天津300072
摘要
无人水下航行器(UUV)作为重要的海洋设备,已被广泛应用于资源调查、海洋观测和国防等领域。本研究聚焦于地形跟踪问题,期望UUV能够保持与海底的固定距离以进行海洋地形观测。首先,建立了一个复杂的海洋环境模型,该模型包含水下地形、随机海流以及配备声纳的UUV。随后,我们提出了两种地形观测案例——目标跟踪和路径跟随任务,以评估UUV的跟踪性能。接下来,我们引入了一种分布式强化学习算法——分布式多智能体-评论家(DMAC),以增强UUV的自主跟踪控制能力。DMAC提出了一个用于动态地形识别的感知策略网络,并整合了多智能体机制和多评论家机制,解决了强化学习中的Q值估计过高的问题,从而进一步提高了性能。最后,仿真结果表明,DMAC能够在未知的复杂海洋环境中高效地进行地形跟踪决策,并展现出卓越的稳定性和性能。
引言
海洋占据了地球表面积的,其中大部分区域至今仍未被探索[29]。这些海洋环境富含生物资源、矿产资源以及广阔的空间资源[4]。近几十年来,许多水下航行器被开发出来用于海洋探索,而水下无人系统也变得越来越流行。无人水下航行器(UUV),通常包括自主水下航行器(AUV)和遥控水下航行器(ROV),已被广泛用于海洋观测任务和海洋环境保护[23]。由于传感器、信息技术、无人控制、人工智能及相关领域的进步,UUV能够在复杂的海洋环境中执行各种操作任务[37]。
近年来,随着计算能力和计算机视觉技术的快速发展,UUV在各种水下探索任务中的控制性能有了显著提升[5]。吴等人[34]专注于搜索与跟踪任务,并设计了一个基于改进的粒子群优化算法的协作路径规划框架。马德里亚诺等人[25]提出了多机器人系统轨迹规划的一般性方法,并对比了文献中现有的方法和算法来解决这一问题。此外,该调查还展示了这些方法在不同领域的适用性,以实现不同类型车辆的自主安全导航。然而,与无人飞行器(UAV)和无人水面航行器(USV)相比,UUV的运行环境具有高复杂性、高不确定性、高信号衰减率以及观测能力较弱的特点[2]。此外,很难获得UUV工作环境的先验知识,其水下定位精度也较低。上述因素要求UUV具备自我意识和决策能力,这限制了智能UUV自主避障技术的发展[3]。
陈等人[7]调查发现,近年来强化学习(RL)方法已在UUV平台上得到广泛应用,用于解决避障和路径规划问题。强化学习(RL)是一种机器学习方法,使智能代理通过与环境交互通过试错进行学习,旨在最大化奖励。瓦斯兰德等人[32]证明基于RL的控制器比传统控制器或经过高度训练的飞行员表现更好。RL在UAV平台上的成功应用激发了一系列针对UUV平台的研究,这些研究主要集中在路径规划、路径跟随、轨迹跟踪、运动控制等方面。
杨等人[36]利用RL解决了具有多个障碍物的3D复杂环境中的路径规划问题,并利用真实海流数据辅助策略学习。哈迪等人[16]提出了一种新的深度RL方法,专注于生成短距离、安全且节能的可行路径来指导AUV导航。路径跟随和跟踪问题可以被视为路径规划问题的一个实例,通常会受到海流的干扰。范等人[13]改进了TD3算法,使其学习速度更快、样本利用率更高,从而实现了UUV的路径跟随控制。通过潜在地提高RL的收敛速度,进一步提升了策略跟随的效率。
随着UUV在水下探索中扮演着越来越重要的角色,尤其是在水下地形观测方面,本研究重点关注通过强化学习解决地形跟踪问题,期望UUV能够保持固定的导航高度以获取更准确的海底和环境信息[9]。基于地形跟踪问题,我们提出了两项任务——目标跟踪和路径跟随,并将它们描述为马尔可夫决策过程(MDP)问题。尽管RL在UUV自主导航中取得了成功应用,但目前RL在UUV自主导航中的使用面临以下挑战[11]、[21]、[27]、[33]:
传感器信息有限。RL方法需要处理来自复杂环境的大量数据,但由于UUV的传感器通常是局部的且测量范围有限,因此其传感器信息非常有限[24]、[35]。
Q值估计过高。Q值估计过高的问题通常由最大化操作和网络近似引起,而时差学习的本质进一步加剧了估计偏差,从而降低了学习策略网络的最终性能[10]、[28]、[30]。
高维状态和强干扰。UUV需要大量关于周围环境的信息来执行带有避障的地形跟踪任务,这通常需要高维状态作为输入,使得RL的训练过程更加耗时。此外,未知的海流对UUV的运动控制有显著影响,进一步增加了训练时间[8]、[14]、[22]。
为了解决上述问题,本研究提出了UUV地形跟踪问题的一般性描述。此外,我们旨在提高UUV在复杂海洋环境中的导航能力。在本研究的配置中,UUV配备了侧扫声纳以获取周围的水下信息。这种声纳提供了高分辨率图像和合理的覆盖范围,以获取地形信息。此外,我们引入了一种新的强化学习算法——分布式多智能体-评论家(DMAC),以解决Q值估计过高和高维状态问题。在DMAC的设计中,我们借鉴了三个理念:1)评论家网络的分布式表示,2)多智能体网络机制,3)多评论家网络机制。与基线算法(如TD3、SAC、PPO和TQC)相比,DMAC在地形跟踪任务中提高了性能。本文的贡献如下:
•提出了一种新的分布式RL算法,通过多智能体-评论家机制控制Q值的估计过高问题。
•所提出的算法在策略更新过程中有效抑制了方差波动,同时不影响熵值,并在迭代过程中保持了更稳定的分布形状。
•所提出的算法在未知的复杂海洋环境中实现了目标跟踪和路径跟随任务,同时保持了与海底的固定距离,并且其跟踪精度高于基线RL算法。
本文的其余部分安排如下:第2节介绍坐标参考系统、UUV运动模型和强化学习。第3节介绍海洋环境模型,并将地形跟踪问题描述为马尔可夫决策过程。第4节详细介绍了所提出的DMAC算法及其实现。第5节展示并分析了仿真结果。最后是结论和未来工作。
部分摘录
UUV运动学和动力学模型
非线性方程描述了具有不同系数的水下航行器的动力学特性,这对UUV的性能和机动性有显著影响[6]、[20]。UUV的动力学模型必须考虑一个机体参考框架和一个惯性参考框架,如图1所示。机体参考框架和惯性参考框架是两个坐标系统,机体参考框架固定在车辆上并随惯性参考框架旋转。
六个独立坐标
问题描述
在本部分,我们将详细描述地形跟踪问题,并以执行水下地形调查任务的UUV为例进行说明。我们的目标是使UUV能够以固定的导航高度准确安全地完成任务,为此我们提出了两项任务——目标跟踪和路径跟随作为研究示例。
目标跟踪:目标是使UUV从起始位置安全快速地导航到目标位置
方法论
在本节中,我们描述了用于UUV地形跟踪任务的分布式多智能体-评论家(DMAC)算法。DMAC算法专注于控制Q值的估计过高问题,并利用来自声纳的检测数据。
仿真、结果与分析
本节介绍了我们的仿真设置以及所提出方法在解决地形跟踪问题方面的评估指标。在展示DMAC的有效性和优越性之前,我们首先概述了仿真参数。该仿真包括训练和测试过程。此外,本节还通过比较所提出的DMAC、TD3和SAC以及TQC的性能来分析和展示仿真结果。
结论
本研究提出了一种新的强化学习算法——分布式多智能体-评论家(DMAC),用于UUV地形观测,并制定了目标跟踪和路径跟随任务来验证该算法。此外,本文将目标跟踪和路径跟随任务描述为马尔可夫决策过程(MDP)问题。从仿真结果来看,UUV能够在操作过程中保持固定的导航高度,导航轨迹能够反映
CRediT作者贡献声明
阮荣顺:撰写 – 审稿与编辑,撰写 – 原稿撰写,验证,方法论研究,调查。杨莉:撰写 – 审稿与编辑。刘寿福:撰写 – 审稿与编辑。王天舒:撰写 – 审稿与编辑。高忠科:撰写 – 审稿与编辑,资金筹集。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。
致谢
本工作得到了中国国家重点研发计划、国家自然科学基金(项目编号62373278)、天津市自然科学基金(项目编号21JCJQJC00130)以及齐鲁理工大学(山东科学院)科学教育产业融合试点项目(项目编号2023JBZ031)的支持。
阮荣顺分别于2019年和2022年在中国青岛的海洋大学获得电子信息科学与技术学士学位和电子与通信工程硕士学位,目前他在天津大学电气与信息工程学院攻读博士学位。他的当前研究兴趣包括强化学习、sim-2-real、元学习和多智能体强化学习。