基于异构图近端策略优化(HG-PPO)与动态虚拟结构的多无人艇编队生成方法

《Ocean Engineering》:USVs formation generation method using HG-PPO with dynamic virtual structures

【字体: 时间:2026年01月06日 来源:Ocean Engineering 5.5

编辑推荐:

  本文提出了一种融合异构图神经网络与强化学习的创新方法——异构图近端策略优化(HG-PPO),用于解决多无人艇(USV)编队生成成功率低、效率不高的难题。该方法通过异构图表征USV、目标与障碍物间的复杂交互,并引入约束PPO损失函数确保动作平滑过渡。仿真结果表明,HG-PPO可实现92.1%的成功率,在平均步长、步数及终态误差方面均优于对比算法(MAPPO),为复杂海洋环境下的多智能体协同控制提供了新思路。

  
Highlight
USV运动学模型与编队构成
为简化USV控制,如图1所示,我们假设USV在水平面运动并忽略俯仰和横滚。USV的运动可描述为:
σ?i= R(ψi)vi
v?i= R(ωi)ai
R(θ) = [cosθ -sinθ 0; sinθ cosθ 0; 0 0 1]
其中 i ∈ N,σi= [xi, yi, ψi]T∈ R3为USV在地球坐标系中的位置向量(xi, yi)和偏航角ψi,vi= [vxi, vyi, ωi]T∈ R3为局部坐标系中的线速度(vxi, vyi)和偏航角速度ω,ai= [axi, ayi, ω?]T∈ R3为线加速度(axi, ayi)。
仿真结果与分析
本节我们搭建了仿真环境并训练了提出的HG-PPO算法。基于仿真结果,我们讨论了采用动态虚拟结构的HG-PPO在USV编队生成中的有效性、性能、泛化性和鲁棒性。
成功率指USV成功完成编队的次数与总测试次数的比值。USV编队成功指安全抵达目的地且无碰撞。路径...
结论
为提高成功率和效率,我们提出了用于USV编队生成的HG-PPO。所提出的HG-PPO由行动者网络和评论者网络组成。行动者网络包含异构图层、循环神经网络层。此外,我们采用残差结构使模型收敛更好。评论者网络结构类似但输入不同。我们采用集中学习-分散执行框架来...
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号