基于异构图近端策略优化（HG-PPO）与动态虚拟结构的多无人艇编队生成方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Ocean Engineering》：USVs formation generation method using HG-PPO with dynamic virtual structures

【字体：大中小】 时间：2026年01月06日 来源：Ocean Engineering 5.5

编辑推荐：

　　本文提出了一种融合异构图神经网络与强化学习的创新方法——异构图近端策略优化（HG-PPO），用于解决多无人艇（USV）编队生成成功率低、效率不高的难题。该方法通过异构图表征USV、目标与障碍物间的复杂交互，并引入约束PPO损失函数确保动作平滑过渡。仿真结果表明，HG-PPO可实现92.1%的成功率，在平均步长、步数及终态误差方面均优于对比算法（MAPPO），为复杂海洋环境下的多智能体协同控制提供了新思路。

Highlight

USV运动学模型与编队构成

为简化USV控制，如图1所示，我们假设USV在水平面运动并忽略俯仰和横滚。USV的运动可描述为：

σ?_i= R(ψ_i)v_i

v?_i= R(ω_i)a_i

R(θ) = [cosθ -sinθ 0; sinθ cosθ 0; 0 0 1]

其中 i ∈ N，σ_i= [x_i, y_i, ψ_i]^T∈ R³为USV在地球坐标系中的位置向量（x_i, y_i）和偏航角ψ_i，v_i= [v_{x_i}, v_{y_i}, ω_i]^T∈ R³为局部坐标系中的线速度（v_{x_i}, v_{y_i}）和偏航角速度ω，a_i= [a_{x_i}, a_{y_i}, ω?]^T∈ R³为线加速度（a_{x_i}, a_{y_i}）。

仿真结果与分析

本节我们搭建了仿真环境并训练了提出的HG-PPO算法。基于仿真结果，我们讨论了采用动态虚拟结构的HG-PPO在USV编队生成中的有效性、性能、泛化性和鲁棒性。

成功率指USV成功完成编队的次数与总测试次数的比值。USV编队成功指安全抵达目的地且无碰撞。路径...

结论

为提高成功率和效率，我们提出了用于USV编队生成的HG-PPO。所提出的HG-PPO由行动者网络和评论者网络组成。行动者网络包含异构图层、循环神经网络层。此外，我们采用残差结构使模型收敛更好。评论者网络结构类似但输入不同。我们采用集中学习-分散执行框架来...

热点排行

新闻专题

联系信箱：

粤ICP备09063491号