多障碍海域无人艇协同围捕:基于POSG-MASAC的深度强化学习新框架实现85%捕获成功率

《IEEE Access》:Deep Reinforcement Learning-Based Pursuit–Evasion Strategy for USVs in Complex Multi-Obstacle Environments

【字体: 时间:2026年01月26日 来源:IEEE Access 3.6

编辑推荐:

  为破解USV在局部感知与动态障碍下难以协同围捕的难题,研究者提出POSG-MASAC框架,以混合观测、分层奖励与FEB/OAB编码实现3000回合稳定收敛,于100张未知地图取得85%捕获率,为海上无人集群智能决策提供可扩展新范式。

  
研究背景
蔚蓝海面看似平静,却是无人艇(USV)最严苛的考场:礁石、浮标、船只与涌浪交织成瞬息万变的“迷宫”,而每艘USV只能凭120°扇形声呐与稀疏通信窥见局部。传统A*、人工势场等方法在动态障碍前频频“触礁”,多目标协同优化更是难上加难;现有深度强化学习(DRL)多假设“全图可见”,一旦传感器被遮挡,策略立刻“抓瞎”。如何让USV集群在“盲人摸象”般的感知下,仍能默契合围、瞬间锁死逃逸目标?这正是Jian Liu、Xing Shen、Hongwei Gao团队想要破解的“海上围捕”困局。
为此,作者将问题抽象为“多追-一逃”零和微分博弈,首次在部分可观测随机博弈(POSG)框架下提出增强型多智能体软演员-评论家(MASAC)算法,并把训练-执行解耦为“中央集权学、各自为政跑”的CTDE模式,让USV仅凭局部信息即可实现全局合围。实验显示,3000训练回合后策略收敛,100张从未见过的复杂障碍地图中捕获成功率达85%,为USV集群走向真实海域铺就一条可扩展、可迁移的“智能航道”。
关键技术方法
研究以POSG建模,采用CTDE训练;设计混合观测(固定围捕特征+变长邻居关系+11波束障碍距离),通过Feature Embedding Block(FEB)与Obstacle Awareness Block(OAB)压缩为固定96维向量;引入分层奖励(目标+碰撞+距离+角度)与优先经验回放(PER);策略网络集成带区间时序采样(ITS)的掩码自注意力(MSA)以缓解部分可观测;追-逃双方共享动作空间{u, r},采用双端特征融合价值网络对抗训练。
研究结果
训练动态与收敛性
Fig.11显示约3000回合后双方总回报趋于稳定;早期距离奖励主导快速接近,后期角度奖励逐步收紧围捕圈,碰撞惩罚确保安全。
轨迹演化分析
Fig.12(2500回合)呈现USV已学会利用障碍“甩尾”,但尚未完成合围;Fig.13(5000回合)显示三艘追捕艇在障碍夹缝中同步收紧,最终满足“距离≤R且相邻夹角≤π”的捕获条件,验证“接近→同步→调角→安全”机制。
与基线对比
在相同地图与奖励下,与MADDPG、MAPPO、MATD3相比,MASAC捕获成功率最高、碰撞率最低、平均步数最短,显示熵正则化与离策略重放在障碍密集场景的优势。
跨场景泛化测试
100张训练未见的随机障碍地图直测,85%捕获率;失败案例多因障碍拓扑强制追捕方路径分裂,导致剩余距离离散度骤增,角度奖励难以及时修复,但总体验证策略捕捉的是可迁移“协同-避障”模式而非死记硬背地图。
研究结论与讨论
论文首次将POSG与MASAC引入USV围捕-逃逸任务,通过FEB/OAB解决变维度输入与障碍感知难题,以分层奖励诱导 Emergent 合围,兼顾安全与效率。实验证实框架在未知复杂海域具备强泛化与低碰撞风险,为海上无人集群的实际部署提供可直接扩展的算法底座。未来需纳入流-风-浪等水动力扰动,验证更大规模异构集群,并扩展至多逃与非零和场景,以进一步缩小仿真-实艇差距。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号