多障碍海域无人艇协同围捕：基于POSG-MASAC的深度强化学习新框架实现85%捕获成功率

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Access》：Deep Reinforcement Learning-Based Pursuit–Evasion Strategy for USVs in Complex Multi-Obstacle Environments

【字体：大中小】 时间：2026年01月26日 来源：IEEE Access 3.6

编辑推荐：

　　为破解USV在局部感知与动态障碍下难以协同围捕的难题，研究者提出POSG-MASAC框架，以混合观测、分层奖励与FEB/OAB编码实现3000回合稳定收敛，于100张未知地图取得85%捕获率，为海上无人集群智能决策提供可扩展新范式。

研究背景
蔚蓝海面看似平静，却是无人艇（USV）最严苛的考场：礁石、浮标、船只与涌浪交织成瞬息万变的“迷宫”，而每艘USV只能凭120°扇形声呐与稀疏通信窥见局部。传统A*、人工势场等方法在动态障碍前频频“触礁”，多目标协同优化更是难上加难；现有深度强化学习（DRL）多假设“全图可见”，一旦传感器被遮挡，策略立刻“抓瞎”。如何让USV集群在“盲人摸象”般的感知下，仍能默契合围、瞬间锁死逃逸目标？这正是Jian Liu、Xing Shen、Hongwei Gao团队想要破解的“海上围捕”困局。

为此，作者将问题抽象为“多追-一逃”零和微分博弈，首次在部分可观测随机博弈（POSG）框架下提出增强型多智能体软演员-评论家（MASAC）算法，并把训练-执行解耦为“中央集权学、各自为政跑”的CTDE模式，让USV仅凭局部信息即可实现全局合围。实验显示，3000训练回合后策略收敛，100张从未见过的复杂障碍地图中捕获成功率达85%，为USV集群走向真实海域铺就一条可扩展、可迁移的“智能航道”。

关键技术方法
研究以POSG建模，采用CTDE训练；设计混合观测（固定围捕特征+变长邻居关系+11波束障碍距离），通过Feature Embedding Block（FEB）与Obstacle Awareness Block（OAB）压缩为固定96维向量；引入分层奖励（目标+碰撞+距离+角度）与优先经验回放（PER）；策略网络集成带区间时序采样（ITS）的掩码自注意力（MSA）以缓解部分可观测；追-逃双方共享动作空间{u, r}，采用双端特征融合价值网络对抗训练。

研究结果
训练动态与收敛性
Fig.11显示约3000回合后双方总回报趋于稳定；早期距离奖励主导快速接近，后期角度奖励逐步收紧围捕圈，碰撞惩罚确保安全。

轨迹演化分析
Fig.12（2500回合）呈现USV已学会利用障碍“甩尾”，但尚未完成合围；Fig.13（5000回合）显示三艘追捕艇在障碍夹缝中同步收紧，最终满足“距离≤R_{且相邻夹角≤π”的捕获条件，验证“接近→同步→调角→安全”机制。}

与基线对比
在相同地图与奖励下，与MADDPG、MAPPO、MATD3相比，MASAC捕获成功率最高、碰撞率最低、平均步数最短，显示熵正则化与离策略重放在障碍密集场景的优势。

跨场景泛化测试
100张训练未见的随机障碍地图直测，85%捕获率；失败案例多因障碍拓扑强制追捕方路径分裂，导致剩余距离离散度骤增，角度奖励难以及时修复，但总体验证策略捕捉的是可迁移“协同-避障”模式而非死记硬背地图。

研究结论与讨论
论文首次将POSG与MASAC引入USV围捕-逃逸任务，通过FEB/OAB解决变维度输入与障碍感知难题，以分层奖励诱导 Emergent 合围，兼顾安全与效率。实验证实框架在未知复杂海域具备强泛化与低碰撞风险，为海上无人集群的实际部署提供可直接扩展的算法底座。未来需纳入流-风-浪等水动力扰动，验证更大规模异构集群，并扩展至多逃与非零和场景，以进一步缩小仿真-实艇差距。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号