ADE-MIFS:动态海洋环境中多无人水下航行器的实时协同导航
《Ocean Engineering》:ADE-MIFS: Real-time cooperative navigation for multi-USVs in dynamic maritime environments
【字体:
大
中
小
】
时间:2026年02月13日
来源:Ocean Engineering 5.5
编辑推荐:
分布式无人艇协同导航中,提出自适应差分进化多源信息融合策略ADE-MIFS,通过统一融合RVO避碰区域、COLREGs法规约束、激光测距数据与目标对齐引导,结合动态优化的融合权重实现安全高效决策。实验表明在5-20艘无人艇场景下,较传统DE-MIFS任务成功率提升5.56%-24.14%,碰撞规避与导航效率优于DADWA、PPO-RVO等4种先进基线,平均决策延迟低于0.05秒。
沈宏胤|向正荣
南京理工大学自动化学院,中国江苏省南京市210094
摘要
在动态海洋环境中,多艘无人水面船(USVs)的分布式协同导航需要在严格遵守《国际海上避碰规则》(COLREGs)的同时,融合异构的感知和通信信息,并且要满足严格的实时性要求。现有方法通常依赖于固定的融合权重或需要大量训练的学习框架,这导致在感知或通信质量以及船队规模发生变化时,系统的鲁棒性降低。本文提出了一种基于自适应差分进化(ADE-MIFS)的多源信息融合策略,该策略将互惠速度障碍(RVO)、符合COLREGs的交互约束、激光测距向量(LRV)和目标对齐(GA)线索整合到一个统一的融合表示中,并自动优化相应的融合权重。开发了一种结合汤普森采样(Thompson-sampling)操作符选择策略的自适应差分进化优化器,以平衡探索和利用。该方法无需通过环境交互进行策略网络训练,即可提高全局搜索效率。大量包含5至20艘USVs的仿真实验表明,随着规模的增加,ADE-MIFS的任务成功率相比DE-MIFS提高了5.56%-24.14%,并且在碰撞避免和导航效率方面优于其他四种先进方法(如DADWA、PPO-RVO、PPO-ORCA和IFDSDA),同时保持平均决策延迟低于0.05秒,适用于实时部署。
引言
随着无人系统技术的快速发展,无人水面船(USVs)被越来越多地应用于海洋监测(Yuan等人,2023年)、环境调查(Sudha等人,2024年)和应急救援(Yang等人,2020年)等领域。由于USVs能够在动态、非结构化的海洋环境中运行,因此引起了研究人员的广泛关注(Yan等人,2025年)。然而,海洋环境的不确定性和变异性对自主操作提出了重大挑战,尤其是在多USV协同导航任务中(Liu等人,2016年)。
传统的路径规划算法,如A*算法(Li和Zhang,2021年;Sang等人,2023年;Song等人,2019年)、快速探索随机树(RRT)方法(Lavalle,1998年;Yu等人,2024年)、人工势场(APF)方法(Li等人,2021年;Sang等人,2021年;Song等人,2020年)、动态窗口方法(DWA)(Guan和Wang,2023年;Han等人,2022b年)以及速度障碍(VO)方法(Xue等人,2023年;Yang等人,2024年;Yin等人,2024年)在单艘USV或结构化环境中表现出色。然而,A*算法在静态地图上表现可靠,但在动态环境中缺乏适应性(Tong等人,2022年);RRT能够高效探索配置空间,但其路径平滑度对于欠驱动的USVs来说不足(Aslan等人,2023年);APF在杂乱环境中严重依赖参数微调(Li等人,2024年);DWA支持实时局部决策,但在密集的多USV场景中性能下降(Yao等人,2024a);基于VO的方法在碰撞预测方面表现良好,但在高密度条件下可能导致保守或低效的行为(Vesentini等人,2024年)。此外,大多数传统方法依赖于确定性建模和完整的环境信息,限制了它们在不确定海洋条件下的适用性。这些局限性促使人们寻找更灵活的优化方法来处理非凸和时变问题。
近年来,进化算法(EAs)被引入来解决路径规划和碰撞避免问题。代表性的研究包括:改进的遗传算法用于USVs的协同碰撞避免(Wang等人,2021年)、结合增强碰撞风险模型的基于DE的框架(Xiao等人,2024年),以及使用分层编码的水下车辆路径规划的DE变体(Fan和Qu,2024年)。此外,还提出了基于超启发式和信息融合的EAs,例如:基于DQN的超启发式进化算法用于自适应覆盖规划(Xu等人,2024年)、基于离线优化的分散式信息融合群决策算法(Wang等人,2024c),以及基于PPO的协作规划能量受限异构USVs的算法(Yin和Xiang,2025a)。尽管这些方法展示了强大的全局搜索能力,但它们通常假设地图是完整或静态的,并且大多数采用离线优化模式。因此,它们对实时环境变化的适应性仍然有限。
强化学习(RL)提供了一个通用的实时决策框架,使代理能够通过与动态环境的交互来学习障碍避免和导航策略。现有的基于RL的自主导航方法可以分为基于价值的RL和基于策略的RL。基于价值的RL方法(如Q-learning、DQN、DDQN)在多USV场景中由于价值高估、收敛不稳定和连续控制困难等问题而不够鲁棒(Sonny等人,2023年;Zheng等人,2023年;Zhou等人,2024年)。基于策略的RL方法(如PPO、TD3、SAC)可以提供更平滑、更稳定的控制,并已成功应用于USV安全和实时障碍避免(Wang等人,2024c;Wang等人,2024b;Xu等人,2022年;Zheng等人,2024年)。然而,这些方法需要大量的训练数据、精心设计的奖励机制,并且对奖励分布的变化敏感,可能导致在训练域之外出现不可预测的行为。
多智能体RL(MARL)方法进一步将RL扩展到协作场景,实现了多艘USVs之间的分散协调。代表性的工作包括PPO-RVO混合算法、多智能体障碍避免框架和基于TD3的协同决策方法(Chen等人,2025年;Han等人,2022a;Yin和Xiang,2025b;Yin和Xiang,2025c)。然而,MARL也引入了额外的挑战,如智能体之间的非稳定性、信用分配的不确定性以及大规模样本需求,这些因素使得在实际部署中的收敛和安全保证变得复杂。
在这些路径优化和决策方法中,进化算法通常需要在每次运行前对特定地图进行离线优化。它们的规划结果往往依赖于静态环境假设,难以在执行过程中实时响应环境变化。DRL方法在实际操作中也存在一些局限性:它们的决策机制可解释性较弱,难以保证在安全关键情况下遵循国际海上避碰规则(COLREGs);它们对奖励函数设计、超参数和初始条件敏感,经常导致在不同场景下的性能波动;并且在复杂环境中容易陷入局部收敛停滞,从而限制了在杂乱环境中的全局决策质量。因此,仅依赖奖励塑造的DRL方法往往难以提供现实世界多USV系统所需的一致性、鲁棒性和可解释性,同时遵守海事安全规定。
为了解决上述挑战,本文提出了一种多源信息融合策略(MIFS),该策略将COLREG约束(Cho等人,2022年)、互惠速度障碍(RVO)区域(Berg等人,2008年)、激光测距向量(LRV)感知信息和目标对齐(GA)线索整合到一个一致的决策结构中,从而实现面向安全和效率的实时决策,以支持分布式协同导航。MIFS同时融合多种形式的通信和视觉信息,使USVs能够在操作过程中有效执行实时障碍避免和协同碰撞避免。在此基础上,提出了一种基于自适应差分进化的迭代优化器(ADE-MIFS),通过汤普森采样动态调整信息融合权重,从而在探索和利用之间实现自适应平衡。ADE可以在任务执行前迭代优化融合权重,从而提高多USVs在复杂环境中的决策鲁棒性和整体协同性。本文的主要贡献总结如下:
- •
开发了一种明确的MIFS评分公式,将RVO可行速度区域、COLREGs合规性惩罚、基于LRV的接近风险和目标对齐引导统一为一个加权决策分数,用于分布式USV动作选择。
- •
引入了一种配备基于汤普森采样操作符选择的ADE优化器,在优化融合权重时自适应选择变异策略,与固定策略的DE相比,提高了搜索稳定性和效率。
- •
提出了一种无需训练的决策框架:该方法不训练策略网络,而是优化一小组可解释的融合权重w,并应用优化后的w在线生成动作。
- •
提供了复杂度/延迟分析和消融协议,大量包含5至20艘USVs的仿真实验表明,在保持平均决策时间低于0.05秒的同时,性能得到了量化提升。
本文的其余部分组织如下:第2节介绍相关背景知识,第3节详细介绍了ADE-MIFS的设计和实现,第4节展示了实验设计和结果分析,最后第5节提出了结论。
部分摘录
互惠速度障碍
RVO(Berg等人,2008年)是VO的扩展,它不仅帮助USVs选择安全速度,还考虑了多艘USVs之间的相互避让,使每艘USV能够主动避开其他USVs,从而在动态环境中实现协同导航。如图1所示,RVO通过将VO区域的顶点从vts移动到。USV需要选择一个位于此区域之外的速度以避免碰撞并实现协同
方法论
本节详细描述了USVs的路径规划和障碍避免策略。首先,基于差分驱动模型设计了一种速度转向控制方案,通过线性和角速度更新USV状态。然后,通过整合RVO区域、COLREG约束、LRV测量和目标信息,开发了MIFS以支持动态环境中的协同导航。最后,应用ADE算法来优化MIFS中的融合权重。
实验设置
实验在以下条件下进行:每艘USV的局部观测范围为20米,视场角为180°。LRV的尺寸为36,扩展碰撞半径为1米,最大速度为15米/秒,最大角速度为π/4弧度/秒。决策间隔为0.2秒,每个优化阶段的决策步骤限制为150步。实验在配备Intel i5-14600KF CPU和NVIDIA RTX 4060Ti GPU的工作站上进行。
仿真场景
结论
本文提出了ADE-MIFS算法,用于解决复杂环境中USVs的分布式路径规划和碰撞避免问题。有效融合了多种信息源,包括RVO区域、COLREGs规则、LRV数据和GA成本,以实现USV集群的高效和协调决策。MIFS框架基于局部观测实现,无需依赖全局地图信息,使每艘USV能够独立做出决策
CRediT作者贡献声明
沈宏胤:撰写——原始草稿、软件开发、方法论设计、实验研究。向正荣:撰写——审稿与编辑、验证、监督、概念构思。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
致谢
本工作部分得到了国家自然科学基金(项目编号:62373191)和江苏省研究生研究与实践创新计划(项目编号:KYCX25_0748)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号