适用于北极东北航道的多智能体障碍物规避路径规划

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Ocean Engineering》：Multi-Agent obstacle avoidance path planning for the arctic northeast passage

【字体：大中小】 时间：2026年02月20日 来源：Ocean Engineering 5.5

编辑推荐：

　　北极海域多船动态避碰研究提出贝叶斯-PPO融合算法，通过预测冰 floe 运动和构建风险概率模型优化路径规划，实验显示避碰成功率较传统PPO、TD3分别提升12%和9%，并生成更平滑稳定的轨迹。

群谷|张凯辉|吴亚丹|张瑞|王流豪

兰州工业大学计算机与人工智能学院，中国兰州730050

摘要

北极独特的气候和动态的海冰环境对船舶导航构成了重大挑战。为了在存在动态障碍物的多船路径规划中提高轨迹的平滑度和碰撞避免响应能力，本研究提出了一种结合贝叶斯风险推理与基于连续动作控制的PPO算法。该方法通过前瞻性风险预测和多种辅助奖励来增强对动态冰块和静态障碍物的实时避让能力，同时加快策略收敛速度。仿真结果显示，所提出的算法在碰撞避免成功率方面比PPO高出约12%，比TD3高出约9%，并且生成的轨迹更加平滑，奖励收敛更加稳定。这些结果证明了贝叶斯-PPO方法在合作多船碰撞避免中的有效性和鲁棒性，为复杂海洋环境中的智能导航提供了实用的解决方案，并支持未来使用真实导航数据和动态环境因素的应用。

引言

北极地区作为地球上最独特和敏感的地理单元之一，具有重要的生态、气候和战略意义（Obydenkova, 2024）。它不仅是全球气候系统的“冷源”和“预警区”，还通过海冰的变化对全球气候调节、海平面上升和大气环流产生深远影响（Malik et al., 2025）。同时，北极拥有丰富的资源，如石油、天然气、稀有金属和渔业。根据美国地质调查局的估计，全球约13%的未发现石油和30%的天然气储量位于北极地区（Morgunova, 2015）。随着全球变暖趋势的持续和海冰加速融化，北极航道的通航期显著延长（Mahmoud et al., 2024, Zhao et al., 2024）。特别是东北航道（NEP）和西北航道（NWP）逐渐成为连接欧亚大陆的“蓝色经济走廊”（Huang et al., 2021），与传统通过苏伊士运河或巴拿马运河的航线相比，航行距离减少了约40%（Chen et al., 2023, Valianto, 2017）。这一趋势为全球航运带来了巨大的经济潜力，然而高纬度北极水域仍然极其复杂和不确定，漂浮的冰块（Cook et al., 2024）、强风和巨浪（Henke et al., 2024）、低能见度（Song and Chen, 2024）以及多变的海洋动力学（Lin et al., 2024）共同增加了航行风险。在这种背景下，安全高效的航线规划成为确保船舶安全和能源效率的关键技术手段（Wu et al., 2025），同时对促进可持续的北极发展和国际合作也具有战略意义（Li and Lynch, 2023）。

尽管已经开发了多层次的技术框架用于北极航线规划，包括传统的图搜索算法、元启发式优化方法和强化学习，但在复杂且海冰密集的环境中仍存在显著限制。传统的图搜索算法，如Dijkstra（Rachmawati and Gustin, 2020, Wang et al., 2021）和A*（Choi et al., 2015），通常基于静态或准静态的环境假设构建成本图。它们的路径搜索过程依赖于预先定义的冰分布或历史统计数据，难以捕捉到如冰漂移和风-流耦合等高度时变的现象。当环境状态快速变化时，需要频繁重新规划，导致计算负担加重，且生成的路径往往呈现分段线性模式，这在连续动态约束下不利于安全导航。元启发式算法，包括遗传算法（Lee et al., 2021）、蚁群优化（Wang et al., 2020）和粒子群优化（Yan et al., 2024），利用基于种群的搜索机制在多目标问题中实现强大的全局优化能力。然而，它们的决策过程本质上依赖于大量的迭代评估，计算复杂性随着环境维度和约束数量的增加而显著增加。在动态冰条件下，频繁的环境变化会干扰算法的收敛，限制了对突发冰事件或多船交互的及时响应。此外，这些方法对参数设置非常敏感，通常需要在不同场景下重新调整，这限制了它们的实时适用性和泛化性能（Abdalsalam and Sz?apczyńska, 2025）。近年来，强化学习方法（Wu et al., 2022），如DQN（Wu et al., 2022）和PPO（Yu et al., 2022），通过与环境互动自主学习决策策略，在处理动态障碍和非线性约束方面展现了强大的潜力。现有研究表明，DQN、PPO及其类似算法可以在单船或低复杂度场景中实现协调的障碍物避让和路径优化。然而，在多船导航或突发冰事件中，强化学习策略往往面临指数级增长的状态空间维度、增加的交互不确定性以及更复杂的奖励设计，导致训练收敛速度变慢、策略稳定性降低和泛化能力受限。此外，大多数现有方法依赖于完整和高保真的环境观测数据，其在部分可观测和高度不确定的北极条件下的鲁棒性不足。总体而言，当前方法受到静态建模假设的限制，动态适应能力有限，计算成本高，且严重依赖完整的环境信息，这使得在复杂且海冰密集的北极水域实现安全、高效和实时的多船导航变得具有挑战性。

针对东北航道中动态冰扰动的特定物理约束、有限的感知范围和高风险不确定性，本研究提出了一种基于贝叶斯推理和PPO的多智能体碰撞避免决策框架。标题中的“北极”不仅仅是一个地理标签，它是算法设计的核心驱动力：贝叶斯推理模块解决了北极漂浮冰固有的预测风险问题，而PPO策略则针对狭窄的冰覆盖通道中的多船协调进行了优化。为了科学地解耦变量并确保决策逻辑的可观测性，该方法在抽象的仿真环境中进行了验证。该环境包含了动态障碍物干扰和具有北极特征的 partially 可观测模型，模拟了极地海域的复杂和动态导航挑战，从而允许在受控环境中系统地评估算法从“经验驱动”向“风险意识驱动”的转变。这种基于场景的方法验证是高保真真实船舶应用的重要前提。

本研究的主要贡献总结如下：

(1) 提出了一种多智能体并行建模框架，以实现多个智能体之间的协作训练，提高了模型在复杂交互和高密度水道中的稳定性和适应性。

(2) 通过引入可移动的冰块开发了一个动态障碍物干扰模型，以模拟时变的风险源，从而提高了智能体的预测和避让能力。

(3) 提出了一种贝叶斯-PPO混合碰撞避免策略，该策略可以预测高风险状态并提供风险意识的策略指导。

本文的其余部分组织如下：第2节介绍了复杂环境中智能体的障碍物避免问题，以及智能体运动模型、冰块运动模型和碰撞风险建模。第3节介绍了基于贝叶斯风险推理和PPO的多智能体碰撞避免方法。第4节描述了仿真实验的设计并分析了实验结果。第5节讨论了所提出的贝叶斯-PPO方法的优点、局限性和潜在改进。最后，第6节总结了本文并概述了未来研究的方向。

节选内容

问题描述

本研究关注多艘船在复杂动态环境中的自主碰撞避免和路径规划问题。考虑到真实的北极海洋条件的高复杂性和不可控性，直接在海上进行系统化的算法验证具有挑战性。因此，本研究采用抽象的仿真方法来模拟冰覆盖水域中的典型导航特性，从而评估其有效性

贝叶斯风险推理模块

在多船碰撞避免场景中，智能体不仅需要考虑当前状态的安全性，还需要考虑未来状态的潜在碰撞风险。为此，我们设计了一个贝叶斯风险推理模块，该模块通过整合船舶自身的状态、其他船舶的相对位置、静态和动态障碍物的信息以及下一个状态的预测来估计碰撞风险

实验设计与结果分析

为了验证所提出的贝叶斯-PPO融合多船动态碰撞避免策略和综合奖励函数设计的有效性和鲁棒性，构建了一个基于Python的多船碰撞避免仿真环境，并在标准环境以及多种比较实验场景下进行了训练和分析实验。本章首先介绍了训练环境的构建和实验

讨论

在本文中，我们提出了一种用于北极冰覆盖水域中多船导航的贝叶斯-PPO混合碰撞避免框架。通过贝叶斯推理明确量化环境不确定性，并将预测的下一状态风险指标嵌入强化学习策略中，所提出的方法引入了一种具有前瞻性风险意识的决策机制。在以下小节中，我们讨论了所提出方法的性能优势

结论

本研究针对复杂北极水域中多船碰撞避免任务中传统强化学习方法的局限性进行了研究，其中路径规划准确性和策略稳定性往往不足，提出了一种结合贝叶斯风险推理的PPO算法。该方法结合了风险增量奖励机制和前瞻性预测器，能够在连续动作空间中动态评估和主动避免环境风险，从而实现路径

CRediT作者贡献声明

群谷：撰写 – 审稿与编辑，监督，概念化。张凯辉：撰写 – 审稿与编辑，原始草稿撰写，可视化，软件，方法论，调查，形式分析，概念化。吴亚丹：撰写 – 审稿与编辑，监督，项目管理，资金获取，概念化。张瑞：撰写 – 审稿与编辑。王流豪：撰写 – 审稿与编辑。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本研究得到了甘肃省科技计划（项目编号23ZDFA017, 22ZD6FA005）、国家自然科学基金（42276261）以及中国科学院冰冻圈科学与冻土工程国家重点实验室项目（项目编号CSFSE-ZQ-2411）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号