基于分层多智能体强化学习的平流层飞艇长期合作路径规划

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：Long-term cooperative path planning for stratospheric airships based on hierarchical multi-agent reinforcement learning

【字体：大中小】 时间：2026年02月12日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　提出分层合作高空飞艇路径规划方法HiCAPP，通过双层控制架构解决长期协作中的动态环境适应、能量限制和通信效率问题，实验证明其优于传统方法，在多智能体场景下表现鲁棒且可扩展。

作者：吕超、朱明、郭晓、欧家军、郑宝金、孙丽兰

北京航空航天大学航空科学与工程学院，中国北京100191

摘要

平流层飞艇越来越多地被用于长期协作任务，这需要为多架飞艇进行高效的路径规划。传统方法在处理此类任务的协作优化和状态空间爆炸问题时面临困难。为了解决这些问题，本文提出了一种分层协作飞艇路径规划（HiCAPP）方法。HiCAPP采用双层控制架构，高层控制器负责任务分配，低层控制器专注于路径规划。实验结果表明，HiCAPP在两个关键指标（平均剩余能量和到任务中心的平均距离）上优于传统的多智能体强化学习方法。此外，通过在不同智能体数量、任务持续时间和干扰条件下的实验，HiCAPP展现了其鲁棒性和可扩展性。这些结果证实了其在长期协作监测任务中的有效性，并突显了分层决策在多智能体系统中的优势。

引言

平流层飞艇技术的最新进展表明它们具备长期飞行能力（Zuo等人，2022年；Pozhanka等人，2024年；Xu等人，2020年）。Sceye飞艇已经完成了数天的持续飞行，并成功展示了其在通信和数据传输方面的应用潜力（Skalski，2021年）。与卫星星座相比，平流层飞艇可以连续监测关键区域更长时间。它们的能源利用效率也高于传统飞机（如无人机群），使其能够维持长时间的悬停飞行。这些特性在长期环境监测、连续通信覆盖和实时灾害响应等方面具有显著优势（Chen等人，2021年；Zheng和Xing，2022年；Kumar，2023年）。为了克服单架飞艇的承载能力限制，需要多飞艇监测系统。通过跨飞艇分配负载，可以实现关键区域的连续、多维和三维监测。路径规划作为工程应用中的关键组成部分，直接影响任务执行的可靠性和准确性。因此，研究平流层飞艇的路径规划至关重要。

在无人机系统、机器人技术和自动驾驶车辆等领域，多智能体路径规划已成功应用于实际场景，包括仓库物流（Zhou等人，2024年；Li，2022年；Wu等人，2026年）、智能农业（Dong等人，2026年）和基于编队的覆盖（Xia等人，2023年）。然而，目前关于平流层飞艇路径规划的研究主要集中在单架飞艇的任务上。多架平流层飞艇的协作路径规划研究仍处于早期阶段。由于平流层飞艇的独特飞行条件和平台特性，其协作路径规划面临三个主要挑战：首先是环境的复杂性。不断变化的风场和多架飞艇的干扰导致状态数据呈指数级增长，显著增加了计算复杂性（Hu等人，2025a）；其次是能源的脆弱性。飞艇完全依赖太阳能，因此需要在能源获取和消耗之间保持动态平衡（Song等人，2024a；Kangwen等人，2025）；第三是长期协作的可扩展性。长期任务需要安全高效的分布式决策（Zhang等人，2022）。

当前的多智能体路径规划研究主要采用集中式方法，包括A*算法、基于冲突的搜索方法和成本递增树搜索技术。Zhang等人（2023年）使用人工势场方法完成了多架飞艇的区域覆盖任务，但该方法未考虑时变风场。Gong等人（2024年）进一步提出了一种适应性协作覆盖控制算法，实现了多架平流层飞艇的通信覆盖。该方法通过将风场建模为静态势场来简化环境动态。尽管这些方法可以解决基本的协作路径规划问题，但在处理长期协作任务时存在显著局限性。静态环境假设与平流层实际时变风场存在本质差异，无法适应长期任务中的动态环境变化。这些局限性严重限制了传统方法在长期协作路径规划中的应用。

在控制理论和系统工程领域，现有研究提出了更灵活的方法来处理系统动态、通信限制和环境不确定性等问题。例如，自适应事件触发控制结合饱和阈值已应用于非线性马尔可夫跳跃系统（Zheng等人，2024a）。可调参数也被用于确保互连偏微分方程系统在给定范围内的收敛（Song等人，2024b）。这些方法在处理资源有限和适应变化条件方面的思想为平流层飞艇在变化风场中的长期协作路径规划提供了宝贵见解。因此，需要一种平衡环境适应性、通信效率和能源限制的路径规划方法。

近年来，基于强化学习（RL）的平流层飞艇路径规划研究取得了显著进展。对于单架飞艇，Zheng等人（2024b）提出了一种基于DQN的短期飞艇路径规划方法，解决了高维数据融合问题。然而，该方法在长期决策任务中的效果较差。Qi等人（2025）应用了Soft Actor–Critic（SAC）算法实现了平流层飞艇的连续控制，但在决策过程中未考虑风场效应。这两种方法都仅关注单架飞艇的路径规划。然而，关于多架平流层飞艇协作规划的研究相对较少。目前，多智能体强化学习算法如QMIX、MADDPG、MATD3和MASAC在协作决策领域展示了出色潜力（Rashid等人，2020年；Wu等人，2024年；Baltes等人，2025年；Yu等人，2025年）。Yang等人（2024）通过集成注意力机制进一步改进了MASAC，在亚马逊Kiva仓库系统的物流机器人路径规划任务中表现出优越性能。尽管这些方法在处理高维数据方面表现良好，但在解决长期协作决策任务时存在不足，如奖励稀疏和长期任务信用分配问题。

多架飞艇的长期协作路径规划是一个具有挑战性和复杂性的决策问题。通用多智能体强化学习方法在处理奖励稀疏、动态环境复杂和高维状态空间等问题时面临挑战。这些挑战降低了智能体的学习效率，常常导致策略陷入次优解（Wu等人，2023年）。分层强化学习通过任务分解机制，将复杂的长期规划问题转化为多个层次的子任务优化，降低了状态空间的复杂性并提高了学习效率。Hu等人（2025b）将多机器人路径规划问题分解为不同的子任务，高层控制器负责任务分解，低层控制器执行任务，通过不同决策的协调完成最终任务。这种分层设计不仅提高了算法的可扩展性，还增强了系统在复杂动态环境中的鲁棒性。现有的分层强化学习方法无法直接应用于多架飞艇的长期协作路径规划。这一限制源于该任务的特定挑战，包括管理多个动态约束（如风场波动和能源限制），同时确保飞艇在长时间操作中的高效安全协作。

为了解决这些挑战，本文提出了一种分层协作飞艇路径规划（HiCAPP），这是一种用于多架飞艇长期协作监测关键区域的分层多智能体强化学习算法。HiCAPP算法采用双层控制架构，高层控制层将长期监测任务分解为协作导航子任务，低层控制层专注于实现单个飞艇的路径规划。这种分层设计确保了智能体间的协调和个体控制的准确性，解决了多架飞艇的长期协作监测任务。采用分阶段训练策略以提高训练稳定性，先训练低层控制器，再训练高层控制器，有效避免了同时训练引起的不稳定性。此外，我们引入了执行奖励机制，以动态平衡低层和高层控制器之间的性能。通过模拟和真实风场测试的广泛验证表明，所提出的方法在多种约束条件下显著提升了多飞艇系统的协作监测性能，包括时变风场干扰、能源限制和飞行稳定性要求。本文的主要贡献如下：

1. 本文提出了一种针对平流层飞艇的分层协作路径规划方法（HiCAPP）。考虑到这些飞艇的低动态性和长持续时间，该方法能够在复杂风场环境中实现高效的协作路径规划。
2. 本文设计了一种奖励机制，以提高多飞艇协作监测中的决策一致性和任务执行效率。通过协调高层和低层控制器，该机制增强了系统间的协作。
3. 本文为平流层飞艇的协作开发了一个约束模型。该模型包含了动态性能、能源周期和空域限制等关键约束，为多智能体路径规划提供了可扩展的框架。

本文的结构如下：第2节阐述了问题描述和转换。第3节介绍了创新的HiCAPP算法，系统地详细介绍了其架构设计、状态空间、奖励函数和算法工作流程。第4节通过仿真实验和比较分析验证了所提方法的优越性能。第5节总结了研究结果并概述了未来的研究方向。

部分摘录

问题描述

平流层垂直方向的风速非常低，通常小于0.5米/秒（Basu，2023年）。因此，可以忽略飞艇的垂直位置变化。因此，本研究主要关注多架飞艇在二维水平平面内的长期协作监测路径规划问题。

本研究提出了一个由多架平流层飞艇组成的监测系统，这些飞艇配备了各种载荷，包括红外设备

方法

本节全面概述了所提出的分层强化学习框架和实现过程，包括训练和测试阶段的详细方法。该算法采用分阶段训练策略，首先对低层控制器进行预训练，然后基于稳定的低层策略优化高层控制器的学习（Levy等人，2017年）。创新的执行奖励机制

实验设置

本研究系统评估了HiCAPP算法在多架飞艇长期协作监测任务中的性能。通过实验，该算法在各种场景和初始条件下始终实现了多飞艇系统的长期协作监测任务。

本研究采用模拟和实验相结合的方法进行风场验证。模拟环境结合了基础风场和动态变化

讨论与结论

本文提出了一种基于分层多智能体强化学习的平流层飞艇长期协作监测路径规划方法（HiCAPP）。该方法创新性地采用了高层控制器进行任务分解、低层控制器执行的分层架构，实现了复杂环境中的多飞艇长期协作路径规划。通过多场景下的对比实验验证

CRediT作者贡献声明

吕超：撰写 – 审稿与编辑、撰写 – 原稿撰写、可视化、验证、软件开发、调查、形式分析、数据整理。朱明：撰写 – 审稿与编辑、资源获取、项目管理、方法论研究、调查、资金筹集。郭晓：撰写 – 审稿与编辑、验证、监督、项目管理、方法论研究、调查、资金筹集。欧家军：撰写 – 审稿与编辑、可视化、软件开发、资源管理、项目协调

利益冲突声明

作者声明他们没有已知的可能会影响本文工作的财务利益或个人关系。

致谢

本研究得到了国家重点研发计划（2018YFC1506401、2023YFD1701804）和中央高校基本科研业务费（YWF-24-JC-09、501JCGG2024129003、501JCGG2024129006）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言