平流层飞艇技术的最新进展表明它们具备长期飞行能力(Zuo等人,2022年;Pozhanka等人,2024年;Xu等人,2020年)。Sceye飞艇已经完成了数天的持续飞行,并成功展示了其在通信和数据传输方面的应用潜力(Skalski,2021年)。与卫星星座相比,平流层飞艇可以连续监测关键区域更长时间。它们的能源利用效率也高于传统飞机(如无人机群),使其能够维持长时间的悬停飞行。这些特性在长期环境监测、连续通信覆盖和实时灾害响应等方面具有显著优势(Chen等人,2021年;Zheng和Xing,2022年;Kumar,2023年)。为了克服单架飞艇的承载能力限制,需要多飞艇监测系统。通过跨飞艇分配负载,可以实现关键区域的连续、多维和三维监测。路径规划作为工程应用中的关键组成部分,直接影响任务执行的可靠性和准确性。因此,研究平流层飞艇的路径规划至关重要。
在无人机系统、机器人技术和自动驾驶车辆等领域,多智能体路径规划已成功应用于实际场景,包括仓库物流(Zhou等人,2024年;Li,2022年;Wu等人,2026年)、智能农业(Dong等人,2026年)和基于编队的覆盖(Xia等人,2023年)。然而,目前关于平流层飞艇路径规划的研究主要集中在单架飞艇的任务上。多架平流层飞艇的协作路径规划研究仍处于早期阶段。由于平流层飞艇的独特飞行条件和平台特性,其协作路径规划面临三个主要挑战:首先是环境的复杂性。不断变化的风场和多架飞艇的干扰导致状态数据呈指数级增长,显著增加了计算复杂性(Hu等人,2025a);其次是能源的脆弱性。飞艇完全依赖太阳能,因此需要在能源获取和消耗之间保持动态平衡(Song等人,2024a;Kangwen等人,2025);第三是长期协作的可扩展性。长期任务需要安全高效的分布式决策(Zhang等人,2022)。
当前的多智能体路径规划研究主要采用集中式方法,包括A*算法、基于冲突的搜索方法和成本递增树搜索技术。Zhang等人(2023年)使用人工势场方法完成了多架飞艇的区域覆盖任务,但该方法未考虑时变风场。Gong等人(2024年)进一步提出了一种适应性协作覆盖控制算法,实现了多架平流层飞艇的通信覆盖。该方法通过将风场建模为静态势场来简化环境动态。尽管这些方法可以解决基本的协作路径规划问题,但在处理长期协作任务时存在显著局限性。静态环境假设与平流层实际时变风场存在本质差异,无法适应长期任务中的动态环境变化。这些局限性严重限制了传统方法在长期协作路径规划中的应用。
在控制理论和系统工程领域,现有研究提出了更灵活的方法来处理系统动态、通信限制和环境不确定性等问题。例如,自适应事件触发控制结合饱和阈值已应用于非线性马尔可夫跳跃系统(Zheng等人,2024a)。可调参数也被用于确保互连偏微分方程系统在给定范围内的收敛(Song等人,2024b)。这些方法在处理资源有限和适应变化条件方面的思想为平流层飞艇在变化风场中的长期协作路径规划提供了宝贵见解。因此,需要一种平衡环境适应性、通信效率和能源限制的路径规划方法。
近年来,基于强化学习(RL)的平流层飞艇路径规划研究取得了显著进展。对于单架飞艇,Zheng等人(2024b)提出了一种基于DQN的短期飞艇路径规划方法,解决了高维数据融合问题。然而,该方法在长期决策任务中的效果较差。Qi等人(2025)应用了Soft Actor–Critic(SAC)算法实现了平流层飞艇的连续控制,但在决策过程中未考虑风场效应。这两种方法都仅关注单架飞艇的路径规划。然而,关于多架平流层飞艇协作规划的研究相对较少。目前,多智能体强化学习算法如QMIX、MADDPG、MATD3和MASAC在协作决策领域展示了出色潜力(Rashid等人,2020年;Wu等人,2024年;Baltes等人,2025年;Yu等人,2025年)。Yang等人(2024)通过集成注意力机制进一步改进了MASAC,在亚马逊Kiva仓库系统的物流机器人路径规划任务中表现出优越性能。尽管这些方法在处理高维数据方面表现良好,但在解决长期协作决策任务时存在不足,如奖励稀疏和长期任务信用分配问题。
多架飞艇的长期协作路径规划是一个具有挑战性和复杂性的决策问题。通用多智能体强化学习方法在处理奖励稀疏、动态环境复杂和高维状态空间等问题时面临挑战。这些挑战降低了智能体的学习效率,常常导致策略陷入次优解(Wu等人,2023年)。分层强化学习通过任务分解机制,将复杂的长期规划问题转化为多个层次的子任务优化,降低了状态空间的复杂性并提高了学习效率。Hu等人(2025b)将多机器人路径规划问题分解为不同的子任务,高层控制器负责任务分解,低层控制器执行任务,通过不同决策的协调完成最终任务。这种分层设计不仅提高了算法的可扩展性,还增强了系统在复杂动态环境中的鲁棒性。现有的分层强化学习方法无法直接应用于多架飞艇的长期协作路径规划。这一限制源于该任务的特定挑战,包括管理多个动态约束(如风场波动和能源限制),同时确保飞艇在长时间操作中的高效安全协作。
为了解决这些挑战,本文提出了一种分层协作飞艇路径规划(HiCAPP),这是一种用于多架飞艇长期协作监测关键区域的分层多智能体强化学习算法。HiCAPP算法采用双层控制架构,高层控制层将长期监测任务分解为协作导航子任务,低层控制层专注于实现单个飞艇的路径规划。这种分层设计确保了智能体间的协调和个体控制的准确性,解决了多架飞艇的长期协作监测任务。采用分阶段训练策略以提高训练稳定性,先训练低层控制器,再训练高层控制器,有效避免了同时训练引起的不稳定性。此外,我们引入了执行奖励机制,以动态平衡低层和高层控制器之间的性能。通过模拟和真实风场测试的广泛验证表明,所提出的方法在多种约束条件下显著提升了多飞艇系统的协作监测性能,包括时变风场干扰、能源限制和飞行稳定性要求。本文的主要贡献如下:
- 1. 本文提出了一种针对平流层飞艇的分层协作路径规划方法(HiCAPP)。考虑到这些飞艇的低动态性和长持续时间,该方法能够在复杂风场环境中实现高效的协作路径规划。
- 2. 本文设计了一种奖励机制,以提高多飞艇协作监测中的决策一致性和任务执行效率。通过协调高层和低层控制器,该机制增强了系统间的协作。
- 3. 本文为平流层飞艇的协作开发了一个约束模型。该模型包含了动态性能、能源周期和空域限制等关键约束,为多智能体路径规划提供了可扩展的框架。
本文的结构如下:第2节阐述了问题描述和转换。第3节介绍了创新的HiCAPP算法,系统地详细介绍了其架构设计、状态空间、奖励函数和算法工作流程。第4节通过仿真实验和比较分析验证了所提方法的优越性能。第5节总结了研究结果并概述了未来的研究方向。