作为多机器人协作领域的一个重要研究方向,多无人机协同追击关注如何引导一组具有自主决策能力的无人机协同追踪和追捕动态可疑目标。它在军事侦察、应急救援和协同对抗等领域具有重要的研究意义和广泛的应用前景(Chen等人,2025年;X. Xu等人,2025年)。
目前,许多研究人员提出了多种多无人机协同追击的解决方案,主要包括传统的数学方法、群体智能(Swarm Intelligence,SI)算法和强化学习(Reinforcement Learning,RL)方法。
传统数学方法侧重于构建无人机动态模型,并采用概率估计、微分博弈论和模糊逻辑等技术进行路径规划,从而实现协同追击(Liu等人,2025年;Tan等人,2025年)。这类研究经常使用Voronoi划分:例如,Pierson等人(Pierson等人,2017年)采用微分方法优化了凸环境中的划分;Zhang等人(Zhang等人,2023年)最小化了逃逸者的广义Voronoi区域以实现分布式追击;Tian等人(Tian等人,2022年)引入了缓冲划分以避开动态障碍物;Zhu等人(Zhu等人,2022年)推导出了一种概率划分来处理定位不确定性;Zhou等人(Zhou等人,2021年)将动态反馈线性化与李雅普诺夫向量场方法相结合,以实现同时目标追踪和危险区域避让。尽管这些方法在理论上有严格性,但它们依赖于准确的环境模型,限制了其在不确定或未知场景中的适用性。此外,基于Voronoi划分的评估标准也仅适用于恒速追击情况。
SI算法是一种受自然界启发的计算方法,模仿生物群体,具有自组织和强大的鲁棒性。典型的例子包括蚁群优化(Ant Colony Optimization,PSO)和粒子群优化(Particle Swarm Optimization,PSO)及相关方法,这些方法在各个领域都有广泛的应用前景。例如,Cao等人(Cao等人,2017年)提出了一种基于势场的PSO方法用于目标搜索和追捕。Xu等人(N. Xu等人,2024年)引入了一种改进的混合PSO算法,以减少追击时间和飞行距离。Liu等人(Hang Liu等人,2025年)开发了一种受鸽子启发的优化(Pigeon-Inspired Optimization,PIO)算法,使追踪无人机能够自适应调整编队大小和飞行高度。Huang等人(Huang等人,2025年)设计了一种“感知-决策”概率图模型,以提高在未知、感知受限场景下的追捕效率。然而,SI算法是随机搜索和进化方法,依赖于概率计算。这一核心特性使它们适用于静态优化,但在需要实时决策的动态环境中适应性较差,因为计算成本较高。
作为智能决策框架,多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)研究多个智能体如何通过环境互动学习协作策略,为未知场景中的实时决策提供了基础。它已广泛应用于多机器人协同追击(Peng等人,2025年;Zhao等人,2025年)。代表性的工作包括Wu等人提出的基于情境认知的方法,该方法保留了有利于学习的行为(Wu等人,2021年);Xia等人提出的基于近端策略优化(Proximal Policy Optimization,PPO)的方法,该方法为无人水面船只(Unmanned Surface Vehicles,USVs)的追捕配备了动态特征嵌入模块(Xia等人,2023年);以及Li等人提出的基于课程经验学习的算法(CEL-MADDPG),用于复杂场景(Li等人,2024年)。这些方法通常通过追击半径标准来定义成功。也就是说,当追踪者与逃逸者之间的相对距离小于预定义的追击半径时,追击被认为是成功的。这要求追踪者的速度不低于逃逸者的速度。如果逃逸者更快,即使暂时被包围,也不能保证它不会再次逃脱。
为了解决快速移动目标的协同追击问题,一种有前景的方法将基于阿波罗圆的追击判断模型与MADRL结合,用于训练协作策略。例如,Hua等人(Hua等人,2023年)提出了一种基于阿波罗圆的游戏理论和Q学习方法进行协同追击,该方法通过自适应调整贪婪因子来构建最优追击策略。这种方法不适用于信息不完整的场景,因为它需要预先知道对手的收益矩阵。为了应对部分可观测环境中快速移动目标的协同追击问题,Fu等人(Fu等人,2022年)提出了一种解耦的MADDPG算法,并在多种对抗性场景中验证了其性能。由于该方法依赖于孤立的局部观测且忽略了多智能体互动,因此无法实现有效的团队级协作。因此,目前仍缺乏在部分可观测条件下快速移动目标协同追击的有效解决方案。
为了填补这一空白,本文提出了一种名为PE-QMIX的新颖感知增强型MADRL方法。与通常依赖于静态图和均匀聚合的现有基于图的MADRL方法不同,PE-QMIX采用了基于改进的图注意力网络(Graph Attention Networks,GATs)的自适应聚合机制。该机制动态地权衡和优先考虑智能体特征,从而在部分可观测条件下实现专注的信息交换和显著提升的智能体间协作。首先,为有界环境中的多无人机协同追击构建了一个基于阿波罗圆的追击判断模型,并对成功追击的边界条件提供了严格的理论证明。接下来,根据追踪无人机之间的连通性建立了多智能体交互图。然后,使用双层改进的GAT从邻居节点提取信息特征,以增强追踪无人机的感知能力。最后,设计了多种奖励类型来反映任务要求,并采用集中训练与分散执行(CTDE)框架来优化追踪无人机的协作策略。实验结果表明,该方法显著提高了多无人机追击的质量和效率。在测试设置中,它在成功率、稳定性和时间消耗方面表现更好。
本文的主要贡献总结如下:
(1) 为了确定追踪无人机是否成功追捕到逃逸目标,本文采用基于阿波罗圆的判断模型,并从理论上证明了成功追击的边界条件。这为解决快速移动目标的协同追击问题提供了理论基础。
(2) 为了解决多无人机协同追击中的部分可观测性问题,本文设计了一种新颖的感知增强方法。它将多无人机系统建模为动态多智能体交互图,然后使用双层GAT和多头自注意力(multi-head self-attention)来聚合追踪无人机的特征。这使得相邻无人机能够共享局部观测信息,从而增强团队的整体感知能力。
(3) 为了高效解决动态环境中的多智能体决策问题,我们提出了基于PE-QMIX的多无人机协同追击方法,并根据任务要求设计了多种奖励函数来优化追踪无人机的行为。
(4) 我们设计了多种追击场景并在这些场景中进行了广泛的对比实验。结果表明,PE-QMIX在追击成功率、稳定性和时间消耗方面优于所有其他方法。
为了清晰起见,表1提供了比较代表性方法的优势和局限性的摘要表。