一种基于感知增强的多智能体深度强化学习方法，用于多无人机协同追捕任务

《Expert Systems with Applications》：A perception-enhanced multi-agent deep reinforcement learning method for multi-UAV cooperative pursuit

【字体：大中小】 时间：2026年01月27日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　多无人机协同追捕快逃目标，提出基于Apollonius圆的感知增强MADRL方法，构建动态交互图与双头GAT网络，设计多奖励函数框架，实验显示成功率提升超十倍，时间减少71.42%。

Xiong Liqin|Chen Xiliang|Luo Xijian|Cao Lei

中国人民解放军陆军工程大学，南京 210007，中国

摘要

多无人机协同追击是多机器人协作领域的一个重要分支，广泛应用于协同侦察和应急救援等关键任务中。现有研究主要集中在完全可观测环境下的恒速协同追击问题，而对部分可观测环境中追踪快速移动目标的问题关注较少。因此，本文提出了一种基于感知增强的多智能体深度强化学习方法，使追踪无人机能够通过局部观测来学习协作。首先，为有界多无人机协同追击问题构建了一个基于阿波罗圆（Apollonius circle）的追击判断模型，并对成功追击的边界条件提供了严格的理论证明。接着，根据追踪无人机之间的实时连通性建立了动态多智能体交互图，然后使用双层图注意力网络（two-layer graph attention network）从邻居节点提取信息特征以增强它们的感知能力。最后，设计了一种包含多种奖励类型的联合奖励函数来反映任务要求，并采用集中训练与分散执行（Centralized Training with Decentralized Execution）的框架来训练追踪无人机的策略，促进它们学习自主协作。为了验证该方法的有效性，在不同逃避策略的各种场景中进行了广泛的对比实验。实验结果表明，在几乎所有场景中，该方法在成功率、稳定性和时间消耗方面都优于其他方法。值得注意的是，成功率提高了数倍（在某些情况下提高了十倍以上），平均追击步数最多减少了71.42%。

引言

作为多机器人协作领域的一个重要研究方向，多无人机协同追击关注如何引导一组具有自主决策能力的无人机协同追踪和追捕动态可疑目标。它在军事侦察、应急救援和协同对抗等领域具有重要的研究意义和广泛的应用前景（Chen等人，2025年；X. Xu等人，2025年）。

目前，许多研究人员提出了多种多无人机协同追击的解决方案，主要包括传统的数学方法、群体智能（Swarm Intelligence，SI）算法和强化学习（Reinforcement Learning，RL）方法。

传统数学方法侧重于构建无人机动态模型，并采用概率估计、微分博弈论和模糊逻辑等技术进行路径规划，从而实现协同追击（Liu等人，2025年；Tan等人，2025年）。这类研究经常使用Voronoi划分：例如，Pierson等人（Pierson等人，2017年）采用微分方法优化了凸环境中的划分；Zhang等人（Zhang等人，2023年）最小化了逃逸者的广义Voronoi区域以实现分布式追击；Tian等人（Tian等人，2022年）引入了缓冲划分以避开动态障碍物；Zhu等人（Zhu等人，2022年）推导出了一种概率划分来处理定位不确定性；Zhou等人（Zhou等人，2021年）将动态反馈线性化与李雅普诺夫向量场方法相结合，以实现同时目标追踪和危险区域避让。尽管这些方法在理论上有严格性，但它们依赖于准确的环境模型，限制了其在不确定或未知场景中的适用性。此外，基于Voronoi划分的评估标准也仅适用于恒速追击情况。

SI算法是一种受自然界启发的计算方法，模仿生物群体，具有自组织和强大的鲁棒性。典型的例子包括蚁群优化（Ant Colony Optimization，PSO）和粒子群优化（Particle Swarm Optimization，PSO）及相关方法，这些方法在各个领域都有广泛的应用前景。例如，Cao等人（Cao等人，2017年）提出了一种基于势场的PSO方法用于目标搜索和追捕。Xu等人（N. Xu等人，2024年）引入了一种改进的混合PSO算法，以减少追击时间和飞行距离。Liu等人（Hang Liu等人，2025年）开发了一种受鸽子启发的优化（Pigeon-Inspired Optimization，PIO）算法，使追踪无人机能够自适应调整编队大小和飞行高度。Huang等人（Huang等人，2025年）设计了一种“感知-决策”概率图模型，以提高在未知、感知受限场景下的追捕效率。然而，SI算法是随机搜索和进化方法，依赖于概率计算。这一核心特性使它们适用于静态优化，但在需要实时决策的动态环境中适应性较差，因为计算成本较高。

作为智能决策框架，多智能体深度强化学习（Multi-Agent Deep Reinforcement Learning，MADRL）研究多个智能体如何通过环境互动学习协作策略，为未知场景中的实时决策提供了基础。它已广泛应用于多机器人协同追击（Peng等人，2025年；Zhao等人，2025年）。代表性的工作包括Wu等人提出的基于情境认知的方法，该方法保留了有利于学习的行为（Wu等人，2021年）；Xia等人提出的基于近端策略优化（Proximal Policy Optimization，PPO）的方法，该方法为无人水面船只（Unmanned Surface Vehicles，USVs）的追捕配备了动态特征嵌入模块（Xia等人，2023年）；以及Li等人提出的基于课程经验学习的算法（CEL-MADDPG），用于复杂场景（Li等人，2024年）。这些方法通常通过追击半径标准来定义成功。也就是说，当追踪者与逃逸者之间的相对距离小于预定义的追击半径时，追击被认为是成功的。这要求追踪者的速度不低于逃逸者的速度。如果逃逸者更快，即使暂时被包围，也不能保证它不会再次逃脱。

为了解决快速移动目标的协同追击问题，一种有前景的方法将基于阿波罗圆的追击判断模型与MADRL结合，用于训练协作策略。例如，Hua等人（Hua等人，2023年）提出了一种基于阿波罗圆的游戏理论和Q学习方法进行协同追击，该方法通过自适应调整贪婪因子来构建最优追击策略。这种方法不适用于信息不完整的场景，因为它需要预先知道对手的收益矩阵。为了应对部分可观测环境中快速移动目标的协同追击问题，Fu等人（Fu等人，2022年）提出了一种解耦的MADDPG算法，并在多种对抗性场景中验证了其性能。由于该方法依赖于孤立的局部观测且忽略了多智能体互动，因此无法实现有效的团队级协作。因此，目前仍缺乏在部分可观测条件下快速移动目标协同追击的有效解决方案。

为了填补这一空白，本文提出了一种名为PE-QMIX的新颖感知增强型MADRL方法。与通常依赖于静态图和均匀聚合的现有基于图的MADRL方法不同，PE-QMIX采用了基于改进的图注意力网络（Graph Attention Networks，GATs）的自适应聚合机制。该机制动态地权衡和优先考虑智能体特征，从而在部分可观测条件下实现专注的信息交换和显著提升的智能体间协作。首先，为有界环境中的多无人机协同追击构建了一个基于阿波罗圆的追击判断模型，并对成功追击的边界条件提供了严格的理论证明。接下来，根据追踪无人机之间的连通性建立了多智能体交互图。然后，使用双层改进的GAT从邻居节点提取信息特征，以增强追踪无人机的感知能力。最后，设计了多种奖励类型来反映任务要求，并采用集中训练与分散执行（CTDE）框架来优化追踪无人机的协作策略。实验结果表明，该方法显著提高了多无人机追击的质量和效率。在测试设置中，它在成功率、稳定性和时间消耗方面表现更好。

本文的主要贡献总结如下：

(1) 为了确定追踪无人机是否成功追捕到逃逸目标，本文采用基于阿波罗圆的判断模型，并从理论上证明了成功追击的边界条件。这为解决快速移动目标的协同追击问题提供了理论基础。

(2) 为了解决多无人机协同追击中的部分可观测性问题，本文设计了一种新颖的感知增强方法。它将多无人机系统建模为动态多智能体交互图，然后使用双层GAT和多头自注意力（multi-head self-attention）来聚合追踪无人机的特征。这使得相邻无人机能够共享局部观测信息，从而增强团队的整体感知能力。

(3) 为了高效解决动态环境中的多智能体决策问题，我们提出了基于PE-QMIX的多无人机协同追击方法，并根据任务要求设计了多种奖励函数来优化追踪无人机的行为。

(4) 我们设计了多种追击场景并在这些场景中进行了广泛的对比实验。结果表明，PE-QMIX在追击成功率、稳定性和时间消耗方面优于所有其他方法。

为了清晰起见，表1提供了比较代表性方法的优势和局限性的摘要表。

章节片段

MADRL

MADRL是一种流行的无监督机器学习方法，用于解决多智能体决策问题。在MADRL中，每个智能体通过与共享环境的互动不断优化其行动策略，从而促进智能体之间的协作。MADRL的基本框架如图1所示。

首先，每个智能体根据当前环境状态和之前行动获得的奖励选择当前行动。

协同追击问题

本文关注在有界且无障碍的环境中多无人机对快速移动目标的协同追击。追击场景涉及N架追踪无人机试图在有限区域内快速定位、追踪并包围一个高速逃逸者，如图4所示。在这种情况下，由于追踪无人机在速度上处于劣势且感知能力有限，它们之间的紧密协调对于成功追击至关重要。

在图4中，

U = {U^{1}, U^{2}, . ., U^{N}}

表示

方法

多无人机对快速移动目标的协同追击本质上是一个实时动态决策问题。传统数学方法和SI算法在动态环境中的表现往往较差，因为难以进行准确的环境建模或计算复杂度较高。为了解决部分可观测条件下的协同追击挑战，本文提出了一种基于感知增强的MADRL方法PE-QMIX。该方法包括三个关键组成部分：(1) 建模

设置

为了模拟部分可观测条件下的多无人机协同追击，我们开发了一个25公里×25公里的二维无障碍环境，其中包含四架追踪无人机和一架逃逸者。模拟最多执行150步，每步代表5秒的实际时间。观测和通信受到限制：每架无人机仅在其观测半径内收集情境信息（位置、速度、航向），并且仅在其通信范围内进行通信。

结论

为了解决部分可观测环境中快速移动目标的协同追击问题，本文提出了一种基于感知增强的MADRL方法，使追踪无人机能够充分利用局部观测数据进行协同目标追踪。首先，我们对有界环境中的多无人机协同追击进行了环境和无人机运动学建模，并基于阿波罗圆设计了追击判断模型。同时，我们还提供了边界条件的理论证明。

CRediT作者贡献声明

Xiong Liqin：撰写 – 审稿与编辑，撰写 – 原稿，概念化，方法论，可视化，数据整理，验证。Chen Xiliang：撰写 – 审稿与编辑，数据整理，监督。Luo Xijian：撰写 – 审稿与编辑，调查，软件。Cao Lei：撰写 – 审稿与编辑，概念化，监督。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

摘要

引言

章节片段

MADRL

协同追击问题

方法

设置

结论

CRediT作者贡献声明

利益冲突声明

热点排行

新闻专题