一种基于半合作策略的深度Q网络算法，用于多智能体动态目标追踪

《Robotics and Autonomous Systems》：A half-cooperative strategy based Deep Q-network algorithm for multi-agent dynamic target hunting

【字体：大中小】 时间：2026年02月11日 来源：Robotics and Autonomous Systems 5.2

编辑推荐：

　　本文提出一种基于半协作DQN算法的多智能体动态目标狩猎任务规划模型，通过优先经验回放机制和合作半径约束优化，有效提升未知环境下多目标狩猎效率，实验验证其优于传统改进DQN算法。

王晓燕|余欣|方曦

武汉工业大学理学院，中国武汉430070

摘要

在救援、军事和执法等领域，有效的目标追踪至关重要。现有的动态目标追踪算法在多目标场景中常常因环境未知和协作效率低下而失效。本文提出了一种基于半合作DQN算法的多智能体协作任务规划模型，用于未知环境下的动态目标追踪。该模型为智能体和目标随机分配位置，定义了智能体的动作空间，并为实际情境设计了奖励函数。半合作DQN算法通过优先级经验回放实现高效学习，并采用半合作策略增强智能体间的协作，从而提高追踪效率。实验结果表明，半合作DQN算法在成功率、平均边界违规次数和平均时间步数方面优于其他改进的DQN算法，凸显了其优势与潜力。

引言

随着深度学习和强化学习的不断发展，多智能体系统在物流、农业、交通和安全监控等领域实现了广泛应用[1,2]，并得到了广泛的研究与开发[3, [4], [5]]，包括无人机（UAVs）、无人地面车辆（UGVs）和无人水面船只（USVs）。无论是清扫机器人、自动配送车辆还是战斗无人机，它们都配备了多种传感器和集中式信息处理模块，用于数据分析和决策制定，这在日常生活[6], [7], [8]以及军事应用[9]中发挥着重要作用。在大多数实际场景中，单个智能体常常因无法克服资源短缺和环境限制等挑战而无法完成任务。因此，需要多个智能体通过更高效的信息共享和资源分配来协作，以提高任务效率。与单个智能体相比，多智能体系统具有高效、节能、可靠性强和易于维护等优点[10,11]。特别是，多智能体系统的编队问题受到了广泛关注。例如，有一种基于分布式观察器的非线性控制框架可以实现零误差的输出编队跟踪[12]。因此，学者们开始将研究重点从单个智能体转向多智能体系统[13]。

作为分布式系统[14]，多智能体系统能够处理复杂任务，实现多智能体协作动态目标追踪是目前该领域的热点问题。协作目标追踪是一个复杂的多组合优化问题，智能体在执行任务时可能会面临通信障碍和任务冲突，这极大地影响了任务效率和准确性。面对复杂环境和各种不确定性，在确保任务执行满足所有约束的前提下如何提高整体效率和降低资源消耗一直是研究的难点。强化学习通过与环境互动来学习状态空间到动作空间的映射，以最大化奖励。它可以实现个体学习，但在多智能体系统中，单个智能体的学习、互动和重新学习过程需要考虑智能体之间的相互作用，从而实现“整体大于部分之和”的效果[15]。随着深度学习在人工智能领域的复兴，强化学习不断与深度学习结合，形成了深度强化学习[16]，其中最著名的是Deep Q网络（DQN）[17]。在多智能体系统中，深度强化学习在数据训练和策略优化中起着核心作用，智能体间的协作使整个系统功能更加强大。

针对现有DQN算法训练不稳定和泛化能力较弱的问题，本文提出了一种结合半合作策略的改进DQN算法，以提高任务执行效率。该算法不仅解决了单目标追踪问题，也很好地处理了多目标追踪问题。该算法改进了智能体间的协作机制，同时降低了资源消耗，更好地平衡了追踪效果和计算成本之间的冲突。主要贡献如下：

动态追踪任务的形式化建模创新：建立了一个非对称马尔可夫博弈模型，通过定义动态目标的规避策略，解决了传统追踪建模中静态目标行为假设的局限性。提出了双层奖励机制，使得智能体能够从探索（早期阶段优先避免碰撞）适应性地转变为利用（后期阶段强调捕获目标）。
半合作DQN算法的理论突破：主要创新在于Q值传播受到合作半径的限制，半径内的智能体会共享部分Q值。改进后的算法的Q函数可以分解为所有智能体的Q函数之和，而单个智能体的Q函数可以通过神经网络进行近似和求解。
可扩展性的理论验证：改进后的模型和算法在多种不同的实验设置中得到了验证，证明了其在稀疏协作场景中的适用性。

本文的其余部分安排如下：第2节简要回顾了动态目标追踪任务的相关文献。第3节构建了用于动态目标追踪的多智能体协作任务规划模型。第4节介绍了基于优先级经验回放机制的DQN算法，并进一步改进了半合作DQN算法。第5节通过设置模拟环境进行实验，并分析了实验结果。第6节总结了本文并展望了未来的工作。

动态目标追踪模型

本节描述了多智能体协作动态目标追踪任务规划模型，包括环境模型、追踪成功判断、动作空间和奖励规则。在假设智能体数量已知、目标数量已知且区域有限的情况下，该模型旨在捕获未知区域内的所有目标并提高效率。此外，该模型可应用于不同类型的场景，并可进行优化和调整。

协作目标追踪算法

近年来，强化学习作为经典机器学习的延伸，在多智能体系统研究中得到了发展和应用[48]，尤其是在解决动态目标追踪问题方面。尽管传统强化学习（如蒙特卡洛方法和Q学习）具有强大的算法性能，但由于状态-动作空间的快速增长，它们难以应用于大规模实际场景。

实验与讨论

为了验证半合作DQN算法的性能，本节构建了一个动态目标协作追踪模拟环境，并对不同数量的目标进行了多次实验。通过多次实验验证了半合作DQN算法的有效性，并将其性能与其他改进的DQN算法进行了比较。在训练过程中，通过改变合作参数设置了几组实验。

结论

本文提出了一种用于动态目标追踪场景的半合作DQN算法，并将其应用于多智能体协作追踪任务规划模型。该算法通过引入半合作策略改进了智能体间的协作机制，减少了追踪效果和计算成本之间的冲突。此外，该算法利用优先级经验回放机制高效利用了现有经验。

数据可用性声明

本文研究未使用任何数据。

CRediT作者贡献声明

王晓燕：撰写——原始草稿、验证、软件开发、方法论设计、概念构建。余欣：撰写——原始草稿、形式化分析、概念构建。方曦：审稿与编辑、监督、概念构建。

摘要

引言

相关研究

动态目标追踪模型

协作目标追踪算法

实验与讨论

结论

数据可用性声明

CRediT作者贡献声明

热点排行