一种深度强化学习协同空战方法，该方法结合了时间特征与注意力机制，适用于异构飞行器之间的战斗场景

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Aerospace Science and Technology》：A Deep Reinforcement Learning Cooperative Air Combat Method with Temporal Feature and Attention Enhancement for Heterogeneous Flight Vehicles

【字体：大中小】 时间：2026年05月10日 来源：Aerospace Science and Technology 5.8

编辑推荐：

　　陈彩毅|罗德林|郭正宇中国福建省厦门市厦门大学航空航天工程学院，361102 摘要为了应对涉及载人飞行器（MAVs）、无人机（UAVs）和导弹的联合作战挑战，本文提出了一种用于异构飞机之间空战机动的决策方法，称为时间注意力屏蔽异构智能体近端策略优化（TAM-HAPPO）。该

　　陈彩毅|罗德林|郭正宇中国福建省厦门市厦门大学航空航天工程学院，361102

摘要

为了应对涉及载人飞行器（MAVs）、无人机（UAVs）和导弹的联合作战挑战，本文提出了一种用于异构飞机之间空战机动的决策方法，称为时间注意力屏蔽异构智能体近端策略优化（TAM-HAPPO）。该框架通过顺序更新方案将近端策略优化（PPO）扩展到异构多智能体环境。引入基于门控循环单元（GRUs）的状态记忆模块，以对观测序列进行时间建模，并提取描述动态战场特征的隐式特征。此外，策略网络中融入了屏蔽机制和熵正则化，以排除不活跃的智能体并促进策略多样性，同时将多头注意力机制集成到全局价值网络中，以增强关键信息的提取。该算法在同类和异构空战环境中都进行了评估。实验结果表明，TAM-HAPPO能够实现异构飞机之间的有效协同决策，验证了其在复杂空战仿真场景中的鲁棒性和适用性。

引言

随着信息技术和无人机技术的快速发展，现代空战发生了质的变化。其中，MAVs、UAVs和导弹之间的协同决策是未来UAV在实际空战中的应用关键[1]、[2]、[3]。MAVs具有更强的平台性能和战略价值，而UAVs则具有更好的成本性能和响应速度。如何实现MAVs和UAVs之间的协调决策以形成互补优势是一项亟需发展的关键技术[4]、[5]。

MAVs和UAVs之间的协同空战涉及任务规划、决策和结果评估等技术。其中，机动决策是战斗胜利的关键。它们要求飞机根据当前情况选择适当的飞行控制指令，占据有利位置，寻找击落敌机的机会，并保护自身。为了实现这一目标，飞机必须能够感知和理解复杂的空战情况，并在各种约束下做出最优决策[6]、[7]。

从空战机动决策场景的角度来看，大多数现有研究集中在同构UAV作战上，其中UAVs具有相同的动态模型和功能角色。根据参与智能体的数量，这些场景可以分类为一对一交战[8]、[9]、[11]以及多对一或多对多对抗[12]、[13]、[14]、[15]、[16]。由于载荷、感知能力和机动性的限制，单架UAV往往不足以完成复杂的作战任务，使得多UAV协同场景更具实际意义。代表性研究包括协调进攻编队[12]、协同追逃策略[13]以及使用平均场近似的大规模群体对抗[14]。为了解决可扩展性问题，引入了基于注意力的架构，以整合局部和全局信息，从而在大型空战场景中实现有效决策[15]、[16]。总体而言，当前关于空战机动决策的研究在同构UAV群体方面取得了显著进展，而将这些方法扩展到异构作战场景仍是一个开放的挑战。

一些研究人员也探索了异构环境中的UAV机动决策，尽管此类研究仍然相对有限。刘等人[17]提出了一种适用于异构UAV群体的自适应通信和动态共识机制，有效缓解了敌对环境中的目标选择混乱问题。朱等人[18]研究了异构UAV-导弹环境，并提出了一种基于PPO的方法，结合激励课程学习来实现高级机动和导弹规避。Shahid等人[19]开发了一种基于扩展契约网络协议（ECNP）的自主协同分配方法，以支持异构UAV的多方向攻击。张等人[20]提出了一个分层强化学习框架，以增强忠诚僚机的自主性，实现UAV-导弹的协同操作。在实际战场场景中，MAVs、UAVs和导弹之间的协同操作很常见，这突显了进一步研究异构空战机动决策的必要性。特别是在涉及MAVs、UAVs和导弹的异构系统中，智能体表现出显著不同的飞行动力学、感知能力和战术角色，导致状态-动作特征和决策目标的异质性。这些因素大大增加了协同决策的复杂性。

从空战机动决策方法的角度来看，现有方法大致可以分为三类：基于博弈论的方法、基于优化理论的方法和基于人工智能的方法。典型的基于博弈论的方法包括差分博弈、影响图和矩阵博弈。李等人[21]提出了一种基于情境感知和时间敏感信息的多UAV决策的约束战略博弈方法。郭等人[22]利用影响图和贝叶斯推理推导出UAV机动策略，但该方法计算复杂度较高。李等人[23]引入了一种基于降维的矩阵博弈方法来加速策略生成，但随着UAV数量增加，其可扩展性仍然有限。基于优化理论的方法将机动决策定义为优化问题，并使用生物启发式算法或动态规划等经典技术进行求解。蔡等人[24]提出了一种结合注意力增强蚁群优化算法的分布式模型预测控制框架，用于协同UAV决策。Crumpacker等人[25]开发了一种使用神经网络近似的自适应动态规划方法。然而，基于优化的方法在大规模和动态空战场景中通常实时性能有限。基于人工智能的方法主要包括专家系统和强化学习。专家系统[26]、[27]严重依赖于手工制定的规则和先验知识，导致开发和维护成本较高。相比之下，由于强化学习的强大适应性，它越来越多地应用于空战决策。庄等人[28]提出了一种混合动作强化学习方法用于自主UAV机动。徐等人[29]引入了一种基于价值分解的注意力强化学习框架来解决协同多UAV决策问题。吴等人[30]提出了一种考虑上下文的特征融合方法以增强对抗意图识别。庞等人[31]开发了一个基于分层MAPPO的框架用于协同空战，而王等人[32]提出了一种进化多智能体强化学习方法来减轻策略循环。总体而言，现有方法在异构空战系统的协同决策方面仍面临重大挑战，这激励了该领域的进一步研究。

在这项工作中，我们研究了异构人机导弹系统中的协同空战决策问题，并提出了一种基于TAM-HAPPO算法的统一机动策略框架。本文的主要贡献总结如下：

1. 我们提出了一个涉及MAVs、UAVs和导弹的统一深度强化学习-based协同空战决策问题。在这种异构环境中，MAVs和UAVs具有不同的性能约束、自主性水平和战术目标。与大多数关注同构UAV对抗的现有研究不同，所提出的公式明确考虑了非对称角色和混合自主性，使得所提出的问题更具代表性。

2. 为了解决异构空战中固有的非稳定性和策略耦合问题，提出了一种基于TAM-HAPPO算法的异构飞机空战机动决策方法。通过结合多智能体优势分解定理和顺序更新方案，将PPO算法扩展到异构环境，实现了具有不同动作空间和战术角色的智能体之间的稳定联合训练和协调策略学习。

3. 考虑到空战环境的强时间依赖性和部分可观测性，设计了一种基于GRU架构的状态记忆模块，用于对观测数据进行时间序列建模，并生成捕捉战场状态动态演变的隐式特征。经验回放缓冲区按时间顺序组织，以增强决策中的时间一致性和长期情境意识。

4. 为了在复杂的异构场景中提高鲁棒性和可扩展性，进一步引入了几种任务驱动机制，包括排除不活跃实体的智能体屏蔽策略、防止过早收敛的熵正则化，以及集成到集中式价值网络中的多头注意力机制。这些组件共同增强了异构空战中协同决策的效率、适应性和鲁棒性。

本文的后续组织结构如下：第2节描述了研究问题并建立了包括飞机、导弹和空战情境评估模型的异构飞机空战环境。第3节介绍了基于深度强化学习的异构飞机机动决策方法，涵盖了整体框架、状态和动作空间的设计、算法改进和奖励函数设计。第4节详细介绍了模拟实验，提供了两种不同环境的结果和分析，并通过消融研究验证了算法改进的有效性。第5节总结了本文。

问题描述

本文设计了一个包括MAVs、UAVs和导弹的异构空战环境。我们的侧翼由一架MAV和几架UAV组成，这些UAV携带遵循固定引导律的导弹来与敌方UAV交战。目标是通过最大化敌方飞机的击落次数来赢得空战，同时确保MAV的安全。与传统同构UAV对抗环境不同，此场景中的MAV和UAV具有不同的性能参数。

总体框架

基于TAM-HAPPO算法的异构飞机协同空战机动决策方法的总体框架如图3所示。该框架由两个主要部分组成：环境层和算法层。环境层负责收集相关情境数据并将其封装成特征向量，然后输入状态记忆模块以进一步提取时间隐藏特征。

实验环境设置

本文实验的硬件环境使用Intel(R) Core(TM) i5-12400 CPU @2.50 GHz、16 GB RAM和GeForce RTX 3090显卡。实验使用VSCode开发，采用Python 3.8语言环境和开源Pytorch 2.1.0深度学习框架。实验架构可分为物理仿真层和算法训练层。物理仿真层基于JSBSIM [34]，这是一个通用软件。

结论

本文研究了涉及MAVs、UAVs和导弹的异构环境中的协同空战机动决策，并提出了一种基于TAM-HAPPO的学习框架，采用集中训练和分散执行范式。通过集成状态记忆模块、智能体屏蔽机制、熵正则化和多头注意力结构，所提出的方法有效缓解了异构智能体之间的策略耦合和部分可观测性问题。

作者贡献声明

陈彩毅：撰写——原始草案，撰写——审阅与编辑，方法学。罗德林：方法学，监督。郭正宇：方法学，资金获取。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。

联系信箱：

粤ICP备09063491号

热点排行