无人机的协同决策:一种多智能体强化学习方法

《Engineering Applications of Artificial Intelligence》:Cooperative decision-making of unmanned aerial vehicles: A multi-agent reinforcement learning approach

【字体: 时间:2026年01月29日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  多智能体强化学习在异构无人机群协同侦察打击决策中的应用研究。提出融合柔性观测特征编码(FOFE)与Mamba记忆结构的MAPPO算法,解决分布式部分可观测马尔可夫决策过程(Dec-POMDP)下的动态战场信息处理难题,实验表明完成率提升10.1%,生存率提高14.8%,任务耗时减少21.5%。

  
王子怡|马国亮|郭健|钱晨|高阳|黄卓
南京理工大学自动化学院,南京,210094,中华人民共和国

摘要

无人机(UAV)在军事任务中的协同决策是一个关键的研究课题。然而,现实场景中异构UAV的能力限制给协同决策过程带来了重大挑战。为了解决这些问题,本文提出了一种基于多智能体的近端策略优化(MAPPO)算法,该算法采用了灵活的观测特征编码(FOFE)机制和Mamba记忆结构。首先,将侦察-打击一体化固定翼无人机(RSUAV)群体的协同决策问题建模为分布式部分可观测马尔可夫决策过程(Dec-POMDP)。其次,为了应对观测输入的多样性和不完整性,引入了FOFE策略,使网络能够有效处理多通道和变长度数据。此外,还结合了Mamba模型来捕捉历史观测中的时间依赖性,从而提高了长时间任务中的决策效率。在这种多智能体强化学习(MARL)框架下,每架RSUAV可以以分散的方式自主做出决策。仿真结果表明,与基线算法相比,所提出的算法提高了完成任务的比例(提高了10.1%)、存活率(提高了14.8%)以及减少了完成任务所需的时间(减少了21.5%)。该算法还表现出很强的泛化能力,并且在实际的边缘计算设备上具有可行性。因此,这种方法能够在异构RSUAV的能力限制下实现有效的协同决策。

引言

随着无人机(UAV)技术的快速发展,UAV在社会中得到了广泛应用,为许多领域带来了便利(Laghari等人,2023年;刘和李,2023年)。由于其简单性、灵活性和低成本,UAV在军事领域发挥了重要作用(Yang等人,2022年;Santos等人,2023年;Rajora等人,2024年)。近年来,单架UAV的性能已无法满足日益复杂的战场环境需求,因此逐渐使用UAV群体进行协同作战(Javaid等人,2023年)。为了更好地完成军事任务,多架UAV需要相互协作,以实现远超单架UAV的效率(李和马,2020年)。因此,研究协同决策方法具有重要意义(周等人,2020年)。本文主要探讨了在军事领域中,基于非结构化和不完整信息以及现实约束条件下的多UAV协同决策问题。
常用的方法可以分为三类:基于规则的算法、基于优化的算法和基于学习的算法。最早解决该问题的方法是基于经验知识设计交战规则,例如设计带有空战规则的专家系统(Fu等人,2015年)。然而,基于规则的方法本质上依赖于专家知识,对于本文考虑的复杂场景来说是不够的。另一种广泛使用的基于优化的方法是将决策问题转化为动态任务分配问题(Ma等人,2022年)或博弈论框架(Ye等人,2023年)。然而,这些方法的有效性很大程度上依赖于模型精度和信息的完整性,而获得精确解的高计算成本限制了它们的应用范围(Rizk等人,2018年)。因此,这些方法在异构决策场景中的效果往往有限。在所有方法中,基于学习的算法,特别是基于神经网络的多智能体强化学习(MARL),近年来引起了极大的关注(Blais和Akhloufi,2023年)。神经网络的强大拟合能力使得可以在不显著增加计算复杂性的情况下融入更多现实约束,从而为解决更复杂的协同决策问题提供了新的方法。
本文在现有工作的基础上加入了实际约束条件,以更好地反映现实情况,并考虑了使用异构侦察-打击一体化固定翼无人机(RSUAV)群体对地面移动目标进行侦察和打击的更复杂任务。与其他协同决策要求不同,侦察和打击决策具有其特殊性和复杂性,因此决策过程必须具有很强的鲁棒性以应对动态变化(朱,2020年)。主要关注点是在现实约束条件下合成动态和复杂的战场信息,以制定协同决策。关键挑战是使RSUAV能够通过理解战场信息来自主做出协同决策,而它们获得的观测数据包含多种类型的信息,每种信息通常都是非结构化和不完整的。换句话说,观测数据的数量和顺序都是变化的。为了解决这些问题,本文提出了一种基于灵活观测特征编码(FOFE)的多智能体近端策略优化(MAPPO)算法,称为FOFE-MMAPPO,有效实现了协同侦察和打击决策。本文的主要贡献如下:
考虑到异构RSUAV的能力限制,引入了一种称为灵活观测的直观观测表示方法,并将RSUAV群体的协同侦察和打击决策问题建模为具有异构奖励的分布式部分可观测马尔可夫决策过程(Dec-POMDP)。
基于MAPPO算法设计了MARL框架,使UAV能够通过局部灵活观测来做出决策。
考虑到灵活观测的概念,设计了一种FOFE策略,有效处理混合了多种信息类型的输入数据,其中每种信息类型在数量上都是变化的且无序的,从而优化了数据表示并提高了训练中的学习效率。
为了考虑长序列记忆能力,将Mamba模型集成到MAPPO算法中,有效模拟了历史观测的记忆,提高了任务执行后的效率。
本文的其余部分结构如下:第2节介绍相关研究;第3节描述了协同决策问题;第4节介绍了所提出的FOFE-MMAPPO算法;第5节展示了仿真结果和分析;第6节总结了全文。

相关研究

相关研究

为了解决在信息不完整和现实约束条件下的协同决策问题,已经提出了许多方法。这些方法可以分为三类:基于规则的算法、基于优化的算法和基于学习的算法。
基于规则的方法是最早且最成熟的方法,它依赖于基于经验知识设计的交战规则来根据实时战场状态做出决策。已经有多个案例应用了这种方法

问题描述

在本节中,描述了协同侦察和打击决策场景,并对任务中涉及的相应元素进行了数学建模。随后,将RSUAV群体的决策问题建模为Dec-POMDP。

方法

在本节中,描述了基于FOFE-MMAPPO的UAV协同决策方法,如图3所示。基于MAPPO框架,集成了FOFE模块来处理灵活观测,并集成了Mamba模型用于演员和评论家的记忆功能。首先,使用第3.3节中描述的建模方法,将RSUAV的协同侦察和打击决策问题建模为Dec-POMDP。然后,表达了RSUAV的局部观测和全局状态

仿真结果与分析

在本节中,通过使用异构RSUAV群体进行侦察和打击任务的仿真研究了决策性能。首先提供了仿真中使用的参数,包括任务元素参数以及FOFE-MMAPPO的参数。随后,为了验证所提算法的性能,在RSUAV的能力限制下对所提算法MAPPO和MADDPG进行了比较。

结论

本文研究了异构RSUAV的协同决策问题。与以往研究中的理想条件(如完美通信和完整的目标信息)不同,本文主要关注实际应用中的能力限制挑战,旨在提高在实际战场中的应用效果。本文提出了一种基于MAPPO的算法,该算法结合了FOFE策略和Mamba记忆结构,称为FOFE-MMAPPO。

CRediT作者贡献声明

王子怡:撰写——原始草稿、可视化、方法论、概念化。马国亮:撰写——审阅与编辑、验证、监督、数据整理、概念化。郭健:撰写——审阅与编辑、验证、监督、数据整理、概念化。钱晨:撰写——审阅与编辑、监督、概念化。高阳:撰写——审阅与编辑、监督、概念化。黄卓:撰写——审阅与编辑、监督、概念化。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

致谢

本研究部分得到了国家自然科学基金(编号:U24B6014)、江苏省科技重大项目(编号:BG2024041)和中央高校基本科研业务费(编号:30925010526)的支持。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号