《Neural Networks》:Efficient Multi-Agent Communication via Entity-Aware Causal Network
编辑推荐:
多智能体强化学习中的通信效率优化问题,通过实体感知因果通信框架实现。提出实体感知超网络选择通信目标,利用掩码注意力机制实现可扩展的稀疏通信拓扑,并设计因果推断消息生成机制减少冗余通信。实验表明在SMAC、GRF、MPE等基准任务中显著优于基线方法,验证了模块的有效性和算法的鲁棒性。
作者:叶帆波(Yifan Bo)、黄博文(Bowen Huang)、冯静涵(Jinghan Feng)、张硕(Shuo Zhang)、冷彪(Biao Leng)
所属机构:北京航空航天大学计算机科学与工程学院,中国北京 100191
摘要
在复杂的多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)合作任务中,通信被视为一种关键方法。然而,现有的方法依赖于预定义的智能体顺序和标识符来学习目标通信。这些方法忽略了这样一个事实:通信目标的选择仅与智能体的状态相关,而与它们的顺序或标识符无关,这导致了较差的可扩展性和效率低下的采样效果。为了解决这些问题,我们提出了**实体感知因果(Entity-Aware Causal, EAC)**框架,该框架从以实体为中心的角度来处理MARL通信。我们的核心思想是通过实体感知的通信目标选择和因果推断信念机制来提高通信效率。我们主要做出了三项贡献:首先,我们设计了一个实体感知的超网络,该网络基于个体状态信息识别通信目标,并采用掩码注意力(masked-attention)机制来实现可扩展且稀疏的通信拓扑结构;其次,我们提出了一种因果推断信念机制,以增强智能体之间的通信信心并减少冗余消息交换;最后,我们的算法在SMAC、SMAC_v2、GRF和MPE等基准测试中表现优于现有的多智能体合作强化学习算法。我们还证明了该算法在各种网络拓扑结构和稀疏度下的鲁棒性。
引言
多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)在多个领域取得了显著成果,包括游戏(Vinyals等人,2019年)、交通控制(Wei等人,2019年)和机器人技术(Xie等人,2024年)。在这些领域中,训练有素的智能体不仅达到了人类水平的专业技能,甚至超越了专家的表现。然而,部分观测问题(Wang等人,2022年;Yu等人,2024年)长期以来一直阻碍着MARL算法的发展。目前,集中训练和分布式执行(Centralized Training and Distributed Execution, CTDE)框架被广泛用于解决这一问题,该框架在训练时利用全局观测数据,而在执行时仅依赖局部观测数据。然而,其他智能体将智能体视为环境的一部分,智能体策略的变化会导致环境动态的不稳定。多智能体通信(Du等人,2021年)被认为是智能体交换信息和理解彼此意图的关键方法。
黄等人(2024年)和王等人(2020b年)的研究使智能体能够更深入地理解环境状态,并鼓励它们采取协作行动以完成特定任务。一些方法(Das等人,2019年;Ruan等人,2020年)专注于在整个网络中共享消息并将其广播给所有智能体。这种方法导致信息冗余和通信资源利用效率低下。因此,帮助智能体管理通信目标和范围以确保高效通信至关重要。
目前,一些算法(Ding等人,2020年;Guo等人,2023年)旨在在假设只有部分智能体能够相互通信的情况下建立部分通信关系。这种方法适用于通信资源有限的情况(Zhu等人,2024年)。智能体与特定目标进行通信,并发展出基于图的(Jiang等人,2023年)或点对点(Guo等人,2023年)的通信拓扑结构。因此,基于智能体的局部观测数据,开发了一种在分布式执行阶段升级通信关系的策略。在这种策略中,智能体选择通信目标并输出其预定义的标识符。然而,先验知识表明,通信目标的选择与智能体的顺序或标识符无关,仅取决于潜在通信目标的观测状态。这意味着,即使智能体的标识符被破坏或重新排序,只要它们的状态保持不变,通信关系也应不受影响。
此外,在MARL通信中提高通信效率同时减少冗余信息是一个重大挑战。主流方法(Guo等人,2020年;Shi等人,2020年)使用多层感知器(Multi-Layer Perceptron, MLP)或基于Transformer的层来生成消息,但它们忽略了这些消息对智能体后续行动的影响,这使得评估通信效果变得困难。
基于这些原因,我们旨在设计一个从实体角度出发的实体感知因果(EAC)通信网络,实现等变和高效的通信。首先,我们设计了一个实体感知的通信目标选择模块,该模块使用超网络以与顺序无关的方式提取每个实体的特征。是否通信以及与谁通信的决策独立于预定义的智能体标识符,从而保证了MARL通信中的排列不变性(Permutation Invariance, PI)和排列等变性(Permutation Equivariance, PE)。引入掩码注意力机制以提高网络拓扑的可扩展性和稀疏性。其次,我们引入了一个满足PI和PE要求的动作生成模块。最后,我们引入了一个因果推断消息生成模块,在通信前后最大化动作价值函数的KL散度,从而提高消息的有效性并减少冗余通信。我们在四个部分观测的MARL合作任务上进行了实验:Starcraft多智能体挑战(SMAC)(Hu等人,2021年;Wu等人,2023年)、Google Research Football(GRF)(Kurach等人,2020年)和Multiagent Particle Environment(MPE)(Lowe等人,2017年),并将其与其他MARL基线算法进行了比较。我们还分析了每个提出的模块组件的贡献,并评估了算法在不同网络稀疏度和拓扑结构下的鲁棒性。
提出的EAC通信框架具有以下三个优势:
- **采样效率**:通信目标的选择独立于预定义的智能体标识符或顺序,从而在实体层面实现了PI和PE,提高了采样效率和环境稳定性。
- **可扩展性**:通过掩码注意力机制,网络的稀疏性和拓扑结构变得可扩展,提高了对不同环境和通信带宽的适应性。
- **目的性**:通过因果推断机制衡量消息对接收者后续行动的影响,减少了信息冗余,增强了通信的目的性。
本文的其余部分安排如下:第2节介绍了多智能体强化学习和多智能体通信的相关工作;第3节介绍了系统模型;第4节详细介绍了提出的实体感知因果通信方法;第5节展示了与其他方法的比较实验和消融实验;第6节总结了本文的主要贡献。
相关研究
最近在CTDE框架(Foerster等人,2018年;Rashid等人,2020年;Farquhar等人,2020年)和通信领域取得了多智能体强化学习的进展。与独立学习(De Witt等人,2020年)和集中学习(Claus和Boutilier,1998年)策略相比,CTDE方法在性能和可扩展性方面都有显著提升。本节对该领域的研究进行了综述。
系统模型
在本节中,我们介绍了提出的EAC通信网络的系统模型。首先,我们通过Multiagent Particle Environment(MPE)中的一个实际例子来说明我们方法的动机。然后,我们介绍了多智能体马尔可夫过程(Multi-Agent Markov Process),接着详细介绍了通信协议。
方法
在本节中,我们首先概述了提出的实体感知因果(EAC)通信框架。接下来,我们介绍了实体感知通信选择(Entity-Aware Communication Selection, EACS)模块、动作生成模块(Action Generate Module, AGM)和因果推断消息生成(Causal Inference Message Generation, CIMG)机制在训练过程中的应用。最后,我们详细介绍了训练过程。
实验
在本节中,我们评估了提出的EAC通信网络框架在广泛使用的多智能体合作强化学习任务(SMAC、SMAC_v2、GRF和MPE)上的性能。我们将EAC的训练过程与最先进的多智能体强化学习基线和通信算法进行了比较。随后,我们进行了消融实验,以评估算法在不同网络稀疏度和拓扑结构下的有效性和鲁棒性。
结论
在本文中,我们提出了一种实体感知因果通信框架,该框架以等变和与顺序无关的方式选择通信目标。我们使用实体感知超网络对通信目标的特征进行了划分,以提高采样效率。此外,我们引入了因果推断机制来增强通信的必要性并减少冗余通信。实证结果表明,提出的EAC算法优于各种合作多智能体强化学习算法。
作者贡献声明
- **叶帆波(Yifan Bo)**:撰写原始草案、方法论设计和概念化。
- **黄博文(Bowen Huang)**:数据整理。
- **冯静涵(Jinghan Feng)**:形式分析。
- **张硕(Shuo Zhang)**:项目管理。
- **冷彪(Biao Leng)**:调查研究。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。