通过具备实体感知能力的因果网络实现高效的多智能体通信

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：Efficient Multi-Agent Communication via Entity-Aware Causal Network

【字体：大中小】 时间：2026年01月12日 来源：Neural Networks 6.3

编辑推荐：

　　多智能体强化学习中的通信效率优化问题，通过实体感知因果通信框架实现。提出实体感知超网络选择通信目标，利用掩码注意力机制实现可扩展的稀疏通信拓扑，并设计因果推断消息生成机制减少冗余通信。实验表明在SMAC、GRF、MPE等基准任务中显著优于基线方法，验证了模块的有效性和算法的鲁棒性。

作者：叶帆波（Yifan Bo）、黄博文（Bowen Huang）、冯静涵（Jinghan Feng）、张硕（Shuo Zhang）、冷彪（Biao Leng）所属机构：北京航空航天大学计算机科学与工程学院，中国北京 100191

摘要

在复杂的多智能体强化学习（Multi-Agent Reinforcement Learning, MARL）合作任务中，通信被视为一种关键方法。然而，现有的方法依赖于预定义的智能体顺序和标识符来学习目标通信。这些方法忽略了这样一个事实：通信目标的选择仅与智能体的状态相关，而与它们的顺序或标识符无关，这导致了较差的可扩展性和效率低下的采样效果。为了解决这些问题，我们提出了**实体感知因果（Entity-Aware Causal, EAC）**框架，该框架从以实体为中心的角度来处理MARL通信。我们的核心思想是通过实体感知的通信目标选择和因果推断信念机制来提高通信效率。我们主要做出了三项贡献：首先，我们设计了一个实体感知的超网络，该网络基于个体状态信息识别通信目标，并采用掩码注意力（masked-attention）机制来实现可扩展且稀疏的通信拓扑结构；其次，我们提出了一种因果推断信念机制，以增强智能体之间的通信信心并减少冗余消息交换；最后，我们的算法在SMAC、SMAC_v2、GRF和MPE等基准测试中表现优于现有的多智能体合作强化学习算法。我们还证明了该算法在各种网络拓扑结构和稀疏度下的鲁棒性。

引言

多智能体强化学习（Multi-Agent Reinforcement Learning, MARL）在多个领域取得了显著成果，包括游戏（Vinyals等人，2019年）、交通控制（Wei等人，2019年）和机器人技术（Xie等人，2024年）。在这些领域中，训练有素的智能体不仅达到了人类水平的专业技能，甚至超越了专家的表现。然而，部分观测问题（Wang等人，2022年；Yu等人，2024年）长期以来一直阻碍着MARL算法的发展。目前，集中训练和分布式执行（Centralized Training and Distributed Execution, CTDE）框架被广泛用于解决这一问题，该框架在训练时利用全局观测数据，而在执行时仅依赖局部观测数据。然而，其他智能体将智能体视为环境的一部分，智能体策略的变化会导致环境动态的不稳定。多智能体通信（Du等人，2021年）被认为是智能体交换信息和理解彼此意图的关键方法。黄等人（2024年）和王等人（2020b年）的研究使智能体能够更深入地理解环境状态，并鼓励它们采取协作行动以完成特定任务。一些方法（Das等人，2019年；Ruan等人，2020年）专注于在整个网络中共享消息并将其广播给所有智能体。这种方法导致信息冗余和通信资源利用效率低下。因此，帮助智能体管理通信目标和范围以确保高效通信至关重要。目前，一些算法（Ding等人，2020年；Guo等人，2023年）旨在在假设只有部分智能体能够相互通信的情况下建立部分通信关系。这种方法适用于通信资源有限的情况（Zhu等人，2024年）。智能体与特定目标进行通信，并发展出基于图的（Jiang等人，2023年）或点对点（Guo等人，2023年）的通信拓扑结构。因此，基于智能体的局部观测数据，开发了一种在分布式执行阶段升级通信关系的策略。在这种策略中，智能体选择通信目标并输出其预定义的标识符。然而，先验知识表明，通信目标的选择与智能体的顺序或标识符无关，仅取决于潜在通信目标的观测状态。这意味着，即使智能体的标识符被破坏或重新排序，只要它们的状态保持不变，通信关系也应不受影响。此外，在MARL通信中提高通信效率同时减少冗余信息是一个重大挑战。主流方法（Guo等人，2020年；Shi等人，2020年）使用多层感知器（Multi-Layer Perceptron, MLP）或基于Transformer的层来生成消息，但它们忽略了这些消息对智能体后续行动的影响，这使得评估通信效果变得困难。基于这些原因，我们旨在设计一个从实体角度出发的实体感知因果（EAC）通信网络，实现等变和高效的通信。首先，我们设计了一个实体感知的通信目标选择模块，该模块使用超网络以与顺序无关的方式提取每个实体的特征。是否通信以及与谁通信的决策独立于预定义的智能体标识符，从而保证了MARL通信中的排列不变性（Permutation Invariance, PI）和排列等变性（Permutation Equivariance, PE）。引入掩码注意力机制以提高网络拓扑的可扩展性和稀疏性。其次，我们引入了一个满足PI和PE要求的动作生成模块。最后，我们引入了一个因果推断消息生成模块，在通信前后最大化动作价值函数的KL散度，从而提高消息的有效性并减少冗余通信。我们在四个部分观测的MARL合作任务上进行了实验：Starcraft多智能体挑战（SMAC）（Hu等人，2021年；Wu等人，2023年）、Google Research Football（GRF）（Kurach等人，2020年）和Multiagent Particle Environment（MPE）（Lowe等人，2017年），并将其与其他MARL基线算法进行了比较。我们还分析了每个提出的模块组件的贡献，并评估了算法在不同网络稀疏度和拓扑结构下的鲁棒性。提出的EAC通信框架具有以下三个优势： - **采样效率**：通信目标的选择独立于预定义的智能体标识符或顺序，从而在实体层面实现了PI和PE，提高了采样效率和环境稳定性。 - **可扩展性**：通过掩码注意力机制，网络的稀疏性和拓扑结构变得可扩展，提高了对不同环境和通信带宽的适应性。 - **目的性**：通过因果推断机制衡量消息对接收者后续行动的影响，减少了信息冗余，增强了通信的目的性。本文的其余部分安排如下：第2节介绍了多智能体强化学习和多智能体通信的相关工作；第3节介绍了系统模型；第4节详细介绍了提出的实体感知因果通信方法；第5节展示了与其他方法的比较实验和消融实验；第6节总结了本文的主要贡献。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号