编辑推荐:
多智能体强化学习在稀疏奖励环境中面临探索不可靠和协调不足问题,本文提出时空对比蒸馏(TCD)框架,通过自适应注意力模块(AAO)检测局部协调模式,结合对比学习驱动的演化机制(AOE)实现动态参数调整,在星际争霸和足球博弈中验证其优于基线的样本效率和性能。
王浩|王泽翰|杨丽雅|史浩斌
西北工业大学计算机科学学院,中国陕西省咸阳市710129
摘要 在稀疏奖励环境中,多智能体强化学习(MARL)经常面临邻近智能体之间探索行为不可靠、缺乏协调的问题。我们提出了时间对比蒸馏(TCD)这一新型即插即用的渐进式互校准架构,为分布式智能体建立了动态协调信号。与传统的内在奖励蒸馏不同,TCD使用了两个模块进行互校准:(1)自适应注意力运算符(AAO),这是一个具有注意力的内在奖励蒸馏模块,能够检测到新兴的邻域级协调模式;(2)注意力运算符进化器(AOE),它通过对比学习实现双重协调,利用对比参数适应(CPA)生成运算符更新信号,并通过动量引导的渐进式迁移(MPT)将这些信号传递给AAO以指导其进化。通过这些模块的相互作用,TCD使智能体能够在稀疏奖励环境中识别并利用邻域关系,从而缓解稀疏奖励带来的挑战。在StarCraft II(SMAC)和Google Research Football(GRF)上的大量实验表明,TCD在性能和样本效率上均优于现有基线方法,帮助智能体发现并完善复杂的协调策略,从SMAC中的微观管理到GRF中的动态传球,凸显了TCD的广泛适用性。
引言 在稀疏奖励环境中,尽管智能体进行了长时间的探索,但仍然面临反馈延迟和指导信号有限的问题[1]。虽然单智能体方法能够成功发现新的状态[2],但MARL系统面临着探索与协调的双重挑战[3],即稀缺的信号必须同时驱动个体探索和群体协调。尽管随机网络蒸馏(RND)通过预测网络和目标网络之间的差异建立了内在奖励蒸馏流形[4],但仅依赖个体或全局观察的智能体往往难以实现具备邻域意识的最优性能。
这些场景突显了在稀疏奖励环境下增强邻域级协调动态的迫切需求。传统的聚合技术(如平均和求和)常常忽视了邻近智能体的不同重要性,导致信息退化[5]。为了解决这个问题,我们提出了一种新型的即插即用渐进式互校准模块,称为TCD。
首先,我们将TCD视为RND框架的一种新颖扩展,用于时空协调建模。我们引入了自适应注意力运算符[6],将动态邻域意识注入内在奖励蒸馏框架的预测和目标流中[7]。这使得能够检测到邻域级协调模式。然而,出现了两个关键限制:首先,单一的蒸馏损失为运算符进化提供的方向信号不足,特别是在早期探索阶段会导致指导缺失;其次,目标网络的静态特性与运算符所需的动态适应性之间存在根本冲突。
为了解决这些限制,我们的框架引入了一种基于对比学习的运算符进化机制。受[8]和[9]的启发,我们开发了两个组件:(1)CPA通过时间差异分析不断优化对比模块中的运算符参数,优先考虑新兴的协调行为;(2)MPT将这些对比运算符参数传递到蒸馏模块,确保新协调模式的逐步整合,同时不破坏已建立的有效策略。这种双重协调机制在保持目标网络稳定的同时实现了注意力运算符的灵活性。它直接解决了之前描述的静态-动态表示的困境。
我们基于有效协调能够最大化智能体策略与邻域状态动态之间的互信息(MI)这一理论原则,将AAO和AOE整合在一起。TCD通过对比学习目标实现了这一点,这些目标隐式地最大化了两个关键方面的互信息:(1)智能体的协调动作和(2)由AAO识别的关键邻域状态。这一MI最大化过程指导了AOE中注意力运算符的进化,形成了一个自我强化的循环。
总之,TCD建立了一个渐进式互校准框架,将时间对比学习与协调蒸馏相结合,为分布式MARL引入了三项关键创新:
• 我们提出了TCD,这是一种渐进式互校准框架,通过其AAO机制实现了动态的邻域级协调,重新定义了内在奖励蒸馏。通过检测新兴的协调模式,TCD使智能体能够优先考虑邻域行为而非孤立探索。
• TCD引入了一个自我进化机制AOE,包含两个模块:CPA通过时间协调分析生成运算符更新,而MPT确保知识的稳定整合。这种双重协调设计在稀疏奖励的多智能体环境中平衡了动态模式发现与策略稳定性。
• 通过在SMAC和GRF上的大量实验,我们验证了TCD的协调感知内在奖励具有很高的有效性。我们的方法一致地加速了策略收敛,并通过成功引导智能体发现和掌握关键协调策略,在稀疏奖励环境中实现了更优的性能。
部分代码片段 带CTDE的MARL MARL研究取得了显著进展。集中训练和分布式执行(CTDE)框架解决了维度灾难和非平稳性问题,是MARL中的一种流行方法[10]。CTDE简化了决策过程,允许在没有全局信息的情况下部署智能体。Lowe等人[11]在他们的MADDPG算法中引入了CTDE,后来Iqbal等人[12]通过MAAC对其进行了改进,利用高质量的经验来增强集中训练并促进
带IGM的MARL IGM原则旨在确保MARL中联合动作值函数和个体动作值函数之间的一致性贪婪选择。它要求最大化全局Q值的联合动作由每个最大化其局部Q值的个体动作组成。然而,直接对Q值施加这一约束可能会受到限制。通过使用决斗架构分解Q值(Q = V + A ),其中V是状态值,A是优势,这是一种更为细致的方法
方法论 TCD采用了两个模块(AAO和AOE)进行互校准。AAO(称为蒸馏模块)生成内在奖励,详见第4.2节。AOE的双重机制创建了一个双重协调过程,共同驱动AAO内的运算符,详见第4.3节。此外,反馈过程在第4.4节中有描述,而整个框架和实现则在第4.5节中进行了总结。
实验设置 为了评估TCD在多智能体环境中的性能,我们使用了StarCraft II多智能体挑战(SMAC)[37]和Google Research Football(GRF)[38]基准测试。SMAC是一个标准的协同战斗策略基准。为了测试TCD的通用性,我们还使用了GRF,它提供了以足球为中心的不同挑战集。每个场景使用不同的随机种子运行五次,图中的阴影区域代表95%的置信区间。
结论与未来工作 在本文中,我们提出了TCD,这是一种新型的即插即用渐进式互校准框架,旨在增强稀疏奖励环境中的多智能体探索和协调。TCD超越了传统的内在奖励方法,引入了AAO和AOE之间的协同作用。TCD的核心优势在于将时间对比学习与内在奖励蒸馏原则性地结合在一起。我们的方法基于理论
数据/材料/代码的可用性 支持本研究结果的数据/材料/代码可从以下链接获取:
https://github.com/RLer22/MARLTCD 伦理批准和参与同意 本工作不涉及对人类参与者、动物或可识别个人数据的研究。因此不需要签署知情同意书。
出版同意 所有作者都已阅读并批准了手稿的最终版本。他们同意将其发表在本文中。此外,本工作中未涉及任何人类参与者、动物或可识别的个人数据。
CRediT作者贡献声明 王浩: 撰写——初稿、软件、方法论、概念化。王泽翰: 撰写——初稿、软件。杨丽雅: 撰写——审阅与编辑、调查。史浩斌: 监督、方法论、概念化。
利益冲突声明 所有作者声明他们没有可能影响本文所述工作的竞争性财务利益或个人关系。
致谢 本工作部分得到了中国国家自然科学基金(项目编号62476225)和中国国家重点研发计划(项目编号2023YFF0905604)的支持。