《Pattern Recognition》:Value decomposition with maximum correntropy for multi-agent deep reinforcement learning
编辑推荐:
价值基多智能体深度强化学习通过单边鲁棒回归解决非单调价值分解问题,利用最大相关散度准则抑制低质量联合动作影响,在多个基准环境中验证了其泛化性和自适应优势。
Kai Liu|张天贤|孔凌江|徐向良
中国电子科技大学信息与通信工程学院,成都,611731,四川省,中华人民共和国
摘要 基于价值的多智能体深度强化学习(MARL)在解决分布式协作任务方面取得了显著进展。该领域的一个紧迫挑战是非单调价值分解问题(NVDP)。大多数现有方法倾向于过度依赖最优联合动作的估计,这限制了它们在训练过程中的适应性。为了解决这一限制,我们提出了MCMIX,一种将NVDP重新表述为单边鲁棒回归问题的新方法。MCMIX不追求动态且不可行的最优联合动作,而是专注于有效识别和利用多个高质量联合动作。为此,它采用最大互信息准则作为成本函数,该准则降低了低质量联合动作的影响,同时放大了高质量联合动作的贡献。在一步矩阵游戏、仓库、捕食者-猎物和StarCraft多智能体挑战等任务上的综合实验表明,MCMIX在多种环境中使用固定的核带宽时,始终表现出优于或可比的性能。这大大减少了针对特定环境的超参数调整需求,并突显了MCMIX在奖励结构不确定或非平稳的实际应用中的潜力。
引言 近年来,多智能体深度强化学习(MARL)在交通[1]、任务调度[2]和机器人控制[3]等领域得到了广泛应用。然而,当智能体的观测信息有限且获得的是个体奖励时,它们往往表现出独立和自私的行为,这使得实现群体智能成为一个核心挑战。分散式部分可观测马尔可夫决策过程(Dec-POMDP)[4]是建模协作多智能体任务的最成熟框架之一,在该框架中,所有智能体共享一个共同的团队奖励。尽管这种表述在概念上直观且适用于实际应用,但它也大大增加了算法设计的复杂性。为了学习有效的协作策略,MARL智能体必须从共享的团队奖励中正确推断出各自的贡献——这一问题被称为价值分解,已成为MARL领域的核心课题[5]、[6]。
VDN[7]是最早尝试解决价值分解问题的方法之一,它将联合动作价值分解为各个智能体效用的简单总和。QMIX[8]通过使用超网络[9]将这种加性分解扩展为单调形式。QTRAN[10]进一步将价值分解推广到非单调任务,从而提出了非单调价值分解问题(NVDP)。加权QMIX[11]引入了一种自适应加权方案,以提高QMIX对NVDP的表示能力。RESQ[12]通过引入负残差项来替代QTRAN中的不等式约束,从而提高了实验性能。OVI[13]提出了一种乐观指导价值函数和全局指导约束,通过提供更准确的最优联合动作近似值来指导分解价值函数的学习。
然而,现有的非单调价值分解算法仍然过度依赖最优联合动作的估计,并且在训练过程中表现出有限的适应性。1) 由于穷举最优联合动作是不可行的,大多数方法通过组合贪婪的个体动作来近似它,这不可避免地引入了近似误差。2) 此外,基于个体-全局最大(IGM)原理的算法往往过分强调最优联合动作,而忽略了优化过程的动态性质。在训练过程中,随着贝尔曼方程的更新,最优联合动作可能会随时间变化。过度关注这些瞬态最优解可能会忽略其他高质量的联合动作,从而导致学习效率低下。因此,有必要超越对最优联合动作的过度依赖,开发更适应NVDP的解决方案——MCMIX正是为了解决这一限制而设计的。
MCMIX的核心思想是将价值分解问题重新解释为一个回归任务,在该任务中,混合函数(MF,Qtot )被训练来近似圣联合价值函数(JVF,Qjt )。在非单调价值分解问题中,这种匹配关系变得不匹配,因为MF的表示能力无法完全捕捉JVF的变化。为了解决这个问题,MCMIX仅选择性地拟合高于MF的较高联合动作值,而将低于MF的值视为异常值。因此,问题被重新表述为单边回归问题。被丢弃的值在相反的一侧充当异常值,自然形成了鲁棒回归的表述。直观地说,这个过程类似于在回归中仅拟合数据分布的上边界(或“边缘”),而不是整个数据集——因此称为单边鲁棒回归。这种表述为解决NVDP提供了新的视角,并构成了MCMIX的理论基础。
具体来说,我们使用标准的均方误差(MSE)损失(图1中的绿线)来计算高质量联合动作的梯度,而低质量联合动作则通过最大互信息准则(MCC)[14]、[15]损失(图1中的蓝线梯度)来处理。这种选择性的梯度计算有效地减轻了低质量联合动作的负面影响,并提高了学习过程的总体稳定性。
进一步的数学分析表明,MCMIX的性能对环境变化具有鲁棒性。在一步矩阵游戏、仓库、捕食者-猎物和StarCraft多智能体挑战等任务上的实验表明,MCMIX在多种环境中使用单一固定的核带宽时,始终优于或与基线方法表现相当。与基线方法相比,这显著减少了广泛的超参数调整需求。
本文的其余部分组织如下。第2节回顾了价值分解的相关工作。第3节提供了关于NVDP和互信息的背景知识。第4节从鲁棒回归的角度提出了一个新的价值分解框架,并详细介绍了所提出的算法。第5节报告了在多个基准测试上的实验结果,以实证验证MCMIX的有效性和优越性。最后,第6节总结了本文并概述了未来研究的潜在方向。MCMIX的源代码可以在
https://github.com/LIUKAI0417/MCMIX 处获取。
相关研究 价值分解算法大致可以分为两个研究方向。第一个方向专注于构建表达能力强的MF,而第二个方向旨在设计保持MF与JVF之间适当关系的机制。VDN[7]引入了加性MF结构,QMIX[8]使用超网络提出了单调MF。然而,它们的表示能力有限,不足以处理非单调收益。为了解决这一限制,QPLEX[16]构建了一个 MARL表述 协作多智能体任务通常被建模为Dec-POMDP,其正式定义为元组( N , S , O , A , P , R , γ ) 。这里,N = 1 , . . . . . . . . . . . . . . . . . . . 表示一组有限的智能体。S 表示全局状态集,描述了环境的全局配置,这是单个智能体无法直接观测到的。每个智能体 从其自己的观测空间O i 接收观测值,联合观测空间定义为O = O 1 × O 2 × ? × O N 。类似地,联合动作空间为A = A 1 × A 2 × ? × A N
方法 在本节中,我们提出了一种新的价值分解方法MCMIX,该方法将互信息机制扩展到MARL领域,用于抑制异常值。关键思想是迭代地过滤掉低质量的联合动作,同时增强对高质量联合动作的学习。所提出方法的总体架构如图3所示。
实验 在本节中,我们通过一系列基准环境对所提出的MCMIX算法的有效性和优越性进行了实证评估。我们首先评估了具有非单调收益结构的环境(包括OMG(表2)、仓库和离散捕食者-猎物任务)上的性能。随后,我们在MARL社区广泛采用的SMAC基准测试上评估了MCMIX。为了确保所有算法的公平性,在OMG中随机种子被固定为2
结论 在本文中,我们从单边鲁棒回归问题的角度提出了对NVDP的新见解。基于这一见解,我们首次尝试通过将MCC纳入基于价值的多智能体强化学习来解决NVDP问题。为此,我们提出了一种新算法MCMIX,并提供了严格的理论分析,以证明其鲁棒性、可扩展性和泛化优势。在包括OMG在内的多种环境中的广泛实验表明
CRediT作者贡献声明 Kai Liu:概念化、方法论、软件、写作、绘图。Tianxian Zhang:监督、审阅。Lingjiang Kong:监督、基础工作。Xiangliang Xu:审阅、编辑。
CRediT作者贡献声明 Kai Liu: 写作——审阅与编辑、撰写——初稿、可视化、软件、资源、方法论、调查、形式分析、数据整理、概念化。Tianxian Zhang: 写作——审阅与编辑、监督、资源、项目管理、资金获取。Lingjiang Kong: 监督、项目管理、资金获取。Xiangliang Xu: 写作——审阅与编辑、验证、数据整理。
利益冲突声明 作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。