MAPPO-LCR：一种多智能体近端策略优化方法，该方法在空间公共物品游戏中引入了局部合作奖励机制

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Chaos, Solitons & Fractals》：MAPPO-LCR: Multi-Agent Proximal Policy Optimization with Local Cooperation Reward in spatial public goods games

【字体：大中小】 时间：2026年01月28日 来源：Chaos, Solitons & Fractals 5.6

编辑推荐：

　　提出基于多智能体近端策略优化（MAPPO）框架，结合集中式价值函数与分散式策略执行，解决空间公共物品游戏中合作机制不稳定问题。进一步引入局部合作奖励机制（MAPPO-LCR），增强空间交互中的合作信号，实验表明MAPPO相比传统PPO更稳定，MAPPO-LCR在临界区域合作过渡更显著。

赵奇林杨|向阿欣|杨凯迪|刘天军|田有亮

贵州大学计算机科学与技术学院，公共大数据国家重点实验室，贵阳，550025，贵州，中国

摘要

模仿学习和传统的强化学习难以捕捉大型空间公共物品游戏中的战略耦合现象。本研究将多智能体近端策略优化（MAPPO）引入空间公共物品游戏，以研究学习驱动的合作行为。与独立的PPO学习器不同，MAPPO通过一个集中式评估器来评估集体结果，同时策略执行是分散的。这种结构稳定了学习动态，并揭示了更清晰的合作转变阈值。在此基础上，我们引入了局部合作奖励（MAPPO-LCR）来整合邻域级别的合作信号。局部合作反馈增强了空间互动，并在临界状态下更加清晰地展现了合作转变。广泛的模拟和统计分析表明，MAPPO比PPO更稳定，而MAPPO-LCR进一步提高了鲁棒性。这些结果阐明了深度多智能体学习如何在结构化的社会困境中内化空间合作机制。

引言

合作是研究结构化群体中集体动态的核心主题[1]、[2]、[3]。能源共享微电网提供了一个具体的例子，其中家庭协调局部决策以维持稳定的分布式电力系统。这些系统展示了局部合作行为如何产生超出个体贡献的集体利益。它们还揭示了个人激励与社区福利之间的持续紧张关系，这是许多社会困境的特征[4]、[5]、[6]。空间公共物品游戏（SPGG）为研究这种紧张关系提供了一个正式框架[7]、[8]。通过明确指定战略互动的收益规则，SPGG捕捉了个体收益与集体福利之间的冲突。

进化博弈论的见解进一步揭示了互动拓扑和群体结构如何影响多种环境下的合作稳定性[9]、[10]、[11]。先前的研究已经确定了多种减轻搭便车行为的机制，包括基于激励的设计[12]、[13]、[14]、声誉中介策略[15]、[16]、惩罚系统[17]、[18]以及排斥规则[19]、[20]。适应性奖励方案也被证明可以通过动态响应局部战略环境而产生进化优势[21]。长期以来，人们认识到声誉和互惠等局部信息是结构化群体中合作的关键驱动力[22]。一个具体的现实世界例子是社区微电网，其中居民共享本地产生的能源。稳定运行依赖于家庭持续贡献能源，而不是利用共享资源。实证观察表明，即使没有中央强制执行，局部合作信号也能提升整体性能。这些观察结果突显了局部协调机制的重要性。同时，它们也揭示了某些奖励方案的局限性[23]，从而促使我们在框架中设计了局部合作奖励（LCR）。然而，正面和负面互惠之间的互动可能会产生非平凡的结果，并不总是促进合作[24]。

强化学习（RL）重塑了对社会困境中战略适应的研究。它采用基于状态评估、动作选择和奖励反馈的顺序决策范式，而不是瞬间的模仿规则[25]、[26]。与基于费米更新和复制动态的经典进化方法[27]、[28]不同，RL提供了一个更灵活的建模框架。它捕捉了智能体如何通过积累的经验逐渐改进其行为。这一视角与真实的社会经济系统更为契合，在这些系统中，智能体通过平衡短期激励和长期期望来持续调整决策[29]、[30]。在基于价值的RL算法中，Q学习即使在结构化和高阶互动网络中也能表现出维持合作的能力[31]、[32]、[33]。其时间差分更新能够很好地适应异构空间结构[34]、[35]。最近的扩展进一步结合了周期性策略调整[36]和将Q学习与费米动态相结合的混合机制，以强化合作倾向[37]。尽管这些发展扩大了Q学习的适用范围，但其表示能力仍然有限。这一限制阻碍了在高维多智能体环境中的表现，因为在这些环境中，智能体必须推断复杂的依赖关系并在非平稳动态下进行协调。这些挑战促使人们转向深度强化学习（DRL）框架，以实现更丰富和可扩展的政策表示[38]。这类框架非常适合管理大规模的状态-动作空间，并自然支持多智能体进化环境中的策略梯度方法。

DRL已成为研究高维战略环境中合作的关键分析框架。早期研究表明，神经网络可以有效逼近价值函数，正如深度Q学习所展示的[39]。这一能力支持将RL应用于大规模公共物品环境，在这些环境中，合作可以通过多种学习机制产生[40]。演员-评论家方法推动了这一方向的发展，A3C[41]通过异步更新提高了稳定性，并揭示了社会偏好如何影响多智能体行为[42]。额外的努力探索了基于平均值的追求策略[43]和在复杂网络上的知识驱动合作[44]。近端策略优化（PPO）[45]通过使用截断目标的更新进一步强化了策略梯度方法，这种设计在复杂决策空间中稳定了训练[46]、[47]。PPO及其扩展已成功应用于SPGG[48]、[49]，其中课程策略和以群体为导向的目标改善了合作结果。尽管取得了这些进展，现有的DRL方法在表示细粒度互动模式和稳定空间分布式系统中的合作方面仍面临挑战。这些差距促使人们开发了针对局部协调和复杂进化动态的新多智能体RL框架。

我们引入了一个基于多智能体近端策略优化（MAPPO）[50]的框架，用于分析空间公共物品游戏中的合作动态。与独立学习的PPO不同，MAPPO结合了集中式训练来捕捉由集体互动引起的收益耦合。通过将分散式策略与集中式价值函数相结合，MAPPO在保持分散式执行的同时评估联合策略配置。这种形式自然适用于空间公共物品游戏，在这些游戏中，个体回报取决于群体的重叠参与。传统的进化更新规则往往无法从完全背叛状态恢复合作，并且在强烈的搭便车激励下可能表现出振荡动态。同样，PPO缺乏明确的机制来模拟战略耦合，导致在结构化群体中价值估计不稳定。MAPPO通过提供一致的全局级学习信号解决了这一限制，从而实现了更稳定的长期适应。在此基础上，我们提出了带有局部合作奖励（MAPPO-LCR）的MAPPO，以研究邻域级别的合作信号。局部合作奖励编码了焦点互动群体内的合作密度，并在策略优化期间提供结构化的局部反馈。这种设计使得能够控制分析多智能体深度强化学习如何内化空间合作线索并塑造宏观合作结果。

我们的贡献有三个方面。

•
据我们所知，这是首次将MAPPO应用于SPGG。与PPO相比，MAPPO提供了一个更好地反映集体互动设置中固有耦合收益结构的学**习框架。
•
我们为MAPPO引入了LCR机制，提供了邻域级别的合作反馈，而无需引入额外的敏感超参数。
•
我们进行了受控实验，以研究MAPPO结合LCR如何影响SPGG中的合作出现。结果表明，局部合作反馈可以重塑长期战略配置。

部分摘录

模型

我们在一个周期性的

L \times L

网格上构建了SPGG，每个位置由一个智能体占据。空间互动遵循冯·诺伊曼邻域规则，因此每个个体都与四个正交相邻的位置相连。由于一个焦点智能体也出现在其邻居的邻域中，它成为五个部分重叠的游戏群体的成员。每个智能体选择两种行动之一：合作（C）或背叛（D）。在一个局部群体

g

中，合作者贡献一个单位资源

实验设置

实验在一个200 × 200的格子上进行，采用冯·诺伊曼邻域规则。裁剪系数、GAE参数、熵权重、价值损失权重和折扣因子都遵循TUC-PPO[49]中使用的配置。因此，MAPPO和MAPPO-LCR都采用了Adam优化器[52]，学习率为

1 \times 1 0^{? 3}

，裁剪

? = 0.2

，GAE

λ = 0.95

，熵权重

ρ = 0.001

，价值损失权重

δ = 0.5

，折扣因子

γ = 0.99

。总训练期限为1000次迭代。合作者和

结论

本研究通过多智能体DRL的视角重新定义了SPGG中的合作。通过用策略梯度学习替代基于规则的进化，SPGG被视为一个可学习的集体决策系统。MAPPO使智能体能够在空间中局部行动的同时使用全局级价值信号来调整策略。在MAPPO的基础上，我们研究了局部合作反馈如何影响其学习动态。LCR被引入作为MAPPO的分析工具，而不是对游戏的修改。

CRediT作者贡献声明

赵奇林：写作 – 审稿与编辑，撰写原始草案，验证，方法论，概念化。向阿欣：写作 – 审稿与编辑，调查，概念化。杨凯迪：写作 – 审稿与编辑，验证，软件。刘天军：写作 – 审稿与编辑，可视化，监督。田有亮：监督，资源获取。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了贵州大学自然科学特殊项目（特别岗位）研究基金（编号[2024] 39）、贵州省基础研究计划（自然科学）青年指导项目（编号Qiankehe Foundation QN(2025) 054）的支持。此外，还得到了贵州省科技创新平台项目（编号CXPTXM[2025]024）和公共大数据国家重点实验室基金（编号PBD2023-33）的支持。国家重点研发计划也提供了支持。

联系信箱：

粤ICP备09063491号

摘要

引言

部分摘录

模型

实验设置

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行