一种基于状态自适应权重调整和探索路径采样的新颖多智能体强化学习方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Applied Soft Computing》：A novel multi-agent reinforcement learning approach based on state adaptive weighting and exploration path sampling

【字体：大中小】 时间：2026年03月03日 来源：Applied Soft Computing 6.6

编辑推荐：

　　多智能体强化学习中的动态权重分配与探索策略研究，提出SAW通过动态状态权重网络优化奖励函数，EPS采用好奇心驱动、路径多样性追踪和自适应噪声机制提升探索效率，在多个基准环境中验证其加速收敛和稳定控制效果。

王一晨|郑帅|杨泽|周欣

西安交通大学软件工程学院，中国陕西省西安市710049

摘要

在多智能体强化学习（MARL）中，当前状态与奖励之间的关系对模型的性能至关重要。良好的权重调整能够带来更合理的奖励，从而提升所有智能体的空间探索效率和稳定控制。本文提出了状态自适应加权（SAW）和探索路径采样（EPS）两种强大的设计方法来实现状态权重的调整。SAW利用动态状态加权网络在训练过程中优先考虑信息丰富和决策关键的状态，使智能体能够专注于状态空间中与任务相关的区域，从而提高整体采样效率。EPS引入了一种多方面的探索策略，包括三个部分：一个基于好奇心的模块，通过预测误差生成内在奖励；一个路径多样性追踪器，通过访问奖励鼓励智能体访问新状态；以及一个自适应噪声机制，根据环境的新颖性调节探索强度。本文通过一系列实验验证了这些方法在提升学习速度和探索质量方面的效果。我们的工作为多智能体系统中的效率和稳定性问题提供了有效的解决方案。

引言

多智能体强化学习（MARL）作为强化学习（RL）的一个重要领域，近年来由于其广泛的应用场景（如游戏、机器人控制、交通管理等）而受到越来越多的关注。其核心目标是理解多个智能体如何在共享环境中相互作用、协作并完成任务。在传统的单智能体RL中，智能体通常独立地与环境互动，通过奖励信号学习最优策略。然而，在多智能体环境中，智能体不仅需要在动态环境中做出决策，还需考虑其他智能体的行为和策略以优化整体性能。

MARL中的一个关键挑战是探索效率，尤其是在奖励稀疏的环境中，智能体仅依靠随机探索难以获得有意义的反馈。多智能体系统的非平稳性进一步加剧了这一问题：随着多个智能体同时更新策略，环境不断变化，导致先前学到的策略变得过时。因此，需要更高效的探索机制来应对联合行动空间的复杂性。

近年来流行的MARL算法包括基于近端策略优化（PPO）的方法[5]和基于软演员-评论家（SAC）的方法[6]。这些方法侧重于策略优化和行动空间探索。尽管这些方法在探索效率上取得了显著提升，但固定的权重策略往往无法实现满意的探索速度。

本文提出了两种特定的技术来提高MARL训练任务的收敛速度，即状态自适应加权（SAW）和探索路径采样（EPS）。SAW通过引入一个独立的状态加权网络来解决学习效率和注意力分配问题，该网络能够在训练过程中识别不同状态的重要性，并动态地为复杂、决策关键或信息丰富的状态分配更高的权重，类似于人类关注关键信息的方式。通过打破对所有状态平等对待的假设，SAW在状态重要性差异较大的环境中特别有效。

另一方面，EPS专注于在奖励稀疏的环境中提高探索效率并防止收敛到局部最优解。它建立了一个多层次的探索奖励系统：好奇心模块通过预测误差驱动探索，将模型差异转化为内在奖励；路径多样性追踪器通过跟踪状态访问频率来激励访问新状态；自适应探索噪声模块根据环境的新颖性调整探索噪声水平。

通过SAW和EPS，这些组件能够在奖励稀疏的环境中持续发现有价值的区域，其中SAW决定了学习的内容，EPS改进了学习方法，它们的结合有助于MARL算法更快地收敛。

为了更好地整合SAW和EPS，本文提出了一个基于最新技术异构智能体软演员评论家（HASAC）的新型MARL框架。整体架构如图1所示。通过一系列基准实验（如Petting Zoo、MAMuJoCo等），本文证明了它们相对于现有先进方法的优越性。主要贡献如下：

•

提出SAW，一种动态奖励加权网络，能够有效分配注意力。

•

提出EPS，一种随机探索采样机制，用于防止智能体陷入局部最优解。

•

提出一个新型的MARL框架，并在多个基准实验中验证了其有效性。

近年来，基于智能体间交互模式的MARL研究在三种不同类型任务中取得了显著进展，包括合作型[7]、竞争型[8]和混合型[9]。在合作型MARL中，智能体在共同环境中共享目标，常见于多无人机（UAV）控制系统[10]、[11]、交通信号灯协调控制[12]、[13]和物流配送任务[14]等场景。在竞争型MARL中，多个智能体之间存在竞争关系。

方法

所提出的框架包括两个核心组件：SAW模块和EPS模块。这两个组件协同工作以增强学习过程的收敛性。具体来说，SAW通过提供更具信息性的目标信号来细化学习目标，而EPS则加速策略探索和优化。

实验

为了验证SAW和EPS方法的有效性，我们在多种MARL环境中对这些方法进行了评估，包括MAMuJoCo和PettingZoo基准测试。在实验中，我们将SAW和EPS集成到HASAC框架中，并将其性能与HASAC基线进行比较。此外，我们还与几种先进的MARL算法（如HAPPO和MAPPO）进行了对比，以评估我们方法在合作型和部分竞争型环境下的相对性能。

结论

本文提出了一种新颖且稳健的MARL框架，该框架基于两项关键创新：SAW机制和EPS策略。主要目标是解决复杂MARL任务中常见的收敛缓慢和性能波动问题，尤其是那些包含连续和离散行动空间的任务。

所提出的框架通过确保更稳定和高效的学习动态证明了其有效性。

作者贡献声明

王一晨：撰写——原始草稿、方法论、形式分析、数据整理、概念构建。郑帅：撰写——审稿与编辑、概念构建。杨泽：方法论、形式分析、数据整理、概念构建。周欣：可视化、验证。

利益冲突声明

作者声明没有已知的财务利益冲突或个人关系可能影响本文所述的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

方法

实验

结论

作者贡献声明

利益冲突声明

热点排行