高效的多智能体策略适应机制：基于贝叶斯策略重用与视角不变的对比感知技术

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：Efficient multi-agent policy adaptation with Bayesian policy reuse and view-invariant contrastive awareness

【字体：大中小】 时间：2026年02月24日 来源：Neural Networks 6.3

编辑推荐：

　　动态对手建模与策略重用在部分可观测多智能体环境中，通过设计视图不变性对比感知模块（VCA）实现智能体认知共识，利用本地轨迹构建在线信念更新模型，实验验证其相较于基线方法在四个竞技场景中奖励显著提升，对手识别速度更快且更准确。

傅科|陈浩|王宇|刘权|黄健

国防科技大学智能科学与技术学院，中国湖南长沙410073

摘要

贝叶斯策略重用（BPR）是一种通过贝叶斯信念更新从预训练策略库中选择策略的框架，能够有效应对突然改变策略的非静态对手。然而，大多数先前的研究仅限于单一可控代理的设置，并且不存在部分可观测性。在本文中，我们提出了BPR-VCA，它将BPR与多视图对比学习模块相结合，以实现部分可观测多代理环境中的高效策略适应。每个可控代理只能访问其自身的观测轨迹（即自己的观测-动作历史）。为了解决观测限制问题，与依赖于全局对手轨迹或情节奖励的现有BPR方法不同，我们使用局部轨迹作为观测信号。为了应对部分可观测性问题，与使用对手轨迹或情节奖励作为依赖信息的现有基于BPR的算法不同，我们采用局部轨迹作为观测信号。此外，还设计了一个视图不变对比感知（VCA）模块，以促进可控代理之间对全局动态变化的认知共识。具体来说，它整合了同一任务的全局和局部视图，同时确保不同任务的视图被明确区分。利用获得的上下文特征，我们建立了用于去中心化在线信念更新的局部观测模型。在在线去中心化执行过程中，可控代理分别更新它们的信念，最终可以重用最合适的响应联合策略。在四个竞争场景中的实验表明，与最先进的基线相比，BPR-VCA实现了更高的情节和累积奖励、更快更准确的对手识别以及更高的胜率。

引言

多代理系统（MAS）通过在共享环境中与多个代理交互来实现共同或冲突的目标，从而扩展了经典决策问题。多代理强化学习（MARL）是研究MAS的最有效技术之一，并在各种领域取得了巨大进展，包括交通灯控制（Yang等人，2023年）、视频游戏（Wang等人，2022b年）和智能电网控制（Wang等人，2021年）。现有的MARL算法，如QMIX（Rashid等人，2020年）、OPT（Liu等人，2024年）和CACL（Lo等人，2023年），假设队友或对手策略是静态的，因此主要关注静态交互环境中的单任务学习。这些方法的主要目标是使用特定技术（例如，价值分解（Sunehag等人，2018年）和高效通信（Kim等人，2020年）来增强团队成员之间的协调能力。然而，在现实世界场景中，对手策略可能会表现出变异性，表明环境往往是非静态的。例如，在银行业，代理系统面临动态市场环境、不断演变的网络威胁和变化的客户行为（Mensah等人，2024年）。这些挑战可能会影响稳定性。

在非静态环境中的学习仍然具有挑战性，这要求代理能够持续适应变化的对手。这表明代理必须及时更新它们的策略。不幸的是，MARL代理中的采样过程效率低下，阻碍了快速的在线适应。相比之下，基于迁移框架的重用学习策略是一种直接且高效的方法，已被广泛研究（Chen等人，2024年；Fernández和Veloso，2006年；Hernandez-Leal等人，2016年）。这种方法允许对其他代理的策略进行明确分类，而这无法通过隐式对手建模（He等人，2016年；Papoudakis等人，2021年）和元强化学习（Zintgraf等人，2021年）来实现，尽管它们也可以处理非静态问题。

标准的贝叶斯策略重用（BPR）（Rosman等人，2016年）是一个通用的迁移框架，可以在面对未标记（但之前见过）的任务时重用现有的源策略。与依赖特征工程和深度网络进行模式识别的方法（Yonan和Zahra，2023年）不同，BPR维护了一个关于已知策略的“信念分布”。它使用观测信号并根据观测模型动态更新信念。这使得能够识别对手并自适应地切换策略。研究人员将其扩展到针对非静态对手的多代理设置（Hernandez-Leal等人，2016年；Yang等人，2018年），在那里它可以被视为一种显式的对手建模方法。然而，现有的基于BPR的算法存在以下限制：1）可控代理的数量被限制为一个，这使得适应同时出现多个代理的场景变得困难；2）它严重依赖于全面的全局信息，如动态转换或对手轨迹，这使得适应部分可观测的环境变得困难。

为了克服上述限制，本文专注于将BPR扩展到部分可观测的合作MARL任务，其中可控代理以分布式方式执行在线决策。然而，直接将BPR从单一代理设置扩展到我们的场景是不可行的，必须满足以下约束：1）只能使用部分可观测的信息作为观测信号；2）由于使用有限的观测信号难以捕捉全局动态变化，因此必须建立局部观测信息与全局信息之间的关系；3）面对相同任务时，可控代理选择的策略应该保持一致，以实现认知共识。如果可控代理选择的策略不一致，那么产生的联合策略将变得次优甚至无效，从而导致MAS显著下降。

为了解决上述问题，我们提出了一种名为BPR-VCA的方法，该方法将BPR泛化到部分可观测的MAS。值得注意的是，BPR-VCA类似于MARL中常用的集中训练和分布式执行（CTDE）范式。在离线训练期间，可控代理可以访问全局信息，而在在线执行期间，仅依靠每个可控代理的局部轨迹就可以实现对对手策略的一致识别。具体来说，我们使用局部轨迹作为观测信号，以满足多代理设置中的部分可观测性要求。由于代理的变化反映在全球轨迹中，我们利用离线经验构建了视图不变对比感知（VCA）模块，以促进可控代理在上下文特征空间中的认知共识。使用VCA，我们进一步创建了用于去中心化在线信念更新的局部观测模型。然后，可控代理可以根据局部观测模型更新各自的信念，并最终重用最合适的响应联合策略。

我们的贡献总结如下：

•

我们提出了BPR-VCA，这是BPR首次扩展到部分可观测的多代理设置；

•

我们设计了VCA模块，以感知环境中的动态变化并在有限的局部信息下促进可控代理之间的认知共识；

•

我们在四个竞争环境中展示了优越的性能，实现了更高的回报、更快更准确的识别以及更低的信念延迟。

本文的其余部分组织如下：第2节回顾了关于对手建模和对比学习的相关工作。第3节详细介绍了问题的数学表述、BPR中的具体策略重用机制及其信念更新过程。第4节介绍了BPR-VCA算法的具体设计。第5节详细介绍了四个验证环境、实验设置和相应的实验结果，最后第6节总结了本文。

章节片段

对手建模

在MAS中，代理通过准确预测对手的策略或推理他们的意图来优化其决策至关重要。对手建模通过估计相关的对手变量并利用它们进行决策（He等人，2016年）来解决这个问题。早期方法从离线经验中估计对手的状态-动作对的概率分布，例如在MDP-CL（Hernandez-Leal等人，2014年）、DriftER（Hernandez-Leal等人，2017年）和Bayes-Pepper中

问题表述

我们将离线响应策略学习过程建模为去中心化的部分可观测马尔可夫决策过程（Dec-POMDP），遵循MARL中的标准CTDE范式（通常用于竞争游戏（Wang等人，2022b年）、交通灯控制（Yang等人，2023年）和机器人控制（Gu等人，2023年）。我们的框架在集中训练期间假设可以访问全局状态信息，而在去中心化执行期间仅需要局部观测。

方法

在本节中，我们详细介绍了提出的BPR-VCA。如图1所示，BPR-VCA的总体框架包括离线阶段和在线阶段。在离线阶段，所有策略都与

T

单独交互，代理生成的局部交互轨迹被收集（如图1(a)所示）。然后通过VCA模块构建局部观测模型

\overset{?}{T}

。在在线阶段，可控代理计算任务类别概率

环境描述

捕食者-猎物（PP）：我们基于Papoudakis等人（2021年）提出的部分可观测版本构建了一个捕食者-猎物环境，该环境由六个代理和墙壁组成。图2(a)展示了三个捕食者和三个猎物的初始位置，其中猎物只能观察到一定范围内的其他代理。捕食者用红色表示，而猎物用蓝色表示。周围环境由黑色墙壁包围，这些墙壁是不可穿越的

结论

本文关注部分可观测合作MARL任务中的策略重用问题，其中可控代理以分布式方式执行在线决策。为了克服传统基于BPR的方法的局限性——这些方法依赖于全局可观测性并且只支持单个可控代理——我们提出了BPR-VCA，该框架仅从局部轨迹实现了强大的对手策略识别和多代理认知共识。关键组件是VCA

CRediT作者贡献声明

傅科：写作——审阅与编辑，撰写——原始草稿，可视化，验证，软件，方法论，调查，形式分析，概念化。陈浩：写作——审阅与编辑，监督，方法论，调查，概念化。王宇：写作——审阅与编辑，调查，概念化。刘权：写作——审阅与编辑，监督。黄健：监督。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言