考虑能源消耗的安全约束的多智能体近端策略优化在多机器人协作中的应用作者：Yassin Abdelmeguid 和 Ammar Hasan

《Robotics》：Energy-Aware Multi-Agent Proximal Policy Optimization with Depletion Safety Constraints for Multi-Robot Coordination Yassin Abdelmeguid and Ammar Hasan

【字体：大中小】 时间：2026年05月11日 来源：Robotics 3.3

编辑推荐：

　　摘要：依赖电池供电的多机器人系统面临根本性的限制，这些能源限制直接影响到任务的成功。现有的多智能体强化学习方法在没有明确考虑能源消耗的情况下优化任务性能，从而导致能源使用效率低下和耗尽风险。本文提出了一个基于能源意识的多智能体协调框架，将电池管理视为一个安全约束，而不是优化目标。

　　摘要：依赖电池供电的多机器人系统面临根本性的限制，这些能源限制直接影响到任务的成功。现有的多智能体强化学习方法在没有明确考虑能源消耗的情况下优化任务性能，从而导致能源使用效率低下和耗尽风险。本文提出了一个基于能源意识的多智能体协调框架，将电池管理视为一个安全约束，而不是优化目标。我们引入了能量感知的多智能体近端策略优化（EA-MAPPO），该算法采用增强型观测值和塑形奖励，并将其扩展为结合预测性动作屏蔽与安全导向奖励塑形的Safe Energy-Aware MAPPO（SEA-MAPPO）。在佐治亚理工学院Robotarium上进行的实验验证表明，SEA-MAPPO的完成任务成功率达到了95%，速度是标准MAPPO的19倍，仅需0.5百万个环境步骤，而标准MAPPO需要940万个步骤。在整个训练过程中，SEA-MAPPO将累积耗尽事件减少了93%，同时保持了更高的能源效率。在相同的训练预算下，SEA-MAPPO的完成任务成功率达到了100%，而标准MAPPO仅为81.5%。在未经微调的情况下，SEA-MAPPO在GTernal机器人上实现了100%的任务完成率，并且在整个70次机器人试验中都没有发生能源耗尽事件。

1. 引言
多机器人系统已经在仓库物流、农业监测、搜救行动和环境感知等领域成为强有力的解决方案。多个自主机器人的协调通过并行性、冗余性和分布式感知带来了优势。随着这些系统在车队规模和运行持续时间上的扩展，能源管理成为一个限制任务成功和运营可持续性的关键因素。有限的电池容量限制了运行时间，即使是一个机器人的电池提前耗尽也会影响整个团队的任务完成。不同的动作消耗不同的能量，激进的加速比稳态运动消耗更多能量，这使得智能能源管理对于无法依赖持续电源供应的自主移动机器人来说成为一项至关重要的能力。尽管这一点很重要，但大多数多智能体强化学习研究仍然专注于任务中心指标（如完成时间、吞吐量或覆盖范围），而没有进行明确的能源建模。这导致了虽然能够完成任务，但表现出问题性能源行为的策略，包括不必要的激进操作、无法在团队中平衡工作负荷，以及个别机器人电池电量降至临界值而其他机器人资源未被充分利用。这种不考虑能源的策略削弱了运营的可持续性，并通过电池耗尽带来了任务失败的风险。本文通过以下贡献解决了以任务为中心的多智能体协调与实际机器人部署中的能源现实之间的差距：

- 问题表述：我们将能源感知的多机器人协调描述为一个具有明确电池动态的受限去中心化部分可观测马尔可夫决策过程，其中电池耗尽被视为任务失败。
- 能源感知算法：我们提出了能量感知的多智能体近端策略优化（EA-MAPPO），通过增强型观测值和塑形奖励来实现效率和负载平衡。
- 安全能源感知算法：所提出的EA-MAPPO被扩展为Safe Energy-Aware MAPPO（SEA-MAPPO），结合了预测性动作屏蔽和安全导向的奖励塑形，以防止电池耗尽。
- 能源预测器整合：我们整合了一个基于GTernal机器人遥测数据训练的自回归能源预测器[1]，在仿真中实现准确的能源估计，并在部署期间进行动作屏蔽。
- 实证验证：我们证明SEA-MAPPO的完成任务成功率是MAPPO的19倍，同时将累积训练耗尽减少了93%，在相同的训练预算下，SEA-MAPPO的完成任务成功率达到了100%，而MAPPO仅为81.5%。
- 实际部署：我们在未经微调的GTernal机器人上部署了训练好的策略，在70次机器人试验中实现了100%的任务完成率，且没有发生能源耗尽事件。能源预测器在部署过程中实现了准确的能量消耗测量。

本文的其余部分组织如下：第2节回顾相关工作，第3节阐述问题表述，第4节描述能源预测器的整合，第5节介绍算法，第6节详细说明实验评估，第7节进行总结。

2. 相关工作
2.1 多智能体强化学习基础
多智能体深度强化学习使机器人能够通过环境互动学习协作行为。Orr和Dutta [2]总结了在覆盖范围、路径规划和任务分配方面的应用，识别出三种算法家族：基于价值的方法学习动作价值函数、直接优化策略的策略梯度方法，以及结合这两种方法的演员-评论家架构。一个关键范式是集中训练与去中心化执行（CTDE），其中算法在训练期间访问全局信息，但在执行时仅使用本地观测数据。
价值分解方法将联合动作价值函数分解为通过混合网络组合的每个智能体的效用，从而在基于全局奖励的训练中实现去中心化执行。QMIX [3]代表了这一范式，采用单调性约束确保在个别Q值上的贪婪选择产生最佳联合动作，在StarCraft基准测试中，5-27个单元的团队的胜率达到了90-95%。QPLEX [4]通过双向决斗结构进一步扩展了这一方法，在更困难的场景中实现了95-98%的胜率。独立学习者在训练期间分别处理每个智能体，忽略其他智能体。独立近端策略优化（iPPO）将PPO [5]分别应用于每个智能体，每个智能体都有自己的策略和基于本地观测值的价值函数。尽管在理论上受到其他智能体策略在训练期间变化的非平稳性的限制，iPPO作为显示集中信息何时有益的重要基准。
集中评论家方法在训练期间使用能够访问全局状态的评论家，同时在部署时保持去中心化的演员。多智能体深度确定性策略梯度（MADDPG）[6]首次使用集中评论家和深度确定性策略梯度（DDPG）[7]开创了这一范式。多智能体PPO（MAPPO）[8]将PPO扩展到多智能体设置，结合了集中评论家，在合作基准测试中展示了最先进的性能，通常与更复杂的算法相当或超过它们。集中评论家实现了有效的信用分配，而去中心化的演员确保了策略的可部署性。多智能体演员-评论家（MAAC）[9]增加了基于注意力的聚合，适用于超过10个智能体的团队。我们在我们的能源感知扩展中基于MAPPO进行了构建。
我们选择MAPPO作为能源感知扩展的基础，因为它在合作基准测试中表现出了出色的性能。Yu等人[8]表明，MAPPO与价值分解方法（如QMIX [3]）相当或更好，同时实现了更简单的实现和更稳定的训练动态。独立学习者（iPPO）在我们需要区分各个智能体对集体电池保护的贡献的舰队能源协调设置中缺乏必要的集中评论家。
Uwano [10]强调了去中心化部分可观测马尔可夫决策过程（Dec-POMDPs）作为机器人导航中学习智能体的理论框架。在Dec-POMDPs中，智能体通过本地传感器观察部分状态信息，并通过学习的策略进行隐式协调。像深度Q网络（DQN）[11]和异步优势演员-评论家（A3C）[12]这样的基础单智能体算法为多智能体变体提供了通过经验回放和并行训练的构建块，循环架构进一步解决了部分可观测性问题。

2.2 能源感知的多机器人协调
能源问题主要在电池限制严峻的空中机器人技术中受到了关注。Nemer等人[14]研究了用于公平通信覆盖的能源高效无人机（UAV）运动控制，将能源直接纳入状态表示和奖励函数中。他们的深度强化学习方法在尊重UAV能源限制的同时提高了覆盖公平性。Ramezani和Amiri Atashgah [15]引入了具有预测性能源建模的分层强化学习，用于搜救无人机。他们的框架将决策分为高级控制器选择幸存者位置和低级控制器输出连续速度命令两部分。关键创新是一个双向长短期记忆（LSTM）能源预测器，该预测器在195次真实UAV飞行数据上预训练，实现了大约4.5瓦的均方根误差（RMSE）在未见过的测试数据上。一个自适应切换机制在训练初期依赖LSTM预测，当策略价值估计不可靠时使用它，然后在学习到的策略的时间差（TD）误差低于LSTM误差时逐渐停止使用外部预测。实验表明，与分层演员-评论家基线相比，任务成功率为92.4%，而平面Soft Actor-Critic（SAC）为62.2%。
Li等人[16]研究了面向任务的无人机网络的能源感知协同执行，其中电池容量直接影响任务完成。他们的多智能体强化学习方法使每个无人机能够根据当前状态学习协作任务执行和轨迹规划，包括电池电量。实验表明，在不同的任务配置下，成功率至少为80%，当任务密度足够时可以达到100%。
其他方法采用代理指标来鼓励效率，而不进行明确的电池建模。Jeon等人[17]将总行驶距离作为能源代理，与基线相比，报告了38%更多的交付量和30%更好的距离效率。然而，距离代理忽略了通常主导能源预算的加速成本。Said等人[18]采用了严格的预算限制，在超过限制时终止任务，而Singh等人[19]使用受生物启发的元启发式算法进行集群头选择，通过能源平衡的旋转将网络寿命延长了20-26%。
这些方法都有一个共同的限制：它们将能源纯粹作为通过奖励塑形来优化的目标，而不是作为具有硬性保证的安全约束。在任务中途耗尽电池的机器人代表了与次优效率不同的类别失败。我们的工作通过引入动作屏蔽来解决这一差距，该屏蔽通过构造防止违反约束的动作。我们整合的能源预测器专门针对Robotarium平台上的地面机器人动态，因为现有研究主要集中在具有根本不同能源特性的空中平台。

2.3 安全和受限的多智能体强化学习
安全强化学习关注在学习和部署期间满足约束。受限马尔可夫决策过程（CMDP）公式[20]通过成本约束增强目标，通常通过拉格朗日松弛[21]或信任区域方法[22]来处理。Lu等人[23]将去中心化的安全多智能体强化学习表述为分布式CMDPs，推导出具有可证明收敛保证的安全去中心化策略梯度算法，同时满足每个智能体的约束。他们的原始-对偶优化方法同时更新策略参数和拉格朗日乘数，具有证明的收敛属性。
Gu等人[24]推导出多智能体受限策略优化（MACPO），将多机器人系统建模为CMDPs，其中一个联合策略在满足每个智能体成本约束的条件下最大化预期回报。在Safe MAMuJoCo和MARobosuite上进行基准测试时，MACPO在收敛后实现了零约束违反，同时在情节回报方面与无约束基线相当或超过它们。
然而，安全强化学习文献主要集中在碰撞避免和物理损坏预防上，而尽管资源耗尽约束对任务成功同样具有灾难性影响，但相对较少受到关注。一个由于电池故障而导致一个机器人滞留而完成任务的多机器人团队并没有实现任务成功。我们将电池耗尽视为需要与碰撞避免同等正式处理的安全约束，其中动作屏蔽提供了硬性保证，确保策略不会选择导致预测耗尽的动作，类似于屏障证书通过构造防止碰撞的方式。
我们的动作屏蔽方法与拉格朗日和受限优化方法有根本不同。基于CMDP的方法（如CPO [22]和拉格朗日方法[21]将约束视为软性惩罚，通过迭代调整乘数来平衡奖励最大化与约束满足。这些方法提供渐近保证，但在学习过程中允许约束违反。相比之下，动作屏蔽通过构造强制执行约束：在不采样之前从策略的支持中移除不安全的动作，从而从第一步训练开始就防止约束违反。这种硬性保证需要一个预测模型，即我们的能源预测器，在执行前评估动作的安全性，而拉格朗日方法则从经验中学习约束成本。对于电池耗尽，其中单次违反就构成不可逆的任务失败，我们认为在训练期间提供的保证优势超过了额外的建模需求。有关连续领域中安全探索的相关工作[25]也类似地解决了约束满足问题，尽管没有我们采用的预测性屏蔽机制。

2.4 可扩展性和多目标考虑
随着部署从小团队扩展到大团队，计算复杂性和编队稳定性方面出现了挑战[26]。参数共享为所有智能体使用相同的神经网络权重，将N智能体学习转换为在N个并行经验流上的单智能体训练。Gupta等人[27]证明，共享的演员-评论家网络可以为3-100个智能体的团队学习协调行为，与独立学习者相比，参数共享将训练时间减少了5-10倍。遵循这一标准实践[8,28]，我们在框架中所有智能体之间使用参数共享，提高了样本效率，同时自然处理了多智能体优化固有的非平稳性。
能源感知协调涉及多个相互冲突的目标，展现了根本性的权衡。Roijers等人[29]提供了多目标强化学习方法的全面分类，区分了学习单一标量化解决方案的方法和发现帕累托最优策略集的方法。虽然多目标框架提供了处理权衡的原则性方法，但我们的奖励公式通过加权求和将任务目标与能源感知术语结合起来，为PPO算法提供了一个更适合的优化景观，权重调整用于平衡任务性能和能源效率。

3.问题表述
我们将多机器人协调问题构建为一个具有合作结构和能量约束的分布式部分可观测马尔可夫决策过程（Dec-POMDP）。

3.1 Dec-POMDP 定义
系统由以下元组定义：
- N 表示代理的数量，
- 表示全局状态空间，
- 和分别表示代理特定的动作空间和观测空间，
- P 是状态转移函数，
- R 是奖励函数，
- 将全局状态映射到局部观测，
- 是折扣因子，
- 表示能量安全约束。

3.2 状态空间
全局状态对每个机器人 i 编码了以下组件：
- 位置和方向
- 线性和角运动的速度
- 电池电量，其中 1 表示充满电，0 表示完全耗尽
- 任务特定信息，包括目标位置

3.3 电池动态
机器人 i 的电池电量根据以下公式演变：
[公式此处应插入具体的电池电量演变公式]
其中是时间步 t 期间根据电机功率消耗的能量

对于仿真训练，自回归能量预测器 [1] 提供消耗估计。鉴于功率消耗的强时间相关性，预测器依赖于当前速度特征以及最近的功率历史滑动窗口来估计电量。

对于实际部署，电池消耗通过机载 INA260 电源监视器从当前和电压测量值计算得出：
[公式此处应插入具体的电池消耗计算公式]

3.4 观测空间
每个代理 i 收到一个局部观测值，包括位置和方向（）、相对于目标的位移（）、代理自身的电池电量（）以及所有 N 个代理的电池电量（），从而实现车队级别的能量感知。在我们的实验中，个代理的总观测维度为 13。

3.5 动作空间
每个机器人在一个离散的动作空间中操作，包含五种运动原语：
[公式此处应插入具体的动作空间和动作原语]

我们采用离散的动作空间，包含五种与竞技场全局坐标系中的航点位移相对应的运动原语（例如，“上”表示 +Y），遵循已建立的 Robotarium 方法论 [30]。这种表述遵循了 Robotarium 方法论，该理论表明离散的航点动作可以实现有效的多代理协调，而平台的控制李雅普诺夫函数（CLF）和 CBF 控制堆栈负责连续轨迹的执行和碰撞避免。每个离散动作产生一个目标位置，传递给基于 CLF 的位置控制器，该控制器计算达到航点所需的一轮车速度。为了进行动作掩蔽，我们计算 CLF 控制器对每个候选动作产生的确切速度，查询能量预测器，并过滤出预测会导致耗尽的动作。这种分层分离确保了无论策略行为如何，安全性保证始终得到满足，同时实现了精确的能量感知约束执行。

3.6 奖励结构
奖励函数将任务目标与能量考虑结合起来，不同的算法变体使用不同的可用组件子集。
- 任务奖励基于目标距离提供密集的反馈，计算为到目标位置的负欧几里得距离。
- 对于 MAPPO，总奖励简单地为：
[公式此处应插入 MAPPO 的奖励公式]
- EA-MAPPO 进一步增加了能量感知组件。能量效率惩罚阻止了浪费性的消耗，而负载平衡惩罚鼓励了公平的工作负载分配。
- 总 EA-MAPPO 奖励为：
[公式此处应插入 EA-MAPPO 的奖励公式]
- SEA-MAPPO 进一步添加了与安全相关的组件。安全塑形为保持安全电池裕度提供了一个正向信号。
- 当代理保持电池电量高于掩蔽阈值时，会获得准备就绪奖金。
- 当任何机器人耗尽电池时，耗尽惩罚提供了一个强烈的负向信号。
- 总 SEA-MAPPO 奖励为：
[公式此处应插入 SEA-MAPPO 的奖励公式]
这种分级结构实现了可控的消融：EA-MAPPO 仅通过奖励塑形就增加了能量感知，而 SEA-MAPPO 结合了以安全为导向的奖励和动作掩蔽，以实现全面的约束执行。
任务奖励的表述缓解了在稀疏奖励设置中常见的局部最小值问题。负欧几里得距离提供了密集的、单调递增的信号，因为代理接近他们的目标，从而创建了一个没有陷阱的凸奖励景观，这些陷阱可能会困住基于梯度的优化。此外，每个剧集中的目标位置都是随机化的，防止策略记住特定于环境的路径，并鼓励泛化的导航策略。能量感知奖励组件（ , ）是电池状态的类似平滑函数，避免了可能引入局部最优解的不连续性。

3.7 安全约束
核心安全约束要求所有机器人在整个操作过程中保持电池电量高于临界阈值：
[公式此处应插入安全约束公式]
当违反此约束时，机器人被视为耗尽电池。它会移动到竞技场最近的角落，以避免妨碍其他机器人，并在任务成功评估中被视为失败，代表了任务质量的降低。

本研究的新颖之处在于确保电池安全，防止耗尽。碰撞避免通过集成控制屏障函数（CBF）[31] 在较低的控制层得到解决，该函数保证了机器人与人之间的安全，无论高层次的策略行为如何。

3.8 成功指标
任务成功通过多个指标进行评估：
- 目标完成率：每个剧集中达到目标的代理的平均比例。
- 耗尽率：每个剧集中耗尽电池的代理的平均比例。
- 平均最终电池电量：剧集结束时所有代理的平均电池电量。
- 电池电量方差：剧集结束时整个车队的电池电量方差。
- 车队准备就绪度：电池电量高于掩蔽阈值的代理的比例。

一个仅完成所有任务目标但由于机器人耗尽而失败的任务不被视为完全成功。

4. 能量预测器集成
准确的能量预测对于基于仿真的训练和部署期间的动作掩蔽至关重要。Robotarium 仿真器 [30] 提供了机器人运动学和碰撞动力学，但没有模拟电池状态或功率消耗。我们通过集成专门为 GTernal 平台 [1] 开发的自回归能量预测器来解决这一缺口。

4.1 预测器概述
能量预测器利用了一个关键见解，即差动驱动机器人的功率消耗表现出强烈的时间相关性，不同运动模式之间的相关性为滞后 1。这种相关性结构意味着最近的功率历史包含的预测信息远多于当前的运动学状态本身。
预测器是一个轻量级的多层感知器（MLP），具有 7041 个参数，处理一个 11 维输入向量，该向量包括六个速度特征（线速度、角速度、它们的导数和绝对值）以及五个功率历史滞后。该架构在保留的运动模式上取得了 [预测器准确率] 的性能。在随机行走场景中对七台机器人的物理验证显示了平均 [预测器准确率]，证明了对未见过的机器人和行为的零样本转移。

4.2 仿真部署
对于 CTDE 训练，预测器通过维护一个最近的预测缓冲区来自治回归地运行，这些预测缓冲区作为后续步骤的输入。在每个环境步骤中，预测器接收指令速度以及模拟的功率历史缓冲区，并输出以毫瓦为单位的估计功率消耗。这种递归结构能够准确模拟长时间序列中的能量累积，而不需要地面真实的功率读数。
[公式此处应插入预测器的具体运行细节]
预测器在每次推理中运行 224 微秒，实现了平台 30 Hz 控制率 150 倍的实时部署。这为策略推理和更高层次的规划留下了充足的计算预算。

4.3 部署配置
在 GTernal 机器人上的实际操作中，来自机载 INA260 传感器的实际功率测量值替代了预测器的估计值用于状态跟踪。INA260 提供了 10 mW 的精确功率读数，与 30 Hz 的速度指令率同步。动作掩蔽继续使用预测器进行候选动作评估，在选择之前查询每个动作的预期消耗，以过滤出预测会导致耗尽的动作。

这种方法的局限在于动作掩蔽依赖于预测器的准确性。在动态与训练分布差异很大的场景中，预测器误差可能导致不适当的掩蔽。基于阈值的回退提供了稳健性，预测器在未见过的机器人上的强大表现表明了合理的泛化能力，但在具有根本不同功率特性的平台上部署时可能需要重新训练。

5. 方法论
我们提出了一种基于多智能体近端策略优化的算法进展。

5.1 网络架构
演员网络和评论家网络都采用基于门控循环单元（GRU）的架构来捕捉观测序列中的时间依赖性。因为我们的问题被构建为一个 Dec-POMDP，前馈网络会受到感知混叠的影响，即相同的观测可能根据未观察到的时间上下文需要不同的动作。循环架构将动作-观测历史汇总为潜在的状态表示 [8]。我们使用 GRU 而不是 LSTM，因为 GRU 在参数数量大约减少 25% 的情况下实现了等效的渐近性能，从而减少了分散式部署的推理延迟。
演员网络通过以下结构处理代理观测：
[公式此处应插入演员网络的处理过程]
输出产生五个离散动作的逻辑值，通过 softmax（或 SEA-MAPPO 的掩蔽 softmax）转换为概率。

评论家网络通过以下方式处理全局状态：
[公式此处应插入评论家网络的处理过程]
我们根据 MAPPO 实施指南 [8] 选择了 256 个隐藏单元，这根据任务复杂性调整了网络容量。我们 13 维的观测空间编码了空间和能量动态，表示中等复杂性，因此 256 是合适的配置。这个选择与 Edinburgh 大学的 Autonomous Agents Research Group （EPyMARL (v2.0.0) 的基准测试默认值 [32] 一致。参数共享在所有代理之间使用，通过将所有代理的经验汇集到统一的优化步骤中来提高样本效率 [28]。行为多样性通过观测条件自然产生，因为每个代理的独特位置和能量状态产生了专门的动作，尽管权重是共享的。

5.2 MAPPO 基础
MAPPO 将近端策略优化扩展到多代理设置，其中中央评论家在训练期间观察全局状态，同时在部署时保持分散的演员。每个代理维护一个策略（），将局部观测映射到动作分布，共享的评论家（）使用完整信息评估状态。策略更新以最大化裁剪后的替代目标：
[公式此处应插入策略更新公式]
其中是概率比率，是限制策略更新到信任区域的裁剪参数，是通过广义优势估计计算出的优势估计。

5.3 EA-MAPPO
能量感知 MAPPO（EA-MAPPO）通过增加能量感知的观测值和塑形奖励来扩展 MAPPO 的基础，同时保持核心算法不变。
代理观测包括第 3 节中指定的电池信息，使策略能够根据个体和集体能量状态来条件化决策。完整的车队电池向量（）为每个代理提供了完整的能量感知。
奖励函数包括能量效率惩罚（）和负载平衡惩罚（）。这些权重通过网格搜索在和上确定，选择了在任务完成和车队能量方差之间实现最佳权衡的配置。能量惩罚大约占典型每步任务奖励大小的 40%，影响了学习，但不会主导任务目标。这种配置代表了能量感知多智能体强化学习文献中的标准方法，其中能量目标完全通过奖励工程来实现，而没有显式的安全机制。
EA-MAPPO 表明，当通过奖励激励时，策略可以学习到更节能的行为。然而，虽然奖励塑形鼓励了节能行为，但它没有提供硬性保证，优化预期回报的策略仍然可能选择可能导致耗尽的动作，当任务奖励主导能量惩罚时。

5.4 SEA-MAPPO
安全感知 MAPPO（SEA-MAPPO）在 EA-MAPPO 的基础上增加了预测动作掩蔽和以安全为导向的奖励塑形，实现了全面的约束执行。
给定当前的电池电量（）和能量预测器（），动作掩蔽机制排除了预测会导致约束违反的动作：
[公式此处应插入动作掩蔽公式]
其中是自回归预测器使用的最近功率历史。
策略网络为所有动作输出逻辑值，掩蔽修改 softmax 归一化以仅考虑有效动作：
[公式此处应插入掩蔽公式]
这种表述确保了采样的动作满足电池约束，假设预测器准确。策略在有效动作子空间内学习，随着电池电量的耗尽和有效集的缩小而自然调整行为。

除了动作掩蔽外，SEA-MAPPO 还增加了与安全相关的奖励组件。在保持 EA-MAPPO 基础权重不变的情况下，我们对安全相关参数进行了 60 次试验的贝叶斯优化。这产生了安全塑形，为保持电池电量高于临界阈值提供了正向信号，为保持在掩蔽阈值以上提供了 0.1 的准备就绪奖金，以及对于灾难性电池耗尽的耗尽惩罚。参数敏感性分析的详细信息，包括搜索范围和敏感性模式，在附录 A 中提供。耗尽惩罚相对于其他奖励组件有意设置得较大，确保电池耗尽被视为灾难性的任务失败，而不是一个宽松的优化权衡。掩蔽阈值（0.155）设置为临界阈值（0.15）以上 0.005，以提供吸收预测器不确定性的安全裕度。这些组件通过在掩蔽激活之前就将策略塑形为节能行为来补充动作掩蔽。
在实践中，我们实现了基于阈值的掩蔽，当电池电量低于阈值（）时，移动动作（上、下、左、右）被掩蔽，而空动作始终有效。这提供了一种独立于预测器准确性的保守安全机制，适用于接近临界电池状态的情况。
临界阈值（）代表了安全操作所需的最低电池电量，由平台特性和任务要求确定，而不是算法调整。对于GTernal平台而言，这个数值确保了足够的能量来执行 failsafe （安全）退避行为（移动到最近的活动领域角落），同时保持适合电机控制的电压水平。遮罩阈值在基础值之上增加了0.005的余量，以吸收预测的不确定性。这个余量的选择基于预测器的准确性：在保留的验证数据上，平均绝对误差为31.5毫瓦[1]，而典型的功耗大约为3.5瓦，因此单步预测误差低于1%。0.005的余量（相对于基础值的3.3%）可以吸收大约5-6步的最坏情况累积误差，从而在不过度限制行动空间的情况下提供了对预测器不准确的鲁棒性。在新平台上部署时，实践者应根据硬件规格（最小安全放电水平、failsafe能量需求）来设置阈值，并且余量应与预期的预测器误差成比例。更多能量密集型的行动、更长的任务周期或更高的预测器不确定性需要更大的余量。基于阈值的回退机制意味着，每当电池电量低于阈值时，无论预测器输出如何，都会屏蔽相应的行动，这为电池电量接近临界状态时提供了额外的安全层。

## 5.5. 集中式训练与分散式执行
EA-MAPPO和SEA-MAPPO都在集中式训练与分散式执行（CTDE）范式下运行。在训练期间，集中式的评论家可以访问全局状态——包括所有代理的位置、速度和电池电量——从而在整个车队中有效地分配信用。在执行阶段，每个执行者仅根据其本地观测结果进行决策，该观测结果是一个固定的13维向量，包含代理的姿态、目标位移和车队的能量状态。车队的电池状态由每个时间步的N个标量值组成，这与多机器人协调系统通常共享的目标位置具有相当的带宽，并且不需要学习通信协议[33,34]，后者会增加可训练参数和消息传递的复杂性。Robotarium通过其标准API提供这种遥测功能，该功能兼容那些具有定期任务状态广播的平台。有了车队能量状态，该框架可以实现协调的能量感知行为，每个代理都会考虑整体的电池状态，而行动屏蔽则提供了防止耗尽的正式保障。

基于阈值的屏蔽的一个限制是，需要调整阈值以平衡安全性和任务性能。不同的场景可能适合不同的阈值，而对于更耗能的任务，可能需要更大的余量。

## 6. 实验评估
### 6.1. 实验设置
实验使用了乔治亚理工学院的Robotarium[30]，这是一个远程可访问的群体机器人测试平台，提供带有内置功率监测功能的GTernal差动驱动机器人[35]，能够实现精确的能量跟踪。GTernal平台的尺寸为11厘米×9.5厘米，最大线性速度约为26厘米/秒。Robotarium API提供每个时间步的功率读数、基于控制李雅普诺夫函数（CLF）的位置控制以及基于控制屏障函数（CBF）的碰撞避免功能，如图1所示。我们在“导航”场景中进行了评估，每个机器人必须到达一个每集随机分配的目标位置。当所有机器人都达到目标或达到最大步数限制时，集就会被终止。这种场景隔离了协调和能量管理的挑战，要求代理在保持电池电量的同时高效导航并避免耗尽。七个代理的配置旨在在计算可行性与足够的车队密度之间取得平衡，以引发有意义的多代理互动和能量竞争。表1、表2和表3总结了环境参数、训练超参数和奖励组件。

### 6.2. 训练协议和算法配置
训练采用了基于收敛的早期停止策略，当连续500次策略更新（大约80万环境步）中测试目标完成率超过95%时，训练就会终止，这表明策略已经收敛。这种自适应的停止标准通过在收敛时评估每种算法来确保公平比较，而不是在固定的计算预算下进行。SEA-MAPPO由于行动屏蔽减少了探索空间以及安全奖励的塑造作用，因此收敛速度最快，大约需要1000万环境步；其次是EA-MAPPO，需要大约1150万步；而普通的MAPPO则需要大约1500万步，因为它必须在没有明确指导的情况下发现节能行为。

训练指标通过贪婪滚动（确定性argmax动作）在64个并行测试环境中每1%的训练时间进行评估，以确保统计稳定性。训练指标在每次策略更新时都会被记录，并包括来自随机动作采样的探索噪声。表4报告了达到每个阈值所需的环境步数样本效率，这是强化学习中比较学习速度的标准指标。由于训练的不稳定性，MAPPO在首次超过95%的完成率后会有波动，如图2所示。表5中报告的1000万步时81.5%的目标完成率反映了这种波动性，而不是矛盾。稳定的收敛定义为连续500次策略更新期间性能持续保持在95%以上，MAPPO需要大约1500万步，EA-MAPPO需要1150万步，SEA-MAPPO需要1000万步。值得注意的是，尽管EA-MAPPO的初始进展较慢，但它达到了更快的稳定收敛，因为多目标奖励环境最终有助于学习节能行为。

### 6.3. 结果
表4展示了SEA-MAPPO的样本效率优势。行动屏蔽和安全奖励的结合使SEA-MAPPO仅用0.49百万环境步就达到了95%的目标完成率，比MAPPO（936万步）和EA-MAPPO（1021万步）快了19倍。这种改进是因为行动屏蔽消除了不安全的探索，使得策略能够专注于所有解决方案都可行的受限行动子空间进行学习。表5比较了在1000万环境步时的任务性能，此时SEA-MAPPO已经收敛。在这个固定的训练预算下，MAPPO的目标完成率仅为81.5%，而通过能量奖励的塑造，EA-MAPPO提高到了91.6%。SEA-MAPPO实现了完美的100%目标完成率。

表6量化了训练的稳定性。MAPPO的峰值耗尽率为49.1%（几乎有一半的车队在单次任务中耗尽了电量），在1511个评估点中耗尽率超过了10%。SEA-MAPPO通过奖励激励将高耗尽率降低到了359个点，显著提高了稳定性，只有50个点的耗尽率超过了10%，并且在目标完成率（0.159对比0.339）和耗尽率（0.017对比0.076）方面具有最低的方差。表7展示了整个训练过程中的累计性能。SEA-MAPPO在其整个训练过程中实现了平均95.5%的目标完成率，而MAPPO为61.2%，EA-MAPPO为70.6%。表8报告了包括完整统计特征的能源保存和车队准备情况。图2展示了在整个训练过程中通过贪婪滚动评估的目标完成率。图3显示了训练期间的耗尽率，其中MAPPO在早期训练中的峰值耗尽率接近0.5，并且存在持续的方差，而SEA-MAPPO在前200万步内将耗尽率降至接近零，并在整个训练过程中保持这一水平。图4分析了训练期间的平均车队电池保存情况，SEA-MAPPO始终保持了最多的能量，最终平均电池电量约为0.80。图5展示了训练期间的车队电池方差，其中SEA-MAPPO的方差最小（大约0.03–0.04），表明行动屏蔽结合安全奖励不仅防止了耗尽，还促进了车队内更公平的能量分配。

表6量化了训练的稳定性。MAPPO的峰值耗尽率为49.1%（几乎有一半的车队在单次任务中耗尽了电量），有1511个评估点的耗尽率超过了10%。SEA-MAPPO通过奖励激励将高耗尽率降低到了359个点，显著提高了稳定性，只有50个点的耗尽率超过了10%，并且在目标完成率（0.159对比0.339）和耗尽率（0.017对比0.076）方面的方差最小。表7展示了所有训练过程中的累计性能。图8展示了所有训练过程中的平均目标完成率。图2展示了通过贪婪滚动在整个训练过程中评估的目标完成率。SEA-MAPPO在最初的0.5百万环境步内就实现了接近完美的目标完成率，证明了行动屏蔽和安全奖励带来的样本效率提升。图3显示了训练期间的耗尽率，其中MAPPO在早期训练中的峰值耗尽率接近0.5，并且存在持续的方差，而SEA-MAPPO在前200万步内将耗尽率降至接近零，并在整个训练过程中保持了这一水平。图4分析了训练期间的平均车队电池保存情况，SEA-MAPPO始终保持了最多的能量。图5显示了训练期间的车队电池方差，其中SEA-MAPPO的方差最小，表明它具有更好的负载平衡能力。图6展示了训练期间的车队准备情况，SEA-MAPPO迅速达到了近乎完美的准备状态，而MAPPO则表现出波动较大的轨迹。图7展示了训练期间的 episodic 回报，其中SEA-MAPPO展示了最快的改进和最低的方差。图8总结了五种不同种子下的收敛性能。在收敛时，所有算法都实现了高目标完成率，但SEA-MAPPO在能源效率（0.809对比0.727的平均电池电量）、负载平衡（0.032对比0.047的方差）和车队准备情况（99.8%对比94.6%）方面保持了优势。关键发现是SEA-MAPPO在大约1000万步内就达到了这一性能水平，而MAPPO需要1500万步；同时SEA-MAPPO在整个训练过程中保持安全保障，而MAPPO在学习过程中经历了多次耗尽事件。

### 6.4. 物理部署
为了验证从模拟到现实的迁移，我们在Robotarium设施中将完全在模拟环境中训练的SEA-MAPPO策略部署到了真实的GTernal机器人上。迁移过程分为三个阶段。首先，在进行任何策略训练之前，能量预测器在真实机器人遥测数据上进行了训练，以确保模拟的能量动态与现实世界的消耗模式相匹配。其次，在模拟环境中使用Robotarium的物理引擎进行运动学和碰撞动力学训练，并结合基于预测器的能量估计。最后，将训练好的策略直接部署到真实机器人上，无需微调或领域适应，模拟中学习的权重在硬件上直接执行，不作任何更改。在物理操作期间，INA260传感器的实际功率测量值（10毫瓦分辨率）取代了电池状态跟踪的预测器估计值，为每个时间步提供了真实的能量水平。行动屏蔽继续使用预测器来评估候选动作，在选择之前查询每个动作的预期消耗。这种混合方法——即使用真实数据观察状态，使用预测器过滤动作——确保了准确的电池跟踪，同时保持了训练期间建立的安全保障。成功迁移的关键因素是预测器的零样本泛化能力：它在结构化的运动原语的遥测数据上进行了训练，能够在执行的碰撞避免场景中泛化到未见过的机器人[1]。这种泛化能力来自于预测器对速度特征和功率历史的依赖，而不是特定于轨迹的模式，使得它对训练出的新行为具有鲁棒性。

每种算法进行了十次部署试验，每个机器人执行“导航”场景。机器人位置由Robotarium的Vicon运动捕捉系统以最高120赫兹的频率和亚毫米级的精度进行跟踪。每次试验都使用了随机化的目标分配，以确保评估条件的多样性。表9总结了部署结果。SEA-MAPPO在所有70次机器人试验中实现了完美的目标完成率，且没有耗尽事件，证明了无需微调就能成功实现从模拟到现实的迁移。预测器在导航部署期间的测量功率消耗与多机器人随机行走验证中报道的结果一致[1]，如图8所示。表9展示了在Robotarium上使用GTernal机器人的物理部署结果。学习到的策略成功迁移，性能与模拟结果一致，验证了能量预测器的准确性和整个框架的有效性。剩余的预测误差来自包括温度依赖的电机效率变化、模拟与物理场地之间的表面摩擦差异，以及电池电量状态对电压的影响等因素，这些因素会影响功率消耗。基于阈值的屏蔽机制通过保持保守的余量（相对于基础值）来吸收这些预测误差，从而提高了稳定性。

### 6.5. 可扩展性分析
为了评估SEA-MAPPO随着车队规模的变化而扩展的能力，我们使用了不同数量的代理进行了实验。网络架构在各配置中保持不变——只有输入层根据每个代理的观察结果调整大小以适应车队电池向量。参数共享确保了可训练参数的数量与车队规模无关，所有代理共享相同的策略和价值网络权重。图9显示，SEA-MAPPO在不同的车队规模下都能实现一致的收敛动态。所有三种配置都在类似的训练预算内达到了稳定的回报，表明参数共享和行动屏蔽的结合保持了学习的效率，即使车队规模扩大。图10展示了不同舰队规模下电池平均续航能力的表现。在收敛过程中，平均电池续航能力分别为：对于某一舰队规模为X时为Y，对于另一舰队规模为Y+1时为Z，对于再大一个舰队规模为Z+2时为W。随着舰队规模的增加，电池续航能力略有下降，这反映了在密集环境中的协调复杂性增加——在这些环境中，机器人需要绕过更多的队友才能达成目标。图10还显示了SEA-MAPPO算法在训练期间不同舰队规模下的平均电池续航能力。较大的舰队表现出略低的电池续航能力，表明协调需求增加了。表10总结了安全指标和计算成本。无论舰队规模如何，目标完成率始终保持在100%，这证实了动作掩码技术在舰队规模扩大时的有效性。即使在最大舰队规模下，舰队准备率也保持在98%以上，显示出高效的能量管理能力。推理时间与舰队规模大致呈线性关系，这与观察维度的增加是一致的，并且即使在最大舰队规模下，也完全在Robotarium的30Hz控制循环（33.3毫秒预算）范围内，表明可以支持大大扩展的舰队而不会超出实时限制。

表10显示了SEA-MAPPO在不同舰队规模下的收敛性能。表11总结了理论复杂度。参数共享使得可训练权重的数量保持不变，仅输入层维度随N增加而变化。这种线性缩放使得无需重新设计架构即可部署在更大规模的舰队上。

6.6. 局限性与研究范围
本工作重点关注了由七个机器人组成的舰队导航场景，该配置能够捕捉多机器人协调在能量约束下的核心挑战，同时保持计算上的可行性，便于进行广泛的实验研究。算法组件——能量增强观测、安全奖励调整和预测动作掩码——被设计为通用型，将其应用于其他协调任务（如覆盖范围控制或编队控制）主要涉及调整奖励权重和掩码阈值，而不是进行架构更改。能量预测器是根据这些机器人的遥测数据训练得来的，专门针对GTernal差速驱动平台进行优化。如果要将其部署在具有不同运动或能耗特性的平台上，则需要收集该平台的特定遥测数据，并按照第4节描述的方法重新训练预测器。预测器架构本身可以推广到其他差速驱动系统；对于遥测数据收集不可行的平台，可以基于物理的能源模型作为替代方案，并适当调整掩码阈值。

CTDE框架和参数共享机制能够随着舰队规模的变化而扩展，仅在输入层维度上进行调整，如所测试的各种配置中所展示的那样。将这一框架扩展到异构舰队（即机器人具有不同的能源容量或能耗特性）是未来工作的自然方向，可能需要为不同类别的机器人分别设计预测器或调整掩码阈值。

7. 结论
本文提出了一种基于能源意识的多机器人协调框架，将电池管理视为安全约束。我们引入了EA-MAPPO算法，其中包含了能量增强观测和奖励调整，并将其发展为SEA-MAPPO，结合了预测动作掩码和安全导向的奖励调整以实现全面的约束控制。我们方法的核心是集成了一种自回归能量预测器[1]，该预测器能够在仿真中实现精确的能量估计，并在部署过程中执行动作掩码。在佐治亚理工学院的Robotarium上对7个机器人进行的实验表明，SEA-MAPPO在样本效率和训练安全性方面实现了显著提升：SEA-MAPPO的目标完成率比MAPPO快19倍，仅需0.5百万个环境步骤，而MAPPO需要9.4百万个步骤；在训练过程中，SEA-MAPPO将累积耗能事件减少了93%，同时在所有指标上显示出更低的方差。在收敛时，SEA-MAPPO的目标完成率为100%，而MAPPO为81.5%，EA-MAPPO为91.6%，且两者使用的计算资源相同。在GTernal机器人上的实际部署验证了模拟结果与真实情况的转移能力：SEA-MAPPO在70次实验中实现了零耗能事件，同时完美完成了任务目标。该框架表明，当通过动作掩码和奖励调整正确整合安全约束时，可以加速而不是阻碍学习过程。

本研究开发的框架不仅适用于电池耗尽安全问题。通过证明动作掩码结合安全奖励能够有效执行电池安全约束并显著加速收敛过程，我们为其他资源受限的多机器人应用提供了一个通用模板。

热点排行