持久资源竞争下具备长期规划的实时多自动导引车调度方法

《Engineering Applications of Artificial Intelligence》：A real-time multi-Automated Guided Vehicles scheduling approach with long-term planning under persistent resource contention

【字体：大中小】 时间：2026年06月07日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　摘要：自动导引车(Automated Guided Vehicles, AGVs)因其灵活性和可扩展性被广泛应用于工业自动化领域，但在高任务并发和严苛时间约束的实际部署中往往面临协调效率低下的问题，传统规划方法多关注短期目标，易导致死锁或资源冲突。针对上述问题

摘要：自动导引车(Automated Guided Vehicles, AGVs)因其灵活性和可扩展性被广泛应用于工业自动化领域，但在高任务并发和严苛时间约束的实际部署中往往面临协调效率低下的问题，传统规划方法多关注短期目标，易导致死锁或资源冲突。针对上述问题，研究人员提出了基于共识的多智能体协作(Consensus-based Multi-Agent Collaboration, CMAC)框架，在单个AGV目标与系统整体性能间取得平衡。CMAC采用多视角观测空间(Multi-View Observation Space)以支持任务分配、调度及路径搜索方面的长时域规划，包含基于局部路径引导的重规划模块以保证实时响应能力，并设计双重奖励机制(Dual Reward Mechanism)联合考量局部效率与全局优化。通过将任务分配与路径协调相融合，CMAC为AGV车队管理提供了实用方案。在四种仓储环境下的实验表明，相较现有方法CMAC在任务完成率与成本效率上均有持续提升，尤其在真实物流作业中常见的密集高需求场景中表现突出。

论文解读：持久资源竞争下具备长期规划的实时多自动导引车(AGV)调度方法——基于共识的多智能体协作(CMAC)框架研究

一、研究背景与意义

自动导引车(Automated Guided Vehicles, AGVs)因灵活性与可扩展性已成为物料配送和仓储物流中不可或缺的设备。然而传统调度方法在高并发、多约束的仓储环境中常引发系统死锁(system deadlock)，AGVs须同时满足任务间严格的时间依赖关系，并动态协调实时路径规划与资源分配，显著增加了系统失效概率。现有研究主要从仓库布局优化和任务/路径规划两方面着手解决死锁：布局优化需精确库存管理且改动成本高；路径规划中，终身多智能体路径寻找(lifelong Multi-Agent Path Finding, MAPF)侧重避碰与总行程最小化，任务分配(Task Assignment, TA)研究则常忽视因局部竞争导致的死锁，虽有部分死锁消解机制但因依赖先验知识而在动态受限环境中实时适应性不足。此外，将全局规划分解为子问题雖提升计算效率，却忽略了智能体间依赖关系对系统整体优化的关键作用。近年来深度强化学习(Deep Reinforcement Learning, DRL)结合多智能体系统被用于解决复杂决策，多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient, MADDPG)可处理冲突与避碰，序列博弈多智能体强化学习及自适应调度策略也有进展，但同时将死锁预防、动态任务调度与协同路径规划整合进长期战略规划与实时调整的AGV解决方案仍较缺乏。该论文发表于《Engineering Applications of Artificial Intelligence》，提出基于共识的多智能体协作(Consensus-based Multi-Agent Collaboration, CMAC)框架，弥补了长期战略规划与实时调整间的鸿沟，对高密度AGV仓储调度具有重要理论与应用价值。

二、主要关键技术方法

研究人员以无向图G=(V,E)建模仓储环境，定义K台AGV集合及N项订单拣选任务，将其描述为马尔可夫决策过程(Markov Decision Process, MDP)。提出CMAC框架包含三大创新：(1)多视角观测空间融合全局仓库状态、个体状态及历史上下文，支持任务—资源—路径多级决策；(2)引入基于增强冲突基搜索(Enhanced Conflict-Based Search, ECBS)引导的局部重规划模块，以无冲突局部轨迹为实时参考，降低在线训练负担并加速收敛；(3)设计双重奖励机制(Dual Reward Mechanism)显式促进协作行为，使个体动作与全局效率对齐以防死锁。算法上将多智能体深度网络(Multi-Agent Deep Network, MADN)与ECBS混合，保证地图上有序移动及路径最优性。对比实验中选取ITA-ECBS、ITA-CBS、ECBS-TA、CBS-TA作路径寻优对比基准，选取FCFA、OPA、NNH作任务分配对比基准，在四种真实仓储布局下评估局部/全局奖励及总任务成本等指标。

三、研究结果

Problem definition

研究人员将仓库物流环境建模为无向图G=(V,E)，V为离散位点、E为可通行路段，定义AGV集合AGVs={agv₁,…,agv_K}及订单拣选任务OP={op₁,…,op_N}，定义各订单装载等待时间，单台AGV货物拣取过程包含订单决策、从当前位至取货点的路径规划等阶段，为后续MDP形式化奠定基础。

Policy representation

研究人员提出基于DRL的框架以优化问题定义中给出的目标函数(Eq.(5))，采用多智能体策略表征，使各AGV能在多视角观测空间下进行任务选择与路径决策。

CMAC algorithm

为实现高效无碰撞导航与任务执行，研究人员将多智能体深度网络(MADN)与ECBS算法结合进行路径决策，该混合框架在计算效率与自适应决策间取得平衡，同时保留路径最优性保证，通过ECBS生成的无冲突局部轨迹引导实时重规划。

Comparison methods

路径寻优方面对比ITA-ECBS、ITA-CBS、ECBS-TA、CBS-TA；任务分配方面对比FCFA、OPA、NNH。评价指标含局部/全局奖励及总任务成本。

Discussion

实验结果显示CMAC通过联合优化全局效率与局部适应性在多AGV仓储中实现更优协调。不同于优先即时任务完成的方法，CMAC双重奖励机制鼓励AGV放弃短期收益以减少系统级拥塞，因此在AGV密度升高时优势扩大。随机但有引导的运动策略有效打破窄通道中的对称性从而避免死锁。CMAC在密集高需求场景下任务完成率与成本效率均优于基线方法。

Conclusion（研究结论翻译）

本研究提出了基于共识的多智能体协作(Consensus-based Multi-Agent Collaboration, CMAC)框架，用于在资源受限仓库中实现可扩展且无死锁的多自动导引车(Automated Guided Vehicle, AGV)协同。通过统一多视角观测、局部路径引导及双重奖励结构，CMAC在无需智能体间通信的情况下兼顾了长期规划与实时响应能力。在四种真实仓储布局下的评估表明，CMAC在任务完成率与总成本效率上持续优于现有先进基线方法，尤其适用于高密度、高并发物流作业场景。

热点排行