一种基于多智能体图注意力机制的深度强化学习方法，用于飞机装配动态调度

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ADVANCED ENGINEERING INFORMATICS》：A multi-agent graph attention deep reinforcement learning method for aircraft assembly dynamic scheduling

【字体：大中小】 时间：2026年03月16日 来源：ADVANCED ENGINEERING INFORMATICS 9.9

编辑推荐：

　　飞机装配车间调度问题需动态优化各站作业优先级，同时平衡全局效率与局部完成时间，应对人力与物料约束及频繁干扰。本文提出多智能体DRL框架，融合PPO算法与GAT网络，通过分层状态聚合构建混合critic网络，实现集中训练与分散执行（CTDE）范式下的协作优化，工业案例验证其相比传统规则和DRL方法具有更优的调度平衡率（99.19%）和抗物料延迟干扰能力。

Bolin Chen|Jie Zhang|Xidong Luo|Shoushan Jiang

西北工业大学机械工程学院，中国西安710072

摘要

飞机装配车间调度问题（AAWSP）需要在基于站的生产模式下动态优先安排各项操作，同时受到劳动力可用性和物料供应的严格限制。一个核心挑战是在减少各站作业周期的同时，最大化整个车间的平衡性，尤其是在物料供应延迟等频繁干扰的情况下。然而，现有的深度强化学习（DRL）方法在解决AAWSP时面临三个主要挑战：1）高维的装配状态空间，包括装配操作、工人和物料；2）局部优化目标与全局优化目标之间的固有冲突；3）由物料延迟引起的频繁生产中断。为了解决这些问题，本文提出了一种新颖的多智能体DRL框架，该框架将近端策略优化（PPO）算法与图注意力网络（GAT）相结合。具体而言，该方法将每个装配站建模为一个智能决策代理，该代理配备了一个局部Actor网络，用于学习调度策略，并捕捉图结构化的操作约束。随后，设计了一个混合Critic网络，通过多层状态特征聚合来全面评估全局车间平衡性和局部站的作业周期，从而实现集中训练与分散执行（CTDE）范式下的协调调度优化。通过一个真实飞机最终装配线的工业案例研究验证，所提出的方法在性能上优于六种传统调度规则和两种DRL基准方法，实现了每个站作业周期的减少，并获得了99.19%的生产平衡性。在四种物料供应延迟情景下的鲁棒性测试进一步证实了该方法的运行稳定性，为复杂制造环境中的动态调度提供了可行的解决方案。

引言

工业4.0倡导的以人为中心的制造范式强调了各种熟练工人在制造系统中的不可或缺的作用[1]。这种重视与劳动力可用性的固有限制相结合，需要智能决策方法来有效调度，以维持下一代智能制造的生产率提升。这些挑战在飞机装配车间等复杂领域尤为明显。作为飞机制造系统的关键组成部分，飞机装配车间具有众多装配操作、多样化的劳动力需求以及频繁的物料供应延迟[2]。至关重要的是，每个操作的完成不仅取决于适当技能工人的可用性，还取决于物料的及时交付。因此，解决飞机装配车间调度问题（AAWSP）的有效方案必须超越传统的劳动力数量限制，明确纳入物料供应动态。此外，普遍采用的基于站的生产模式对装配站之间的产品流动施加了拓扑约束，每个站自主管理自己的操作和劳动力。这种分布式结构需要一种调度方案，既能最小化每个站的操作完成时间，又能最大化整个车间的平衡率，这带来了重大的计算和管理挑战。

方法上，作为作业车间调度问题（JSSP）的一个变种，现有的AAWSP解决方法主要包括精确求解方法、元启发式方法和深度强化学习（DRL）方法。基于线性规划（LP）[3]、分支定界（B&B）[4]和约束编程（CP）[5]的精确求解方法，随着制造系统规模的扩大，计算复杂性呈指数级增长。相比之下，包括遗传算法（GA）[6]、粒子群优化（PSO）[7]和蚁群优化（ACO）[8]在内的元启发式方法在解决大规模JSSP时，牺牲了解决方案的全局最优性以换取计算效率。然而，元启发式方法获得的调度方案泛化能力有限，在处理工人缺席和物料延迟等干扰时需要频繁重新校准。此外，实践者通常更倾向于根据优先调度规则（PDR）动态调整操作优先级，因为它们简单且适应性强[9]，尽管规则选择高度依赖专家知识，可能导致长期性能不佳。

深度强化学习（DRL）方法的最新进展使得通过在模拟车间环境中训练智能代理来进行智能决策成为可能[9]，[10]，从而显著改善了动态场景下JSSP的解决方案。利用深度神经网络的强大逼近能力，代理可以根据实时车间状态动态调整操作优先级[11]。然而，现有的单智能体范式对于需要多站协作调度的飞机装配车间来说是不够的，因为它们受到站级作业周期与车间级平衡之间冲突的优化目标的协调限制。此外，由操作、工人和物料组成的高维装配状态空间，以及这些元素之间固有的图结构逻辑关系，限制了现有神经网络模型学习状态-动作调度策略的能力。

为了克服这些限制，我们提出了一个结合图注意力网络（GAT）和近端策略优化（PPO）算法的多智能体协作DRL框架来解决AAWSP。基于集中训练与分散执行（CTDE）范式，每个装配站被建模为一个决策代理，能够根据实时劳动力数量和物料可用性动态调整操作优先级。本文的具体贡献总结如下：

•

为决策代理设计了一个局部Actor网络架构，使其能够根据当前站的操作状态动态选择适当的调度规则，同时捕捉其装配操作之间的固有图结构逻辑约束。

•

通过额外捕捉装配站之间的拓扑关系，设计了一个多层混合Critic网络架构，以全面评估全局车间和局部站的运行状态，使每个代理能够在最小化自身作业周期的同时最大化整个车间的平衡率。

本文的其余部分组织如下：第2节提供了解决JSSP的最新DRL方法的全面回顾。第3节制定了AAWSP的数学模型，并详细介绍了所提出的多智能体图注意力强化学习方法，包括其Actor-Critic网络架构和协作训练过程。第4节通过一个真实飞机最终装配线的工业案例来证明所提出方法的有效性和比较优势，并讨论了该方法在存在物料供应延迟的动态环境中的调度稳定性。最后，第5节总结了主要发现，并提出了未来研究的有希望的方向。

章节摘录

文献综述

本节首先回顾了现有的装配车间调度研究，特别关注所解决的约束和目标。随后，它转向回顾了DRL方法在各种制造系统中的应用。

问题表述

如图1所示，飞机装配车间包含N个串联或并联连接的装配站，每个站负责一组特定的装配操作。每个操作需要协调的多技能装配工人和指定的装配物料包。装配工人被静态分配到每个站，物料包根据预定时间表交付。在这种情况下，装配

工业案例研究

在本节中，通过一个真实飞机最终装配车间的工业案例研究验证了我们提出方法的有效性和优势。首先介绍了该案例的工业背景和操作细节。设计了一系列消融实验来评估所提出方法各组成部分的贡献。具体来说，其中一个消融实验重点关注多层混合Critic网络，展示了其有效指导的能力

结论与讨论

本文解决了飞机装配车间调度问题（AAWSP），旨在优化每个装配站的作业周期和整个车间的平衡率，全面考虑了操作优先级、劳动力数量和物料供应的约束。为了解决这个问题，我们开发了一种新颖的多智能体协作深度强化学习（DRL）框架，将近端策略优化（PPO）与图注意力网络（GAT）相结合。

CRediT作者贡献声明

Bolin Chen：撰写——原始草案、验证、方法论。Jie Zhang：撰写——审阅与编辑、方法论、形式分析、概念化。Xidong Luo：可视化、验证、调查、数据整理。Shoushan Jiang：撰写——审阅与编辑、可视化、监督。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

作者感谢国防工业技术发展计划（JCKY2022205A002）的资助和支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号