通过深度强化学习实现考虑自动引导车辆运输的灵活作业车间动态调度

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月01日 来源：Future Generation Computer Systems 6.2

编辑推荐：

　　AGV运输优化与动态柔性作业车间调度结合，提出GNN-DRL框架，构建三维图模型整合时空与AGV状态，设计空间多样性充电策略，基于MDP和D3QN实现动态调度，仿真验证收敛快、响应及时和方案多样性优势。

任富杰|刘海斌|黄赫|曹阳

北京工业大学机械与能源工程学院，北京，100124，中国

摘要

随着自动化和智能制造技术的不断进步，自动引导车辆（AGVs）因其灵活性和物料运输效率而在制造系统中得到广泛应用。近年来，人们越来越关注将强化学习方法应用于解决带有AGV运输的动态灵活作业车间调度问题（DFJSP）。然而，大多数现有方法难以处理动态事件，并且经常忽略AGV的充电和放电状态。为了解决这一研究空白，本文提出了一种调度优化框架，该框架将图神经网络（GNN）与深度强化学习（DRL）相结合，以应对在机器故障和紧急任务插入等动态条件下的DFJSP问题。具体而言，构建了一个包含时间和AGV状态信息的三维析取图模型，以简化动态车间中AGV和加工机的集成调度。GNN用于有效提取调度状态特征，同时捕捉机器故障和紧急任务插入等事件引入的不确定性。此外，为了提高AGV充电效率，基于空间多样性提出了一种复合AGV充电站选择策略。最后，将考虑AGV的DFJSP问题形式化为马尔可夫决策过程（MDP），并开发了一个结合图嵌入网络和对抗性双深度Q网络（D3QN）的学习模型进行策略优化。广泛的仿真实验表明，所提出的方法在收敛速度、调度多样性和响应及时性方面表现出色，验证了其在复杂动态制造环境中的实用性和鲁棒性。

引言

生产调度是企业制造过程中的一个核心要素，直接影响制造成本和生产效率。生产调度问题主要由三个部分组成：约束条件、调度目标和调度计划[1]。作业车间调度问题（FJSP）是生产调度的重要组成部分，它是一个NP难组合优化问题[2]。FJSP克服了资源唯一性的约束，几十年来一直受到广泛研究，使其成为该领域研究最多的问题之一。随着调度问题变得越来越复杂和不确定，迫切需要开发有效的方法来解决包含运输约束的灵活作业车间调度问题。

由于AGV具有高灵活性、便利性和强大的端到端能力，它们已被广泛应用于灵活制造系统中的物料处理[3]。许多学者研究了带有AGV运输约束的生产调度问题。然而，一方面，车间内的AGV数量足以满足运输需求[4]；另一方面，尚未考虑AGV的充电和放电等因素[5]。由于AGV分配过程对于加快物流速度、缩短生产周期和提高车间物流智能化至关重要，实际生产中经常发生动态事件。因此，将运输资源约束整合到动态灵活作业车间调度中在实践上具有重要意义，同时也具有理论挑战性。

在学术界，已经广泛研究了具有已知任务信息的静态调度，主要使用数学编程等方法来解决问题[6]。然而，在现代生产车间中，调度过程经常遇到各种问题，如机器故障。在复杂的现代制造环境中，获取所有任务信息可能并不现实。

在解决动态调度问题时，最常见的方法是元启发式算法和预测性动态重构（PDR）。PDR的优势在于它能够在动态事件发生时立即做出反应，但难以实现全局最优[7]。另一方面，元启发式算法通过将动态调度问题分解为一系列静态子问题来解决，从而产生更高质量的调度方案。蚁群优化（ACO）[8]、遗传算法（GA）[9]和粒子群优化（PSO）[10]等算法已在此领域得到广泛应用。这些算法在一定程度上改善了动态调度，但由于算法设计中存在随机因素，解决方案的质量可能不稳定。此外，它们难以处理计划频繁更新的环境。

一些研究人员采用了结合不同算法快速收敛性和鲁棒性的混合算法。例如，邹等人[11]开发了一种针对包含紧急任务插入的DFJSP的增强型混合GA（HFGA），显著加快了选择、交叉、变异和局部搜索等关键遗传操作的执行速度。同样，唐等人[12]引入了一种基于混合教学学习的优化（HTLBO）算法，该算法结合了三层编码方案和多种种群初始化策略，旨在提高解决方案质量和收敛速度。

设计一个有效的PDR系统是一项具有挑战性的任务，需要丰富的领域专业知识，其性能往往有限。相比之下，强化学习（RL）不需要任何预先收集的数据或先验知识；它通过与环境的持续交互高效学习，从而解决现实世界生产中遇到的各种动态事件。然而，传统的基于RL的调度方法通常依赖于大量的试错，并且计算复杂度较高。此外，通过RL方法训练的调度策略通常基于DFJSP的固定规则设计，使其难以适应复杂的调度环境，限制了其实际应用性。

为了解决上述问题，本文提出了一种基于DRL和GNN的端到端方法，用于生成考虑AGV的DFJSP的高质量调度策略。为了有效捕捉动态车间信息，我们构建了一个包含时间和AGV相关因素的扩展三维析取图。此外，我们基于DRL和MDP设计了一个优化模型来解决这个问题。在我们的方法中，DRL框架的两个关键组成部分是图嵌入网络和噪声网络。

GNN是一种用于处理图结构数据的DRL模型。通过处理扩展的三维析取图，它可以捕捉车间的资源状态。在噪声网络中，随机性被嵌入到DRL策略的参数本身中，使模型能够自主探索解决方案空间。这种内化的随机性使策略能够开发出特定于问题的探索策略，消除了手动设计探索机制的需要。

以下总结了我们工作的主要贡献。

•

基于MDP的调度优化：我们构建了一个MDP模型来优化加工机和AGV的调度，同时考虑了机器故障等动态事件。所提出模型的一个关键创新在于它能够同时捕捉任务分配、机器容量和利用率、AGV时间约束以及空间和时间调度模式。

•

AGV充电站策略：我们提出了一种基于空间多样性的AGV充电站选择策略，综合考虑了行驶距离、能耗、等待时间和AGV的空间分布等因素。

•

基于图的DRL调度框架：使用3D析取图和图嵌入开发了一个深度强化学习框架，以实现动态环境中AGV和机器的自适应和协调调度。

本文的其余部分组织如下。第2节回顾了灵活制造系统中动态调度的相关研究。第3节介绍了所提出的AGV充电站复合选择策略算法、扩展析取图和其他相关概念。第4节介绍了考虑AGV的DFJSP的数学模型。第5节描述了基于DRL的调度算法模型。第6节展示了实验设置和结果。最后，第7节提供了结论并概述了未来研究的方向。

问题建模和图表示

本节介绍了AGV集成动态灵活作业车间调度问题的建模，包括能源和电池模型、复合充电策略以及扩展的三维析取图表示。

问题表述

本研究旨在优化带有AGV运输的DFJSP，同时考虑AGV充电和放电、机器故障和紧急任务插入等动态事件。目标是最大化能源利用率并最小化所有任务的总延迟。

建模框架

本研究利用D3QN算法对调度模型进行无监督训练。首先，在具有多种约束和干扰的生产环境中，构建了一个扩展的三维析取图作为输入。提取GNN特征，并通过训练有素的决策模型生成最优调度规则，从而实现有效的任务调度。使用DRL解决调度问题的一个关键部分是构建问题框架

实验和结果分析

在本节中，我们首先介绍了所提出模型的详细训练过程和参数设置。随后，模拟了一个类似于现实世界制造场景的灵活作业车间环境，以全面评估所提出调度方法的性能。评估标准包括调度效率、不同任务规模下的机器利用率以及其他相关性能指标。此外，所提出的方法还

结论

本文提出了一种改进的D3QN，用于解决带有AGV运输的DFJSP问题。首先，开发了一个三维操作-机器-AGV析取图，并使用GNN提取有效捕捉车间状态的特征。其次，考虑到AGV充电策略，提出了一种基于空间多样性的复合AGV充电站选择方法。此外，还构建了一个MDP模型来优化相互依赖的

CRediT作者贡献声明

任富杰：撰写 – 审稿与编辑、方法论、调查、概念化。刘海斌：可视化、验证、项目管理、资金获取、形式分析。黄赫：撰写 – 原始草稿、方法论、数据管理。曹阳：验证、形式分析。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

任富杰正在北京工业大学攻读计算机科学与技术博士学位。他于2018年获得北京工业大学计算机科学与技术硕士学位。他的主要研究兴趣包括联邦学习、深度学习和隐私保护。

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究

相关工作