生产调度是企业制造过程中的一个核心要素,直接影响制造成本和生产效率。生产调度问题主要由三个部分组成:约束条件、调度目标和调度计划[1]。作业车间调度问题(FJSP)是生产调度的重要组成部分,它是一个NP难组合优化问题[2]。FJSP克服了资源唯一性的约束,几十年来一直受到广泛研究,使其成为该领域研究最多的问题之一。随着调度问题变得越来越复杂和不确定,迫切需要开发有效的方法来解决包含运输约束的灵活作业车间调度问题。
由于AGV具有高灵活性、便利性和强大的端到端能力,它们已被广泛应用于灵活制造系统中的物料处理[3]。许多学者研究了带有AGV运输约束的生产调度问题。然而,一方面,车间内的AGV数量足以满足运输需求[4];另一方面,尚未考虑AGV的充电和放电等因素[5]。由于AGV分配过程对于加快物流速度、缩短生产周期和提高车间物流智能化至关重要,实际生产中经常发生动态事件。因此,将运输资源约束整合到动态灵活作业车间调度中在实践上具有重要意义,同时也具有理论挑战性。
在学术界,已经广泛研究了具有已知任务信息的静态调度,主要使用数学编程等方法来解决问题[6]。然而,在现代生产车间中,调度过程经常遇到各种问题,如机器故障。在复杂的现代制造环境中,获取所有任务信息可能并不现实。
在解决动态调度问题时,最常见的方法是元启发式算法和预测性动态重构(PDR)。PDR的优势在于它能够在动态事件发生时立即做出反应,但难以实现全局最优[7]。另一方面,元启发式算法通过将动态调度问题分解为一系列静态子问题来解决,从而产生更高质量的调度方案。蚁群优化(ACO)[8]、遗传算法(GA)[9]和粒子群优化(PSO)[10]等算法已在此领域得到广泛应用。这些算法在一定程度上改善了动态调度,但由于算法设计中存在随机因素,解决方案的质量可能不稳定。此外,它们难以处理计划频繁更新的环境。
一些研究人员采用了结合不同算法快速收敛性和鲁棒性的混合算法。例如,邹等人[11]开发了一种针对包含紧急任务插入的DFJSP的增强型混合GA(HFGA),显著加快了选择、交叉、变异和局部搜索等关键遗传操作的执行速度。同样,唐等人[12]引入了一种基于混合教学学习的优化(HTLBO)算法,该算法结合了三层编码方案和多种种群初始化策略,旨在提高解决方案质量和收敛速度。
设计一个有效的PDR系统是一项具有挑战性的任务,需要丰富的领域专业知识,其性能往往有限。相比之下,强化学习(RL)不需要任何预先收集的数据或先验知识;它通过与环境的持续交互高效学习,从而解决现实世界生产中遇到的各种动态事件。然而,传统的基于RL的调度方法通常依赖于大量的试错,并且计算复杂度较高。此外,通过RL方法训练的调度策略通常基于DFJSP的固定规则设计,使其难以适应复杂的调度环境,限制了其实际应用性。
为了解决上述问题,本文提出了一种基于DRL和GNN的端到端方法,用于生成考虑AGV的DFJSP的高质量调度策略。为了有效捕捉动态车间信息,我们构建了一个包含时间和AGV相关因素的扩展三维析取图。此外,我们基于DRL和MDP设计了一个优化模型来解决这个问题。在我们的方法中,DRL框架的两个关键组成部分是图嵌入网络和噪声网络。
GNN是一种用于处理图结构数据的DRL模型。通过处理扩展的三维析取图,它可以捕捉车间的资源状态。在噪声网络中,随机性被嵌入到DRL策略的参数本身中,使模型能够自主探索解决方案空间。这种内化的随机性使策略能够开发出特定于问题的探索策略,消除了手动设计探索机制的需要。
以下总结了我们工作的主要贡献。
•基于MDP的调度优化:我们构建了一个MDP模型来优化加工机和AGV的调度,同时考虑了机器故障等动态事件。所提出模型的一个关键创新在于它能够同时捕捉任务分配、机器容量和利用率、AGV时间约束以及空间和时间调度模式。
•AGV充电站策略:我们提出了一种基于空间多样性的AGV充电站选择策略,综合考虑了行驶距离、能耗、等待时间和AGV的空间分布等因素。
•基于图的DRL调度框架:使用3D析取图和图嵌入开发了一个深度强化学习框架,以实现动态环境中AGV和机器的自适应和协调调度。
本文的其余部分组织如下。第2节回顾了灵活制造系统中动态调度的相关研究。第3节介绍了所提出的AGV充电站复合选择策略算法、扩展析取图和其他相关概念。第4节介绍了考虑AGV的DFJSP的数学模型。第5节描述了基于DRL的调度算法模型。第6节展示了实验设置和结果。最后,第7节提供了结论并概述了未来研究的方向。