由于多样化的客户需求和全球竞争,现代制造业在生产和运输方面需要极高的灵活性,以管理复杂的物料流动(Qin, Xiang, Liu, Han, Wang, 2025; Xin, Lu, Wang, Deng, Shi, Cheng, Kang, 2024)。灵活开放式车间调度问题(FOSP)已成为高度灵活制造环境的代表性模型。与灵活作业车间调度相比,FOSP允许不同的操作执行顺序,这体现在半导体制造、汽车装配和航空航天制造等多个工业领域(Becker, Neufeld, & Buscher, 2025)。然而,由于分离的调度方法无法捕捉到这些决策之间的内在耦合,因此越来越有必要对FOSP和车间运输进行集成优化。
目前,多负载自动引导车辆(MLAGV)在实践中的物料搬运系统中越来越受欢迎(Tang, Wang, Zhan, Xu, 2025; Zhang, Yang, Zhu, Zhang, Gao, Tian, 2026)。与仅在限制性的“取货-送货”运输模式下运行的单负载自动引导车辆(SLAGV)不同(Cheng, Zhang, Meng, Zhang, Gao, Sang, 2025; Han, Cheng, Meng, Zhang, Gao, Zhang, Duan, 2024; Li, Wang, Li, Gao, Fu, Yu, Zhou, 2025),MLAGV可以同时运输多个工件,从而实现更复杂的路由模式,显著提高运输灵活性。如图1所示,应用MLAGV后,完工时间从18小时减少到17小时,行驶距离从22公里减少到14公里。然而,将MLAGV集成到灵活的开放式车间环境中带来了巨大的运营挑战。首先,决策空间急剧扩大,因为需要引入额外的变量来确定操作执行顺序和运输路线。其次,生产和运输中的复杂并行和顺序关系导致了极其复杂的模型约束。此外,车辆能耗取决于负载(Tan, Yuan, Huang, & Liu, 2021),这为解决实际问题提供了优化机会。这些复杂性共同使得带有MLAGV的灵活开放式车间调度问题成为一个特别具有挑战性的优化问题,需要创新的解决方案方法。
几十年来,群体智能启发式方法在FOSP解决方案中占据主导地位,因其效率和适应工业应用中的多目标特性而受到青睐(Jiang, He, Cao, Sun, Peng, 2025; Liu, Wang, Li, Gao, 2023; Mazyavkina, Sviridov, Ivanov, Burnaev, 2021; Yan, Zhang, Tang, Zhang, Lei, 2026)。然而,这些启发式方法严重依赖于专家知识,难以泛化到不同的场景,因为决策空间的隐含结构信息难以手动编码到算法框架中。近年来,人工智能(Bengio, Lodi, & Prouvost, 2021)的快速发展,特别是深度强化学习,激发了将启发式方法与学习机制相结合的混合方法的研究(Wang, Han, Wang, Sang, & Wang, 2025d)。启发式算法的迭代性质与强化学习的马尔可夫决策框架非常契合(Zhang, You, Zhao, Wang, & Zhou, 2025),而深度神经网络在从调度问题的高维约束中提取特征方面表现出色。尽管有这些潜力,但在开发FOSP应用的混合方法方面仍存在重大研究挑战。在构建有效解决方案表示、开发在指数级大的决策空间中的策略学习以及设计多目标优化的奖励机制方面仍存在关键差距。
本文提出了一种基于图强化学习的多目标进化算法(MoMAGRL),有效地将领域知识与学习方法相结合,以实现更优的性能。本文的科学贡献有三个方面:
1)将AGV的多负载能力引入灵活开放式车间环境,打破了传统单负载模型的限制,展示了具有运营灵活性和复杂运输的现代制造系统的真实情况。
2)制定了EFOSPMA的混合整数线性规划模型。通过分解运输决策中的取货和送货请求,明确捕捉了多负载AGV的复杂性,同时通过优化负载依赖的能耗和完工时间来解决绿色化问题。
3)所提出的MoMAGRL提供了一种可转移的设计方法,使群体智能与基于学习的操作符相结合,有效解决可表示为图的组合优化问题。
本文的其余部分安排如下:第2节回顾了与集成生产和运输调度以及调度问题中的强化学习应用相关的研究。第3节定义了EFOSPMA并介绍了数学模型。第4节详细介绍了所提出的MoMAGRL,第5节通过基准测试比较了我们的方法与最先进的方法。最后,第6节总结了本文并讨论了未来的研究方向。