基于图强化学习辅助的拟态算法的、考虑能源效率的灵活开放式车间调度系统，该系统支持多负载自动引导车辆的运行

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：Energy-aware flexible open shop scheduling with multi-load automated guided vehicle by graph reinforcement learning assisted memetic algorithm

【字体：大中小】 时间：2026年02月20日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　多负载AGV柔性制造车间生产与运输联合调度问题，提出混合整数规划模型，通过图强化学习辅助的改进多目标蜜膜算法实现 Makespan 和能耗双目标优化。实验验证方法在复杂约束下的有效性，为绿色智能制造提供新思路。

谭伟华|陈朝阳|卢明|吴亮宏|陈雷|王曦

湖南科技大学信息与电气工程学院，中国湘潭市，411201

摘要

多负载自动引导车辆（MLAGV）能够同时携带多个作业，与单负载车辆相比具有更高的灵活性。将MLAGV应用于物料搬运系统对于提升现代制造车间的绿色化和效率具有重要意义。然而，现有研究尚未充分解决在灵活的开放式车间环境中，生产和MLAGV运输的集成调度所带来的运营挑战。为此，本文研究了考虑能源消耗的灵活开放式车间调度问题。构建了一个混合整数规划模型，旨在同时最小化MLAGV系统的完工时间和总能耗。为了解决这个问题，提出了一种基于图强化学习的多目标进化算法。该算法采用学习机制来增强局部搜索能力，其中解决方案状态通过结合问题特定知识的图注意力网络架构表示，动作策略则通过具有优先级经验回放的双DQN网络获得。通过与三种现有算法和精确求解器的实验比较，证明了所提出方法的综合性能优势。实际案例研究进一步验证了MLAGV的有效性，并为管理灵活制造车间提供了见解。

引言

由于多样化的客户需求和全球竞争，现代制造业在生产和运输方面需要极高的灵活性，以管理复杂的物料流动（Qin, Xiang, Liu, Han, Wang, 2025; Xin, Lu, Wang, Deng, Shi, Cheng, Kang, 2024）。灵活开放式车间调度问题（FOSP）已成为高度灵活制造环境的代表性模型。与灵活作业车间调度相比，FOSP允许不同的操作执行顺序，这体现在半导体制造、汽车装配和航空航天制造等多个工业领域（Becker, Neufeld, & Buscher, 2025）。然而，由于分离的调度方法无法捕捉到这些决策之间的内在耦合，因此越来越有必要对FOSP和车间运输进行集成优化。

目前，多负载自动引导车辆（MLAGV）在实践中的物料搬运系统中越来越受欢迎（Tang, Wang, Zhan, Xu, 2025; Zhang, Yang, Zhu, Zhang, Gao, Tian, 2026）。与仅在限制性的“取货-送货”运输模式下运行的单负载自动引导车辆（SLAGV）不同（Cheng, Zhang, Meng, Zhang, Gao, Sang, 2025; Han, Cheng, Meng, Zhang, Gao, Zhang, Duan, 2024; Li, Wang, Li, Gao, Fu, Yu, Zhou, 2025），MLAGV可以同时运输多个工件，从而实现更复杂的路由模式，显著提高运输灵活性。如图1所示，应用MLAGV后，完工时间从18小时减少到17小时，行驶距离从22公里减少到14公里。然而，将MLAGV集成到灵活的开放式车间环境中带来了巨大的运营挑战。首先，决策空间急剧扩大，因为需要引入额外的变量来确定操作执行顺序和运输路线。其次，生产和运输中的复杂并行和顺序关系导致了极其复杂的模型约束。此外，车辆能耗取决于负载（Tan, Yuan, Huang, & Liu, 2021），这为解决实际问题提供了优化机会。这些复杂性共同使得带有MLAGV的灵活开放式车间调度问题成为一个特别具有挑战性的优化问题，需要创新的解决方案方法。

几十年来，群体智能启发式方法在FOSP解决方案中占据主导地位，因其效率和适应工业应用中的多目标特性而受到青睐（Jiang, He, Cao, Sun, Peng, 2025; Liu, Wang, Li, Gao, 2023; Mazyavkina, Sviridov, Ivanov, Burnaev, 2021; Yan, Zhang, Tang, Zhang, Lei, 2026）。然而，这些启发式方法严重依赖于专家知识，难以泛化到不同的场景，因为决策空间的隐含结构信息难以手动编码到算法框架中。近年来，人工智能（Bengio, Lodi, & Prouvost, 2021）的快速发展，特别是深度强化学习，激发了将启发式方法与学习机制相结合的混合方法的研究（Wang, Han, Wang, Sang, & Wang, 2025d）。启发式算法的迭代性质与强化学习的马尔可夫决策框架非常契合（Zhang, You, Zhao, Wang, & Zhou, 2025），而深度神经网络在从调度问题的高维约束中提取特征方面表现出色。尽管有这些潜力，但在开发FOSP应用的混合方法方面仍存在重大研究挑战。在构建有效解决方案表示、开发在指数级大的决策空间中的策略学习以及设计多目标优化的奖励机制方面仍存在关键差距。

本文提出了一种基于图强化学习的多目标进化算法（MoMAGRL），有效地将领域知识与学习方法相结合，以实现更优的性能。本文的科学贡献有三个方面：

1)

将AGV的多负载能力引入灵活开放式车间环境，打破了传统单负载模型的限制，展示了具有运营灵活性和复杂运输的现代制造系统的真实情况。

2)

制定了EFOSPMA的混合整数线性规划模型。通过分解运输决策中的取货和送货请求，明确捕捉了多负载AGV的复杂性，同时通过优化负载依赖的能耗和完工时间来解决绿色化问题。

3)

所提出的MoMAGRL提供了一种可转移的设计方法，使群体智能与基于学习的操作符相结合，有效解决可表示为图的组合优化问题。

本文的其余部分安排如下：第2节回顾了与集成生产和运输调度以及调度问题中的强化学习应用相关的研究。第3节定义了EFOSPMA并介绍了数学模型。第4节详细介绍了所提出的MoMAGRL，第5节通过基准测试比较了我们的方法与最先进的方法。最后，第6节总结了本文并讨论了未来的研究方向。

参考文献

文献综述

本节回顾了集成生产和运输调度以及深度强化学习在调度问题应用方面的最新进展。虽然集成框架在全局最优性方面优于分离方法，但它们引入了重大的计算挑战，这激发了对基于智能学习的方法的探索。

问题定义

EFOSPMA定义如下：有一组需要生产的作业J，作业

i \in J

包含一组操作

O_{i}

。有一组可用的机器M用于处理，与之兼容的机器组用于操作 $o_{i j} \in O_{i}$ 。通常，有一个与机器分开的特殊位置，称为装卸（LU）区，在处理前后用于放置作业和MLAGV（Tan et al., 2021）。为了便于建模，LU区被视为一个虚拟区域。

图辅助强化学习多目标进化算法

由于结构简单和性能令人满意，进化算法在车间调度领域得到了广泛应用（Fan, Lei, Song, Liu, Yang, 2025; Huang, Gong, Lu, 2024; Li, Meng, Ullah, Duan, Zhang, Sang, 2025; Tang, Gong, Peng, Zhu, Huang, Luo, 2024; Wei, Tang, Li, Lei, Wang, 2024）。进化算法的核心优势在于基于种群的全局搜索与问题特定的局部搜索之间的协作。

计算实验与讨论

基于提出的EFOSPMA模型和MoMAGRL算法，本节对其有效性进行了实证评估，并讨论了在灵活开放式车间环境中使用MLAGV进行节能调度的见解。

结论与未来展望

通过提出一种新的基于图强化学习的多目标进化算法，解决了生产和多负载AGV调度的能效集成优化问题。通过将轻量级的图注意力网络和D3QPN结合到局部搜索阶段，所提出的方法有效地弥合了策略学习和全局进化探索之间的差距，实现了完工时间和能耗的同时优化。

实验结果

CRediT作者贡献声明

谭伟华：概念化、方法论、软件开发、验证、形式分析、研究、资源获取、数据整理、初稿撰写、审稿与编辑、可视化、资金筹集。陈朝阳：监督、审稿与编辑、可视化、项目管理、资金筹集。卢明：资源获取、可视化、审稿与编辑、资金筹集。吴亮宏：数据整理、审稿与编辑、资金筹集。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号