在网络化多工厂系统中，通过分层多头深度强化学习算法，实现对机器退化及故障情况的自适应与鲁棒调度

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月12日 来源：Reliability Engineering & System Safety 11

编辑推荐：

　　针对高度定制化网络多工厂系统中机器降解和故障导致的调度鲁棒性问题，提出分层多头深度强化学习（HMH-DRL）方法，通过多目标奖励机制和分层决策结构实现生产与维护的协同优化，实验验证其相比传统方法提升显著。

刘明洲|丁正福|张曦|凌琳|葛茂根|胡静

合肥工业大学机械工程学院，中国合肥230009

摘要

在设备密集型制造业中，机器的退化和故障会威胁系统的稳健性和生产的连续性，而在大规模定制的网络化多工厂系统中，多层耦合和动态协作加剧了这些挑战。本研究针对具有机器退化和故障的网络化多工厂系统（MC-NMFRS-MDB）提出了一个分层多头深度强化学习（HMH-DRL）方法来解决调度问题。该问题被构建为一个多马尔可夫决策过程，其中高维状态空间捕捉退化和故障的动态，双层动作空间处理耦合的子问题，多头奖励机制平衡性能和稳健性。分层多头策略架构实现了协调决策和多目标优化。训练过程采用优先经验回放来提高学习效率，非线性剪裁来稳定策略更新，并通过重新训练机制实现持续适应。数值结果表明，与四种DRL方法、三种元启发式算法和一种基于可靠性的启发式方法相比，HMH-DRL在调度性能和稳健性上分别提高了10.59%和10.98%，证实了其在复杂动态场景中的有效性。

引言

全球制造业正从集约化生产向智能化、灵活化和网络化协作转变。对个性化需求的增长、交货周期的缩短以及不确定性的增加给系统的稳健性和灵活性带来了巨大压力[1]。大规模定制（MC）结合了大规模生产的效率与定制的灵活性，而这种异质性和动态需求进一步加剧了这些挑战[2]、[3]。因此，多工厂协作成为整合跨区域资源和降低中断风险的有效手段[4]、[5]，同时信息技术的进步使得智能工厂能够提高效率和灵活性[6]、[7]。因此，制造系统正从集中式（CMS）向分布式（DMS）演变，调度范式也从集中式调度问题（CSP）向分布式调度问题（DSP）转变。然而，现有研究主要考虑了灵活性有限的并行结构（PDMS），并且通常假设机器的可用性是连续的[8]、[9]、[10]。

在典型的MC行业中，如半导体和高精度电子行业，需求高度定制且不稳定[11]、[12]。网络化分布式制造系统（NDMS）采用串行-并行架构，以实现阶段内的负载平衡协调和跨阶段的流程驱动协作。它们的灵活性和可重构性支持模块化生产和动态适应，从而在复杂的需求条件下提高效率和灵活性[13]、[14]。在供应方面，这些行业高度依赖设备。在半导体制造中，自动化率超过90%，与维护相关的停机时间占非生产时间的40%以上，使得退化、故障和维护成为系统稳健性和生产连续性的主要限制因素[15]。在MC下频繁的产品和工艺切换使机器面临高负载、动态的运行条件，加速了退化并增加了故障风险[3]、[16]、[17]。此外，NDMS中的双重协作放大了机器可用性局部中断的连锁效应，产生了生产和维护决策之间的强时空耦合和动态交互[10]。

总之，在NDMS调度中考虑机器的可用性对于开发稳健的调度机制并在这种工业环境中实现可靠、响应迅速的生产至关重要[18]、[19]、[20]。然而，这个问题具有显著的复杂性和动态不确定性。虽然元启发式和超启发式方法常用于DSP，但它们依赖于离线迭代搜索和快速增加的计算成本，限制了它们在动态环境中的实时决策适用性[21]、[22]、[23]。相比之下，深度强化学习（DRL）利用高维状态表示和实时决策来并行优化耦合的子问题，通过经验积累不断改进策略，使其适用于复杂、动态的优化[18]、[24]、[25]、[26]。

本研究针对大规模定制下的网络化多工厂系统提出了一个稳健的调度问题，明确考虑了机器的退化和故障，并捕捉了生产和维护决策之间的复杂耦合。提出的分层多头深度强化学习（HMH-DRL）方法在动态和不确定条件下显著提高了系统效率和稳健性。主要贡献包括：（1）一个考虑退化的多马尔可夫决策过程，结合了高维状态空间、双层动作空间和多头奖励函数，为复杂动态优化提供了一个可扩展的框架。（2）引入基于激活函数的非线性剪裁和优先经验回放，以提高PPO内的学习效率、解决方案质量和策略稳健性。（3）HMH-DRL方法实现了耦合子问题之间的协调决策，并支持多目标稳健优化，同时通过重新训练机制持续提高适应性和稳健性。

文献综述

大规模定制（MC）正在推动制造系统向分布式制造系统（DMS）发展，从而使分布式调度问题（DSP）成为研究的热点。然而，大多数现有研究集中在并行结构（PDMS）上[8]、[10]，包括分布式流水线车间、作业车间和装配调度[4]、[27]、[28]，而对更灵活的NDMS的研究仍然有限[13]、[14]。例如，现有研究已经探讨了MC下的动态调度[2]和具有运输约束的NDMS调度[29]。

同时，大多数研究假设机器性能不受干扰

问题陈述

图1展示了MC-NMFRS-MDB的结构。NMF包括M个阶段，每个阶段有Km个工厂，这些工厂执行相同的任务，但处理时间和成本不同。系统最初接收N个订单，每个订单具有不同的截止日期、工艺路线以及加工和运输特性。NMF的特点是在阶段内实现负载平衡的协调和跨阶段的流程驱动协作。目标是实现高效和

框架

MC-NMFRS-MDB具有高维度、强耦合、复杂约束和动态行为的特征。深度强化学习（DRL）非常适合这类问题，它能够在实时决策的同时优化耦合的子问题，并通过经验实现稳定的计算复杂性和连续的策略演化。然而，大规模交互带来了巨大的计算需求，在联合多目标优化下协调耦合的子问题

实验结果与讨论

本研究通过系统的数值实验验证了HMH-DRL的有效性：（1）消融研究评估了PPO改进的贡献；（2）与单头基线（S-DRL）、MA-DRL[2]、A2C和DQN的收敛性比较；（3）与相同DRL方法的调度性能和稳健性评估；（4）与多目标粒子群优化（MOPSO）、NSGA-II和基于分解的多目标进化算法（MOEA/D）的比较，以验证其

结论

所提出的MC-NMFRS-MDB明确考虑了NDMS中生产调度、机器退化、故障和维护之间的耦合，推进了集成生产-维护优化。该问题被构建为一个具有高维状态空间、双层动作结构和多头奖励设计的多马尔可夫决策过程（MMDP），为动态、高度耦合的优化提供了一个可扩展的框架。开发了HMH-DRL方法来协调子问题并实现多目标优化

CRediT作者贡献声明

刘明洲：撰写——审稿与编辑、撰写——初稿、可视化、验证、监督、软件、资源、项目管理、方法论、研究、资金获取、形式分析、数据管理、概念化。丁正福：撰写——审稿与编辑、撰写——初稿、可视化、验证、监督、软件、资源、项目管理、方法论、研究、形式分析、数据管理、概念化。张曦：

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：刘明洲报告称获得了国家自然科学基金（NSFC）国际合作与交流项目的财务支持。凌琳报告称获得了中央高校基本科研业务的财务支持。张曦报告称获得了中央高校基本科研业务的财务支持。

联系信箱：

粤ICP备09063491号

摘要

引言

文献综述

问题陈述

框架

实验结果与讨论

结论

CRediT作者贡献声明

利益冲突声明

热点排行