基于多智能体强化学习的供应链系统韧性重构方法:应对中断风险

《International Journal of Production Economics》:Multi-agent reinforcement learning-based resilience reconfiguration approach of supply chain system-of-systems under disruption risks

【字体: 时间:2026年03月04日 来源:International Journal of Production Economics 10

编辑推荐:

  本文提出基于多智能体强化学习的供应链系统(SCSoSs)动态重构方法,通过部分可观察马尔可夫决策过程(POMDP)建模,结合填充、修复、招募三种韧性策略,构建三阶段量化韧性模型,有效平衡中断风险下的重构敏捷性与成本效率,实验验证其优于传统方法。

  
魏丁|明振军|王国新|严燕|张德毅
苏州科技大学机械工程学院,中国江苏省苏州市高新区长江路55号,215009

摘要

供应链(SC)的快速全球化为供应链系统中的系统(SCSoSs)带来了巨大的机遇,但也增加了中断风险和不确定性。供应链重构(SCR)已成为缓解这些风险的关键策略。本文提出了一种基于多智能体强化学习的韧性重构方法,以应对中断风险下的敏捷性、稳定性和时空要求。文章首先详细介绍了涉及供应商、制造商、分销商和消费者的中断风险中的SCR问题,并介绍了三种韧性策略:补货、修复和招募。随后,基于供应链有向网络(SCDN)开发了一个计算韧性和重构成本的三阶段模型。接下来,将重构过程建模为一个部分可观测的马尔可夫决策过程(POMDP),其中状态空间代表SC元素,动作空间包括可用的策略。奖励函数平衡了韧性和成本考虑。通过使用多智能体近端策略优化(MAPPO)技术,该方法实现了SCSoSs的动态重构,并通过实验模拟证明了其有效性。分析还探讨了不同属性如何影响重构结果。结果表明,与其他基线方法相比,MAPPO方法在中断风险下显著提高了重构性能,为现代供应链管理提供了宝贵的见解。

引言

随着信息技术的迅速发展和工业投资的增加,企业之间的相互联系已经演变为高度复杂的网络结构。传统的线性供应链模型[1]已显著转变为一个复杂的非线性网络,涵盖了从原材料供应商到最终消费者的整个生产和分销生命周期。这种演变意味着供应链不再是静态过程;它们已成为能够不断适应各种内部和外部挑战的动态系统。近年来,供应链的战略格局变得越来越两极分化。一方面,全球化为了追求效率和规模而将网络扩展到全球。另一方面,不断上升的地缘政治紧张局势、贸易不确定性和持续的中断风险推动了供应链区域化、本地化以及战略联盟形成的强烈反全球化趋势。这些全球化或反全球化努力旨在增强韧性、减少依赖性并获得战略自主性。反映这一双重趋势的一个相关例子是中国的供应链试点城市计划,该计划旨在在全球化背景下加强区域供应链的韧性。
在这种不断发展的背景下,现代供应链越来越多地表现出系统中的系统(SoSs)架构的特征,无论其地理范围是全球性的、区域性的还是地方性的。这些由供应商、制造商、分销商和消费者组成的相互连接的网络构成了我们所说的供应链系统中的系统(SCSoSs)[2],[3]。这个集成整体涵盖了多个生产阶段,从原材料采购(例如金属和塑料)到制造和分销,以满足多样化的消费者需求。无论企业采用全球化还是区域化战略,其SCSoSs都面临一组共同的中断风险[4],[5],包括:
  • 地缘政治和贸易因素,如关税调整、出口控制和贸易协议的变化,这些因素可能会突然改变采购模式并增加物流成本。
  • 环境和气候因素,包括洪水、台风和极端温度,这些因素可能导致运输中断、基础设施损坏或区域生产关闭。
  • 公共卫生危机,例如最近的疫情,导致劳动力短缺、设施关闭、检疫延迟以及需求突然激增或下降。
这些中断通常表现为硬中断(例如,由于贸易制裁导致供应商完全退出)或软中断(例如,由于港口拥堵或员工缺勤导致的部分产能减少)。它们直接损害了供应商、制造商和分销商的运营能力,因此迫切需要敏捷和有韧性的重构机制。
在这方面,及时和明智的供应链重构(SCR)对于维持整个供应链的稳定性至关重要。SCR被视为一种动态优化现有链接和资源以应对中断风险的过程。学术界已经广泛探讨了这一主题:诸如[6],[7]的研究表明,重构供应链可以提高运营收入并降低重构成本,同时满足客户需求。然而,现有的SCR模型主要关注双重目标优化,即最大化利润和最小化成本,偶尔会考虑时间相关指标。很少有研究将韧性概念整合到供应链优化框架中。
SCSoSs所固有的韧性在应对自然灾害和市场波动等中断风险方面至关重要[8]。通过合理的资源分配和韧性重构,供应链管理者可以迅速恢复核心功能,最小化生产中断或延迟,并保持高水平的服务和运营效率。例如,Dixit等人[9]开发了一个多目标随机混合整数规划模型,其中包含了供需和韧性成本,而Fattahi等人[10]使用了一种新颖的韧性指数,通过随机方法优化了受中断影响的供应链网络设计。因此,基于韧性的优化在供应链管理中至关重要。这些发展强调了基于韧性的优化为SCSoSs的动态重构提供了标准和方向。
然而,当前方法在实现这种韧性方面存在显著局限性。大多数现有研究依赖于启发式算法进行SCR,尽管在静态环境中有效,但在三个关键方面无法满足现代需求:首先,它们难以应对动态SCR的敏捷性和实时性要求。其次,传统的优化方法需要精确的环境模型,而在现实世界的不确定性下很难建立这些模型。第三,它们未能充分解决SCSoSs的多智能体特性。这些局限性促使我们采用多智能体强化学习(MARL)[11],它通过三个相应的优势克服了这些挑战:1)它能够在不需要预先定义的环境模型的情况下实现动态、自适应的决策[12],[13];2)它通过与环境持续互动支持在线适应;3)它自然适应SCSoSs的分布式决策结构,其中每个实体(供应商、制造商或分销商)作为自主代理根据本地信息优化其策略以最大化长期累积奖励。
当考虑现实世界供应链的随机性时,MARL的这种优越性变得尤为明显。虽然传统优化方法在确定性环境中表现出色,但在供应、需求和物流的不确定性面前却遇到巨大困难。正是这些不确定性将SCR问题从组合优化任务转变为在不确定性下的顺序决策问题。MARL上述的三个能力使其能够独特地处理这种转变后的问题:它的无模型特性解决了精确模型的缺失;它的在线适应能力满足了实时响应的需求;它的分布式架构支持了现实世界SCSoSs的部分可观测性。研究表明,MARL在处理动态、大规模的SCR挑战方面优于传统方法,使其成为现代供应链管理的优越方法。
总之,本文提出了一种基于MARL的新的方法,用于在中断风险下动态重构SCSoSs。该方法将SCR过程描述为一个部分可观测的马尔可夫决策过程(POMDP),其中状态空间包含SC的元素,动作空间代表重构策略,奖励函数结合了韧性和成本目标。通过MARL训练,该框架实现了SCSoSs的敏捷、高效和智能重构。
本工作的主要贡献可以总结如下:
  • (1)
    本文提出了一个以SoSs概念为中心的中断风险下的SCR问题,并给出了相应的数学定义。
  • (2)
    在中断风险期间,提出了名为“补货”、“修复”和“招募”的以韧性为导向的重构策略。利用SCDN,开发了一个三阶段的定量韧性模型,将SoSs的韧性和成本纳入重构的优化标准中。
  • (3)
    为了确保SCR的敏捷性和动态性,使用MARL技术将重构过程描述为一个POMDP,其中状态空间代表每个SC元素,动作空间对应于这些元素采用的重构策略,同时将韧性和成本整合到奖励函数中。
  • (4)
    实验模拟分析验证了该方法在各种场景下的有效性。结果表明,与类似的MARL方法(如QMIX [14]和MADDPG)相比,MAPPO在中断风险下提供了显著更好的重构性能。此外,分析还探讨了供应商、制造商和分销商等因素如何影响重构结果。
本文的其余部分组织如下:第2节提供了必要的背景和相关工作。第3.1节定义了不确定性下的SCSoSs,并阐明了中断风险下的重构问题。第3.2节给出了韧性重构策略,定义了三阶段的SC韧性和相关重构成本。第3.3节使用MARL研究了SCR。具体来说,第3.3.1节介绍了POMDP,第3.3.2节详细介绍了状态空间、动作空间和奖励函数,第3.3.3节阐述了使用MAPPO的网络训练过程。第4节我们在各种场景下进行了模拟验证,并探讨了不同因素对重构的影响。第5节总结了本文并展望了未来的工作。

部分内容

背景和相关工作

随着智能制造4.0的进步和互联网经济的蓬勃发展,以网络链结构为中心的供应链模型已成为主流范式。随着这一领域的发展,供应链优化设计的研究显著影响了这一格局。在面临的挑战中,重构已成为一个核心问题,韧性现在被认为是维持供应链过程高效运行的关键因素,受到了广泛关注

具有不确定性的SCSoSs的定义

SCSoSs包括各种相互连接的环节,如采购、生产、销售和分销,涉及多个企业实体。这些实体在一个集成和动态的环境中运作,其中不确定性是不可避免的。它们之间的关系可以用“供应商-制造商-分销商-消费者”这一集合来表示,包括所有可能的互动。
这个SoSs模型本质上涉及与原材料供应、制造相关的不确定性

实验设置

在进行实验之前,有必要明确实验对象,指定相关算法的超参数,并确定评估结果的指标。

结束语

在本文中,我们探讨了以下问题:
供应链管理者如何在中断风险下动态重构SCSoSs以提高韧性,同时平衡重构成本?
所提出的方法使用了两个核心构建:一个三阶段的定量韧性模型和一个基于POMDP的MARL框架。我们的目标是通过整合韧性策略与适应性,实现SCSoSs的敏捷、稳定和成本效益高的重构,以应对中断

CRediT作者贡献声明

张德毅:监督、调查。 魏丁:撰写——原始草稿、可视化、验证、软件、方法论、概念化。 王国新:监督、项目管理。 明振军:撰写——审稿与编辑、监督、调查、资金获取、概念化。 严燕:监督、资源。

未引用的参考文献

[31]。

致谢

明振军感谢国家自然科学基金62373047)的支持。王国新感谢国家自然科学基金51975056)的支持。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号