多智能体深度强化学习在去中心化双层双渠道供应链中的订单处理与库存分配应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《INTERNATIONAL JOURNAL OF PRODUCTION ECONOMICS》：Multi-agent deep reinforcement learning for ordering and inventory allocation in a decentralized two-echelon dual-channel supply chain

【字体：大中小】 时间：2026年05月10日 来源：INTERNATIONAL JOURNAL OF PRODUCTION ECONOMICS 10

编辑推荐：

　　强周|叶飞杨|芳芳马|T.C.埃德温·程交通学院，鲁东大学，烟台，山东264025，中国摘要双渠道分销的激增加剧了制造商与独立零售商之间的库存竞争和渠道冲突，使得传统的库存分配机制在分散式场景中变得不足够适用。为了解决这一问题，我们探讨了一个在分散式双渠道供应

　　强周|叶飞杨|芳芳马|T.C.埃德温·程
交通学院，鲁东大学，烟台，山东264025，中国

摘要
双渠道分销的激增加剧了制造商与独立零售商之间的库存竞争和渠道冲突，使得传统的库存分配机制在分散式场景中变得不足够适用。为了解决这一问题，我们探讨了一个在分散式双渠道供应链中的动态订单和库存分配问题，该供应链的特点是容量受限以及正的交货提前期，同时需求分布和下游实体的订单数量都是未知的。我们将制造商与零售商之间的互动表述为一个非合作的部分可观察随机博弈，并提出了一种新颖的混合动作空间和异构代理深度确定性策略梯度（HA2DDPG）算法。与仅限于连续动作空间的经典确定性策略梯度方法不同，我们引入了一种称为Gumbel-Softmax重参数化的离散梯度估计器来处理混合动作空间。在一个合成数据集和两个真实世界数据集上的实验表明，在大多数情况下，HA2DDPG的性能优于两种最先进的多代理深度强化学习算法、两种基于安全库存的启发式方法、两种大型语言模型（LLMs）以及一种实际的人类驱动的策略。与具有完美需求预测能力的“神谕”相比，HA2DDPG仅为制造商带来了平均4.7%的利润损失，为零售商带来9.4%的利润损失。此外，我们的发现表明，在边际输入扰动下，LLMs可能会持续产生不准确的输出结构。我们还开发了一个集成和可解释的学习框架，以提高策略的可理解性。通过利用单变量决策树和普通最小二乘回归，该框架将HA2DDPG学习到的状态-动作对转化为可移植且可解释的决策规则。

引言
电子商务的兴起和第三方物流的快速增长促使越来越多的制造商通过双渠道分销直接销售，以补充传统的零售渠道。像苹果、惠普、索尼、耐克、Zara和优衣库这样的知名品牌已经通过其官方旗舰店建立了直接销售渠道，同时也与百思买、亚马逊和沃尔玛等独立零售商合作。双渠道供应链结构具有多项优势：它通过满足不同客户渠道的偏好来扩大市场覆盖范围，从而提高品牌知名度和忠诚度；由于两个渠道都提供替代产品，它激励零售商提高服务水平；通过抵消由库存竞争引起的过度囤货行为，它减轻了与缺货相关的效率低下问题。

尽管双渠道供应链对制造商和独立零售商都有许多优势，但在管理上仍然存在重大挑战。引入直接销售渠道的一个主要后果是制造商与零售商之间的竞争紧张。例如，曾经是法国最大的苹果零售商EBizcuss起诉了苹果公司，声称其破产是由于受欢迎的手机供应不足以及偏袒苹果自有门店的不公平商业行为（Leach, 2012）。类似的冲突也出现在尼康、李维斯和IBM等品牌中，直接渠道的建立对零售商构成了严重威胁。这一库存分配问题在时尚服装、消费电子、汽车、制药和半导体制造等多个市场中都有观察到（Hall和Liu, 2010; Chen等人, 2019; Goedhart等人, 2022）。将适当的库存分配纳入制造商的商业设计中可以减少零售商的缺货情况，并通过直接影响他们的库存量来缓解供应链冲突。传统的库存分配机制通常假设制造商根据零售商的订单信息来做出分配决策（Cachon和Lariviere, 1999; Kim等人, 2021; Spiliotopoulou等人, 2021; Cohen等人, 2023）。然而，制造商在缺乏对下游需求完整了解的情况下常常面临库存决策的挑战。典型的例子包括苹果、惠普、Zara和索尼，它们在新产品发布前倾向于在直接和间接渠道中囤积库存，因此需要独立于零售商的订单需求和市场需求的分配决策。因此，传统的库存配给程序不足以解决这种动态库存分配问题，这凸显了需要更有效分配政策的必要性。

在双渠道供应链中，制造商与零售商之间的互动特征是非合作和分散决策过程。在这种情况下，每个利益相关者独立地最大化自己的利润，不形成联盟进行合作决策，公司之间也不共享任何私人信息。本研究在周期性回顾、无限视界的框架内明确地对双渠道供应链进行了建模，旨在确定（接近）最优的订单和库存分配策略。在这个动态问题中出现了两个主要挑战：首先，制造商的分配决策仅基于前一时期的订单流和剩余库存，这使得枚举策略组合以找到纳什均衡变得复杂。其次，在仓库容量限制下，具有损失销售和非零补货交货提前期的库存策略使分配决策变得难以处理，即使在简化的单层库存系统中也是如此（Chen和Simchi-Levi, 2004; de Kok等人, 2018）。

为了应对这些挑战，我们构建了一个非合作的部分可观察随机博弈（NPOSG），其中制造商在下游需求到来之前做出订单和库存分配决策，而非合作的零售商同时做出订单决策。两个渠道中需求的可替代性加剧了库存竞争。为了找到NPOSG中的均衡点，我们提出了一种混合动作空间和异构代理深度确定性策略梯度（HA2DDPG）算法，采用集中训练和分散执行的方法。我们引入了Gumbel-Softmax估计器，使确定性策略梯度能够在混合动作空间中运行，用可微分的近似值替换不可微分类样本。基于一个合成数据集和两个真实世界数据集的实验结果表明，与两种最先进的多代理深度强化学习（MADRL）方法、两种基于安全库存的启发式方法、两种大型语言模型（LLMs）以及一种实际的人类驱动策略相比，所提出的HA2DDPG算法具有更高的有效性。具体来说，我们首先使用合成生成的数据构建了一个通用的双渠道供应链模型。在这个框架内，将提出的HA2DDPG与最先进的MADRL方法及基于安全库存的策略进行了基准测试。结果表明，HA2DDPG在不同情况下与“神谕”策略相比始终表现出最小的性能差距。此外，HA2DDPG有效减少了整个双渠道供应链中的需求扭曲，从而减轻了宝洁公司在20世纪90年代首次记录的“牛鞭效应”。对于真实世界的数据集，HA2DDPG在大多数情况下显著优于两种基于安全库存的启发式方法和两种基于LLM的方法，在分散决策下为制造商和零售商实现了帕累托改进。我们还进行了敏感性分析，以评估HA2DDPG的鲁棒性，发现即使在高达100%的超参数变化下，平均利润仅下降15.21%。另一组实验进一步证实了HA2DDPG在不同产品数量下的可扩展性和计算可行性。值得注意的是，LLMs的提示中的小数值变化并不一定会引发策略调整，因为即使潜在的推理存在逻辑错误，LLMs也可能保持原有的策略结构（见图8）。这种观察到的自洽性与LLMs的“天才悖论”一致，即它们在简单的计数任务上表现不佳，但在复杂的几何或代数问题上表现出色（Trinh等人, 2024）。对于真实世界的数据集，与实际的人类驱动策略相比，HA2DDPG使制造商的预期利润增加了12.41%，零售商的增加量为17.49%（对于产品1）；对于产品2，制造商的增加量为12.35%，零售商的增加量为9.22%。此外，我们还开发了一个集成和可解释的学习（EXL）框架，该框架结合了单变量决策树和普通最小二乘（OLS）回归来解释HA2DDPG生成的状态-动作对。与基于深度神经网络的近似方法不同，EXL框架在可扩展性和用户体验方面具有显著优势。我们的结果表明，与HA2DDPG和人类驱动的策略相比，EXL提高了制造商和零售商的预期利润，尽管在极端渠道切换率下略逊一筹。此外，EXL在非平稳随机需求环境中仍然表现出鲁棒性，而在这些环境中人类驱动的策略会迅速恶化。

总之，我们提供了以下理论和实践研究贡献：
（1）受双渠道系统实际约束的启发，我们提出了智能订单策略，这些策略不需要事先了解潜在的需求分布，而是仅基于当前的库存状况做出动态库存分配决策。尽管关于双渠道库存控制和多期库存分配的文献很多（Xie等人, 2014; Goedhart等人, 2022），但这些研究通常处理不同的情境。值得注意的是，当分配决策必须独立于需求满足时，没有现有的研究专注于建立结构结果，也没有设计出用于寻找近似解的学习算法。本研究旨在通过引入MADRL算法来填补这些空白。
（2）本研究将分散式双渠道分销供应链系统建模为一个NPOSG，不同于传统研究假设的供应链成员利润相同的假设（Zhou等人, 2024; Liu等人, 2025）。我们提出了一种结合Gumbel-Softmax重参数化的新型HA2DDPG算法。这种算法即使在每个成员寻求最大化自身利润而不进行明确信息交换的情况下，也能有效指导供应链成员做出智能订单和库存分配决策。
（3）为了突出我们提出方法的实际应用性，我们使用模拟环境和真实行业数据对HA2DDPG进行了全面评估。首先，在简化双渠道供应链的模拟实验中，我们的结果显示HA2DDPG始终优于最先进的（MA）DRL算法。其次，我们将HA2DDPG应用于两个真实世界数据集，证明其显著优于基准策略，包括基于安全库存的启发式方法、LLMs和人类规划器。最后，我们提出了一个EXL框架来解释黑箱MADRL。EXL的一个显著优势是它不需要关于代理推理的领域知识，使其易于理解和实施。

研究的其余部分安排如下：第2节回顾相关文献，第3节描述问题 formulation，第4节定义NPOSG，第5节提出一种新型的MADRL算法，第6节基于合成数据和实际数据展示我们方法的性能。最后，第7节总结研究并概述了潜在的未来研究方向，详细证明和伪代码包含在附录中。

文献回顾
我们的工作与几条文献相关，包括容量分配机制（主要在分销系统中）、带有库存决策的双渠道供应链以及用于多层次库存管理的深度强化学习（DRL）。

模型构建和问题描述
我们考虑了一个具有折扣标准的周期性回顾双渠道供应链，该供应链具有无限规划视角。系统包含一个制造商和一个零售商，位于最上游的供应商和下游客户之间，如图1所示。制造商以单位成本生产一种产品，并通过直接渠道以价格分销产品，通过独立零售渠道以批发价格分销产品。产品将由零售商通过其自己的渠道重新销售。

非合作部分可观察随机博弈
我们模型中制造商与零售商之间的互动是分散的、部分可观察的，并且对环境动态的不确定性是非合作的。因此，我们将这一情景建模为一个从MDP派生的NPOSG，允许代理同时行动。

NPOSG由一组关键元素定义，其中n是代理的数量，S是所有代理共享的环境状态集，A_i是代理i的动作集，R_i是代理i的奖励集合。

算法设计
已经证明DRL可以学习用于多层次库存优化的补货策略，这些策略与行业使用的方法具有竞争力（Boute等人, 2022）。然而，对于涉及多个代理的分散式库存控制系统来说，学习最优策略变得更加困难。由于代理的局部观察部分可观察和非平稳性，NPOSG被归类为非确定性指数时间难（NEXP-hard），这意味着它们需要...

数值实验
在本节中，我们首先使用合成数据集研究双渠道供应链的简化设置，然后将我们提出的HA2DDPG算法应用于欧洲最大的药店连锁之一Rossmann的真实世界数据集。真实的历史销售数据集包括2013年1月1日至2015年7月31日期间超过1,115家Rossmann商店的特征和每日营业额数据，这些数据可在Kaggle.com上公开获取（见Kaggle, 2015）。我们进一步评估了MADRL方法在实际应用中的可行性和有效性。本研究展示了MADRL方法如何提升供应链在复杂情境下做出有效且接近最优库存决策的能力。我们研究了在一个周期性审查的双渠道供应链中，如何在无限规划范围内解决动态订单和库存分配问题，而在这个过程中，无论是基础需求分布还是下游订单量，供应链成员都无法提前得知。为了使模型更加真实，我们加入了容量限制等实际约束条件。

**作者贡献声明：**
- T.C. Edwin Cheng：撰写、审稿与编辑、验证、监督
- Fangfang Ma：可视化处理、形式化分析、数据整理
- Yefei Yang：撰写、审稿与编辑、资源协调、资金获取
- Qiang Zhou：撰写初稿、方法论构建、概念化设计

**未引用的参考文献：**
- Chen, 2015; Li et al., 2024; Qiu et al., 2021; Rolf et al., 2023; Song, 2023; Sun et al., 2022

**资金支持：**
本项工作得到了国家自然科学基金（项目编号：72102011）和鲁东大学科学研究启动基金（项目编号：221/20240043）的支持。

**利益冲突声明：**
作者声明不存在任何可能影响本文研究结果的已知财务利益冲突或个人关系。

联系信箱：

粤ICP备09063491号

热点排行