供应链中考虑不确定性的联合库存-运输决策：一种基于扩散模型的多智能体强化学习方法，并包含交货期估计功能

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computers & Chemical Engineering》：Uncertainty-aware joint inventory-transportation decisions in supply chain: A diffusion model-based multi-agent reinforcement learning approach with lead times estimation

【字体：大中小】 时间：2026年01月30日 来源：Computers & Chemical Engineering 3.9

编辑推荐：

　　供应链不确定性建模与多智能体强化学习融合框架的研究，提出基于扩散模型的熵指导不确定性预测策略，集成到MAPPO算法中解决全球化学供应链的库存与运输联合优化问题，实验验证其显著提升复杂环境下的决策鲁棒性和全局效率。

周晓凡|冯莉|朱爱华|史浩旭

澳门科技大学计算机科学与工程学院，中国澳门特别行政区999078

摘要

在全球供应链管理中，优化联合库存-运输决策仍然是一个关键挑战。现有方法通常依赖于确定性假设或过于简化的随机模型，这些模型无法充分捕捉补货提前期中的动态不确定性和多模式变异性。这一限制严重限制了决策政策在现实世界复杂环境中的鲁棒性和协调效率。为了解决这些问题，本文提出了一种基于不确定性意识的决策框架，称为“具有熵引导的多智能体近端策略优化”（DE-MAPPO）扩散模型。我们的方法使用扩散模型生成概率性提前期预测，利用蒙特卡洛抽样来量化不确定性，并引入了一种熵引导的自适应策略，使智能体能够根据预测置信度动态调整库存和运输决策。通过在模拟的全球化学供应链环境中进行的实验验证了所提出框架的有效性。实验结果表明，DE-MAPPO框架在关键性能指标上显著优于基线方法。

引言

全球供应链运行在一个充满不确定性的环境中，这些不确定性源于地缘政治冲突、与气候相关的干扰以及物流效率低下（López等人，2025年）。这些因素极大地影响了库存和运输决策的有效性，从而影响了供应链关键维度的不确定性估计的准确性。在这种情况下，传统的库存和运输策略往往依赖于过于简化或确定性的方法来量化这些不确定性，而没有考虑到现实世界供应链运作的动态性质。尽管现有方法主要集中在预测下游需求上，但在研究和实践中，对上游补货提前期的预测关注较少（Li，2020年）。这种对需求侧建模的重视，加上对提前期动态的简化处理，限制了传统方法适应现实世界供应链变异性的能力，往往导致系统性能不佳。作为回应，数据驱动的方法变得越来越重要。深度学习模型，如长短期记忆网络（LSTM）（Gao等人，2023年）和Transformer（Ma等人，2025年），已被广泛用于时间序列预测，提高了捕捉时间依赖性和提高预测准确性的能力。同时，多智能体强化学习（MARL）作为一种强大的框架，用于多层级供应链系统中的分散决策。通过将供应链互动建模为部分可观测马尔可夫决策过程（POMDP），MARL使智能体能够在信息不完全和动态条件下学习自适应策略（Song等人，2024年；Kotecha和del Rio Chanona，2025年），在改善协调性和运营性能方面显示出巨大潜力。

尽管取得了这些进展，现有的预测和决策方法仍存在关键局限性。由于主要基于关于补货提前期的确定性或简单随机假设进行操作，最先进的MARL算法，如多智能体近端策略优化（MAPPO）和多智能体软演员-评论家（MASAC），在现实世界的部分可观测环境中表现出有限的鲁棒性和适应性。尽管LSTM和Transformer在捕捉时间模式方面表现出色，但它们主要生成确定性点预测，缺乏量化预测不确定性的能力。这限制了它们在风险敏感决策情境中的适用性，特别是在高变异性或意外干扰下。同时，扩散模型因其在概率预测方面的能力而受到越来越多的关注，通过学习去噪过程捕捉不确定变量的复杂分布（Jiang等人，2025年）。

为了解决这些双重挑战，本研究采用扩散模型实现提前期的概率预测，通过蒙特卡洛抽样和信息熵来量化不确定性。随后将这种方法与MARL集成，增强了智能体适应不确定和部分可观测供应链环境的能力。由此产生的框架显著提高了对干扰和变异性的鲁棒性，为全球供应链中的联合库存和运输优化提供了基于不确定性意识的决策解决方案。本文的主要贡献总结如下：

1. 我们提出了一种基于熵引导的不确定性意识预测策略，该策略利用扩散模型的蒙特卡洛抽样。在每个决策步骤中，从抽样的提前期分布中计算信息熵以量化预测不确定性。在高熵场景中，使用分布的上分位数来防范潜在的延迟；在低熵环境中，使用算术平均值来提高运营效率。这种自适应机制使智能体能够动态平衡风险缓解和成本效益。

2. 我们提出了一种新颖的强化学习集成框架DE-MAPPO，它结合了因果U-Net条件扩散模型和MAPPO。扩散模型提供补货提前期的概率预测，而全局奖励重新平衡系数被引入MAPPO中，以动态调整全球供应链效率目标与局部利润最大化。这种集成使分销商和零售商智能体能够在部分可观测条件下实现协调策略。

3. 我们通过一个全球化学供应链案例研究验证了所提出的DE-MAPPO框架，明确模拟了关键瓶颈节点的时间延迟不确定性。实验结果表明，所提出的方法在复杂、波动和部分可观测环境中显著提高了供应链的整体盈利能力和成本效益，实现了更加适应性和稳健的决策。

本文的其余部分组织如下。第2节回顾相关文献。第3节描述研究的问题并提供了数学模型的构建。第4节解释了解决问题的方法。第5节提供了一个包含多种条件情景的数值示例，并分析了我们的模拟结果。最后，在第6节中，我们陈述了我们的结论、研究局限性和未来方向。

部分内容

文献综述

在本节中，我们回顾了以下方面的文献：（1）库存和运输决策的联合优化；（2）全球供应链中的提前期预测；（3）在不确定环境下的MARL应用。

问题构建

在本研究中，我们关注全球供应链的联合库存和运输优化问题，该供应链包括三个核心层级：供应商、分销商和零售商。我们选择全球化学供应链作为一个例子。全球化学供应链的结构如图1所示。有三个独立的供应商位于欧洲，每个供应商对应一种特定的运输方式，分别是海运、铁路

方法论

在本节中，我们详细介绍了在不确定性下优化全球化学供应链的集成解决方案。我们首先使用MAPPO算法构建了一个MARL框架，其中分销商和零售商被建模为具有定制决策空间和目标的独立智能体，以处理各自的运营任务。为了解决补货提前期不确定性的关键问题，我们创新性地结合了扩散模型进行概率预测

实验

在本节中，我们描述了实验设置，并评估了DE-MAPPO（MAPPO-Diffusion_entropy）方法和基线方法（MAPPO-LSTM、MAPPO-Transformer、MAPPO-Diffusion_direct、MAPPO、MASAC）在全局化学供应链的POMDP环境中的质量。实验设计采用了一种混合方法，其中GPU负责深度学习推理，而CPU管理供应链环境模拟，实现了计算效率和系统

结论

本研究提出了一个基于不确定性意识的决策框架，该框架将概率预测与MARL相结合，以应对不确定性下的供应链管理挑战。所提出的DE-MAPPO框架结合了用于提前期预测的因果U-Net条件扩散模型和改进的MAPPO算法，显示出比传统方法显著的改进。

关键创新在于基于熵引导的不确定性意识预测策略

CRediT作者贡献声明

周晓凡：撰写——原始草稿、方法论、形式分析、概念化。冯莉：撰写——审阅与编辑、监督、资金获取、概念化。朱爱华：可视化、资源、调查。史浩旭：撰写——审阅与编辑、验证、软件。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。

致谢

本工作由澳门特别行政区科学技术发展基金（文件编号0008/2025/RIB1和0077/2025/RIA2）资助。

联系信箱：

粤ICP备09063491号

摘要

引言

部分内容

文献综述

问题构建

方法论

实验

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行