融合多属性效用与深度强化学习解决顺序多准则决策问题：在可持续农业人力资源管理中的创新应用

《Computers & Operations Research》：Multi-Attribute Utility Deep Reinforcement Learning method for Sequential Multi-Criteria Decision problems: Application to human resource planning

【字体：大中小】 时间：2026年03月02日 来源：Computers & Operations Research 4.3

编辑推荐：

　　本文聚焦顺序多准则决策（SMCD）这一复杂现实决策难题，为解决传统方法在处理动态、多目标权衡时的局限性，研究者创新性地将多准则决策分析（MCDA）与深度强化学习（DRL）相结合，提出了多属性效用深度强化学习（MAUDRL）新方法。研究以加拿大不列颠哥伦比亚省蓝莓种植业的可持续人力资源管理（HRP）为例进行验证。结果表明，相较于基准算法，MAUDRL在策略质量、目标达成率和运行时间上均表现出色，为SMCD问题提供了高效、透明且可解释的决策支持方案，在推进可持续及社会责任决策方面具有重要理论与应用价值。

在我们这个日益复杂的世界中，无论是企业的供应链管理、医疗资源的分配，还是城市的交通规划，决策者常常面临一个共同的困境：需要在多个相互冲突的目标之间进行权衡，并且这些选择会随着时间的推移产生连锁反应，影响未来的选项和结果。这类问题在学术上被称为顺序多准则决策（Sequential Multi-Criteria Decision, SMCD）问题。传统的决策工具，如多准则决策树或动态规划，在面对这类高维度、动态变化的问题时，往往会遭遇“维度灾难”，计算量呈指数级增长，难以整合决策者的风险偏好和具体目标权重，显得有些力不从心。

与此同时，人工智能领域，特别是深度强化学习（Deep Reinforcement Learning, DRL），近年来在解决复杂的序列决策问题（如游戏、机器人控制）上取得了突破性进展。DRL智能体（Agent）能够通过与环境的交互，学习如何采取行动以最大化长期累积奖励。然而，标准的DRL通常只优化一个单一的奖励函数，这与现实世界中需要考虑经济效益、环境影响、社会公平等多重目标的SMCD问题存在脱节。如何将DRL的强大学习能力与人类决策中固有的多目标权衡和偏好表达相结合，成为一个亟待弥合的研究空白。

为此，由Mohammadreza Nematollahi、Adel Guitouni、Nafiseh Izadyar、Nabil Belacel和Andrew Park组成的研究团队开展了一项创新性研究。他们巧妙地将多准则决策分析（Multi-Criteria Decision Analysis, MCDA）中的经典理论——多属性效用理论（Multi-Attribute Utility Theory, MAUT），与前沿的DRL技术相融合，提出了一种名为“多属性效用深度强化学习”（Multi-Attribute Utility Deep Reinforcement Learning, MAUDRL）的新算法。该研究旨在构建一个既强大（能处理高维复杂问题）又透明（决策过程可解释，能融入决策者偏好）的决策支持模型。为了验证MAUDRL的有效性，研究者选择了加拿大不列颠哥伦比亚省蓝莓种植业中的人力资源规划（Human Resource Planning, HRP）作为应用场景。在可持续农业的背景下，农场主需要在一整个修剪季（如8周）内，每周动态决定雇佣不同技能水平（新手、中级、高级）的修剪工人数量，以同时优化三个常常冲突的目标：经济成本（运营效率）、社会效益（创造就业/减少人员流动）和环境表现（修剪质量，作为可持续性的代理指标）。这项工作为解决广泛的SMCD问题提供了新的思路和方法，相关成果已发表于《Computers & Operations Research》期刊。

为了开展这项研究，研究人员主要运用了以下几个关键技术方法：首先，他们将蓝莓农场的可持续HRP问题形式化为一个顺序多准则决策问题，并使用多准则马尔可夫决策过程（Multi-Criteria Markov Decision Process）进行数学建模，定义了状态、动作、转移概率和针对每个属性（经济、社会、环境）的奖励函数。其次，他们提出了核心的MAUDRL算法框架，该框架包含两个阶段：（1）训练阶段：针对每个决策属性（如成本、就业、质量），并行地训练一个独立的深度Q网络（Deep Q-Network, DQN），以学习优化该单一属性的策略。这利用了DRL处理高维状态空间的能力。（2）利用阶段：基于训练好的各属性DQN输出的Q值，结合决策者的风险偏好（通过效用函数的曲率参数_ψ_i体现）和各属性权重，运用多属性效用理论（MAUT）构建部分效用函数，并将它们聚合成一个总效用函数，从而在每个决策点选择能最大化总效用的动作。研究使用OpenAI Gym创建模拟环境，并基于PyTorch的Stable Baselines 3库实现和训练DQN模型。最后，他们通过与两种基准算法——“Oracle离散多属性效用理论”和“单奖励聚合方法”——在策略质量、目标达成率和运行时间三个指标上的对比，来全面评估MAUDRL的性能。

研究结果

1. MAUDRL框架的有效性

研究通过理论构建和算法设计，成功地将DRL与MCDA相结合。MAUDRL框架允许智能体为每个准则独立学习价值函数，然后通过风险敏感的多属性效用函数进行聚合，从而生成符合决策者显性偏好的、时间一致的策略。该框架的核心优势在于其透明性和可解释性，能够清晰地将输入（状态、决策者偏好）映射到输出（动作选择）。

2. 在可持续HRP问题中的具体应用与问题规模

研究者将MAUDRL应用于一个具有实际代表性的场景：一个30英亩的中型蓝莓农场，为期8周的修剪季，最多可同时雇佣12名拥有三种技能等级的工人。经计算，该SMCD问题在每个决策点（周）具有约1.56×10³个潜在动作，而整个规划期内的可能策略路径高达约3.55×10³³条。如此巨大的解空间，加上决策者（农场主）各不相同的风险偏好和可持续发展目标侧重点（即不同的“决策者画像”），使得传统优化方法几乎无法求解。这凸显了应用高级算法如MAUDRL的必要性。

3. 与基准算法的性能对比

研究人员设定了三种具有不同可持续发展倾向和风险态度的农场主画像（个人画像A、B、C），来模拟异构的决策者偏好。他们将MAUDRL与两种基准算法进行对比：

•
Oracle离散多属性效用理论：一种假设已知未来所有信息的理想化方法，作为理论上限。
•
单奖励聚合方法：一种朴素的方法，在训练前将多个属性的奖励加权合并为一个标量奖励，然后用标准的DQN进行学习。

评估指标包括：策略质量（所学策略与Oracle策略的接近程度）、目标达成率（在不确定环境下实现设定目标的频率）和运行时间。

结果表明：
•
策略质量：在所有三种决策者画像下，MAUDRL学得的策略质量都显著高于单奖励聚合方法，并且非常接近Oracle方法的上界。这说明MAUDRL能有效学习到符合复杂偏好的高质量策略。
•
目标达成率：在模拟的不确定环境下（工人表现和可用性的随机性），MAUDRL在达成经济、社会、环境综合目标方面， consistently outperformed（持续优于）单奖励聚合方法。
•
运行时间：尽管MAUDRL需要为每个属性训练一个DQN，但由于其并行化设计，总训练时间仍在可接受范围内，并且显著短于解决如此大规模问题所需的穷举搜索时间。MAUDRL能够在合理时间内收敛到稳健的策略。

4. 决策者偏好对策略的影响

分析显示，不同的农场主画像（即对经济、社会、环境目标的不同权重分配和风险态度）会导致MAUDRL学习出截然不同的人力资源分配策略。例如，一个更注重环境可持续性和员工稳定的农场主，其策略可能会倾向于雇佣更多技能较高、更稳定的工人，即使短期成本更高；而一个更注重成本最小化的农场主，其策略可能更灵活，会雇佣更多临时性或技能较低的工人。这证实了MAUDRL能够成功捕捉并整合决策者的个性化偏好到最终的决策策略中。

研究结论与讨论

本研究通过提出并验证多属性效用深度强化学习（MAUDRL）方法，成功地构建了一个连接深度强化学习与多准则决策分析的桥梁。理论贡献主要体现在三个方面：对运筹学领域，它为解决高维顺序多准则决策问题提供了一种可扩展的决策支持方法；对人工智能领域，它提出了一个可解释、计算高效的MAUDRL框架，能学习准则特定的价值函数并按决策者偏好进行聚合；对人力资源管理文献，它首次将这种先进的AI方法应用于可持续农业的HRP问题，并评估了多种决策者画像。

研究的核心结论是，MAUDRL能够为复杂的顺序多准则决策问题提供高效、实用的解决方案。它不仅通过并行学习和效用聚合，在可接受的计算时间内找到了高质量的策略，更重要的是，它建立了一个透明且可解释的模型，使得决策者的风险态度和多目标偏好能够被明确地编码和影响决策过程。在蓝莓农场人力资源规划的案例中，MAUDRL证明了其处理大规模状态-动作空间、整合可持续发展三重底线（经济、社会、环境）目标、并适应不同决策风格的能力。

这项工作的意义深远。它展示了人工智能，特别是与决策科学交叉的AI，在解决现实世界复杂管理问题上的巨大潜力。MAUDRL框架具有通用性，可扩展至其他典型的SMCD领域，如可持续供应链管理、动态定价、医疗资源调度、智能交通系统等，其中决策都需要在多重冲突目标下进行序列优化。未来研究可以探索更复杂的DRL架构（如Actor-Critic方法）、处理连续动作空间、集成在线学习以适应时变的决策者偏好，并将该框架应用于更多样化的工业和公共服务场景，进一步推动负责任和可持续的决策智能化发展。

热点排行