公平感知的多目标强化学习用于综合WEFE Nexus治理

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Environmental Management》：Fairness-aware multi-objective reinforcement learning for integrated WEFE Nexus governance

【字体：大中小】 时间：2026年06月07日 来源：Journal of Environmental Management 8.4

编辑推荐：

　　一种整体的水-能源-食物-生态系统（Water-Energy-Food-Ecosystems, WEFE）Nexus方法需要先进的决策支持系统，能够驾驭复杂的相互依赖性并优化多个（通常是相互冲突的）目标之间的权衡。此外，WEFE Nexus不仅旨在促进跨部门互

一种整体的水-能源-食物-生态系统（Water-Energy-Food-Ecosystems, WEFE）Nexus方法需要先进的决策支持系统，能够驾驭复杂的相互依赖性并优化多个（通常是相互冲突的）目标之间的权衡。此外，WEFE Nexus不仅旨在促进跨部门互动中的效率，还通过以公平公正的方式分配资源来确保公平性。然而，决策过程因利益相关者偏好的不确定性而进一步复杂化，因为不同的行动者通常持有相互冲突的优先事项和对可接受结果定义模糊的愿景。为应对这些挑战，本研究提出了一种基于帕累托Q学习（Pareto Q-Learning）的公平感知多目标强化学习（Multi-Objective Reinforcement Learning, MORL）框架，旨在支持在偏好不确定性下的高维目标空间中的政策制定。该框架整合了一个混合效用函数，将效率与公平性结合到学习方法的实时响应中，其中加权优先化机制与针对性的标准差正则化项的组合，使得在保持帕累托最优性（Pareto-optimality）的同时，能够动态平衡竞争性目标。研究人员将该方法应用于英科马蒂-乌苏图（Inkomati–Usuthu）河流域，这是一个由南非、斯威士兰和莫桑比克共享的跨界区域。该流域在区域能源生产、农业发展和水安全方面发挥着关键作用，同时支持生态敏感性的生态系统。基于系统动力学模型（System Dynamics Model, SDM），该框架生成由人工智能驱动的、针对利益相关者定义偏好的政策包建议，支持高效的多目标优化，并能够透明地识别WEFE Nexus中的跨部门影响、协同效应和权衡。研究人员的发现为越来越多关于人工智能驱动治理的研究做出了贡献，证明了公平感知的MORL如何增强实时多目标政策优化、促进跨部门协调、提高韧性并加强跨界流域治理。

**研究背景与问题**

全球资源管理日益复杂，水、能源、食物与生态系统（Water-Energy-Food-Ecosystems, WEFE）存在紧密的相互依赖性，传统部门孤立的治理模式难以应对跨部门权衡与协同效应。WEFE Nexus框架虽为整合治理提供了范式，但其核心挑战在于：需要在多个冲突目标（如提高能源产量与减少碳排放）之间寻找最优权衡，同时确保资源分配的公平性（包括分配正义、代际正义、部门间公平和空间正义）。然而，利益相关者偏好往往具有不确定性且相互矛盾，现有决策支持工具（如多目标进化算法Multi-Objective Evolutionary Algorithms, MOEAs）在高维目标空间、动态环境和实时响应方面存在局限性，且多数方法未显式整合公平性。因此，研究旨在开发一种能同时兼顾效率、公平性并适应偏好不确定性的决策支持系统（Decision Support System, DSS）。

**研究内容与结论**

研究人员提出了一种基于帕累托Q学习（Pareto Q-Learning, PQL）的公平感知多目标强化学习（Multi-Objective Reinforcement Learning, MORL）框架，并将其应用于南非、斯威士兰和莫桑比克共享的英科马蒂-乌苏图（Inkomati–Usuthu）河流域。该流域涉及能源生产、农业、水安全及生态敏感区，具有典型跨界治理复杂性。通过两阶段方法：首先训练PQL代理学习完整的帕累托前沿（Pareto front）；其次利用混合效用函数（结合线性标量化与标准差正则化）在保持帕累托最优性的同时，根据利益相关者偏好和公平性参数选择最终政策包。结果表明，该框架能以50,000步训练恢复真实帕累托前沿，支持实时偏好调整；当公平性参数λ=0.6时，相比纯效率基线（λ=0），线性效用平均降低10.4%，但跨目标结果的标准差降低23.9%，实现了更均衡的跨部门效益分配。该研究证明了公平感知MORL在增强实时多目标优化、促进跨部门协调和跨界治理韧性方面的潜力。论文发表在《Journal of Environmental Management》。

**主要关键技术方法**

研究人员采用了以下关键技术方法：（1）基于系统动力学模型（System Dynamics Model, SDM）定义多目标马尔可夫决策过程（Multi-Objective Markov Decision Process, MOMDP），其中状态由流域关键变量（如水平衡、能源平衡等）构成，动作对应10种政策工具（如碳排放税、生物多样性经济激励等），奖励向量包括14个WEFE指标相对性能（标准化至[-100,100]）及政策包大小惩罚项（-N_active）。（2）使用帕累托Q学习（PQL）算法（基于表格的离线策略方法）学习各状态-动作对的帕累托最优向量集，通过Minkowski和更新规则逼近完整帕累托前沿，采用贪心探索策略（?从1线性退火至0.05）。（3）设计混合效用函数u_hybrid=(1-λ)w^Tq - λ·std(q_I)，其中λ∈[0,1]调节效率与公平的权衡，std为标准差正则化项，仅作用于非零权重指标子集I。（4）通过穷举搜索计算真实帕累托前沿进行验证，并在1111种偏好向量（涵盖不同指标组合）上评估λ=0.6时的综合性能。注：样本来源为英科马蒂-乌苏图河流域的SDM模拟数据，无真实人群队列。

**研究结果**

**6.1 MORL代理训练**
通过比较不同训练步数（10,000-60,000步），发现50,000步和60,000步配置均能恢复真实帕累托前沿（经穷举搜索验证），最终选择50,000步代理以减少计算成本。训练过程中帕累托解的数量从约200增长至555个。

**6.2 λ比较对公平感知解的影响**
针对不同偏好向量，分析λ从0到1的变化：增加λ时，线性效用（w^Tq）下降而平衡性（1/std(q)）上升，表明存在效率-公平权衡。权衡曲线形状因偏好向量而异，无通用最优λ值。

**6.3 λ选择用于公平感知解**
为选择代表性λ，在1111种偏好向量上评估离散集Λ={0, 0.1, …, 1.0}。结果显示：λ增大至约0.6时，能大幅降低结果差异（标准差下降约23.9%）且效率损失适中（线性效用下降约10.4%）；λ>0.6后效率急剧下降（λ=0.7时线性效用下降约41%）。因此选定λ=0.6作为折中值用于后续基准测试。

**6.4 解基准测试**
将λ=0.6的混合效用与纯效率基线（λ=0）及三种启发式策略（随机、边际效用、贪婪向前）比较。结果：λ=0.6在14个指标全权重场景下，线性效用平均降低10.4%，标准差降低23.9%，实现更均衡的跨部门结果。具体案例中（如偏好I1二氧化碳排放与I3能源消耗），λ=0.6通过替换政策（用P7取代P3）使两个冲突指标均得到适度改善，避免了λ=0时牺牲排放换取能源的极端权衡。所有启发式策略在效率和公平性上均显著劣于PQL解。

**讨论与结论**

讨论部分指出：PQL框架通过恢复完整帕累托前沿并支持事后偏好调整，克服了MOEAs在高维空间中扩展性差、无法从任意初始状态实时推荐的问题。混合效用函数通过λ控制效率-公平权衡，但需注意其非单调性可能导致选择帕累托前沿外的解，因此仅对帕累托前沿内的解进行排序可避免此问题。该框架可扩展至纳入经济成本和社会接受度等额外目标，但当前案例中的系统动力学模型为确定性，未来可引入结构不确定性和深度函数近似以应对更大规模问题。结论部分翻译如下：本研究提出了一种基于帕累托Q学习的公平感知多目标强化学习框架，用于支持水-能源-食物-生态系统（WEFE）Nexus的综合治理。基于Nexus模型（如系统动力学模型），研究人员设计了两阶段MORL流程：首先学习一组多样化的帕累托最优政策包，然后使用混合效率-公平性效用函数从中进行选择。该方法提供了实用的决策支持，能够（i）扩展至众多且可能相互冲突的目标，（ii）无需重新训练即可实时适应变化的利益相关者偏好或初始条件，以及（iii）产生既高效又均衡的建议，从而实现更公平的资源分配。该框架使权衡透明化，将公平性作为可调设计选择，并支持互动式利益相关者驱动的政策选择。未来工作将整合经济与社会指标，通过深度函数近似处理不确定性，并扩展动作空间以捕捉干预的时机和规模。

联系信箱：

粤ICP备09063491号

热点排行