深度强化学习驱动风电场控制的奖励设计：影响最优性能的关键因素研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Energy and AI》：Reward design for deep Reinforcement Learning driven wind farm control: What matters for optimal performance

【字体：大中小】 时间：2026年06月07日 来源：Energy and AI 9.6

编辑推荐：

　　奖励函数是强化学习（Reinforcement Learning, RL）中唯一的反馈来源，然而风电场流控（Wind Farm Flow Control, WFFC）研究常将其视为实现细节。研究人员对24项基于RL的尾流转向研究进行回顾，发现奖励公式化存在碎片

奖励函数是强化学习（Reinforcement Learning, RL）中唯一的反馈来源，然而风电场流控（Wind Farm Flow Control, WFFC）研究常将其视为实现细节。研究人员对24项基于RL的尾流转向研究进行回顾，发现奖励公式化存在碎片化现象，核心设计选择缺乏共识，且关键细节报告不足。因此，已报道的性能差异可能既反映奖励设计，也反映算法选择。研究人员将奖励设计作为主要研究问题，开展了超过500次训练运行的三阶段实验协议。第一阶段在层流和湍流来流条件下，使用软演员-评论家算法（Soft Actor–Critic, SAC）对3台涡轮机串联风电场的14种奖励公式进行筛选。研究人员观察到38.7个百分点的性能差异范围，其中仅数值缩放就贡献了27个百分点，从而确立奖励公式化为一级设计选择。奖励排名随后在不同来流条件下发生偏移：层流最优者在湍流条件下仅保留34%的增益，而归一化和基线相对奖励则保留高达88%。第二阶段在3×1和3×3布局下，对比SAC和近端策略优化（Proximal Policy Optimization, PPO）算法下五种最稳健奖励的表现：SAC以5-10个百分点击败PPO，且奖励排名具有算法依赖性，因此奖励和算法必须联合选择。第三阶段惩罚参数扫描显示，适度行程惩罚可在保持功率增益的同时将累积偏航行程削减30-40%，而过度惩罚会引发"停车悖论"，使控制器陷入偏航极限。研究人员提出了设计启发式方法，以及针对所研究场景下基于RL的风电场控制的候选初始配置。

风电场部署在降低发电成本和优化土地及基础设施利用方面具有显著的经济效益，但同时也引入了涡轮机之间的复杂气动相互作用。上游涡轮机产生的尾流会降低下游涡轮机的风速并增加湍流强度，导致能量产量下降和结构载荷增加。偏航控制作为一种主动的尾流管理策略，通过故意使上游涡轮机偏航以将尾流偏转离开下游涡轮机，已在仿真和实际现场中展现出提升风电场总功率的潜力。然而，风电场流控仍面临严峻挑战：尾流相互作用在空间和时间上高度耦合，偏航调整的效果存在显著时延，且运行条件因涡轮机老化或附近风电场建设等因素持续演变。

深度强化学习因其能够处理非线性、部分可观测且难以精确建模的系统，逐渐被视为解决风电场流控问题的潜在途径。在强化学习框架中，智能体通过与环境交互并接收奖励反馈来学习决策。尽管该方法前景广阔，现有风电场强化学习研究大多聚焦于算法选择或训练设置，而作为唯一学习反馈信号的奖励函数却常被当作次要的实现细节。这一现状存在问题，因为强化学习智能体会精确优化累积奖励，即使奖励公式的微小改动也可能导致截然不同的行为策略。在风电场流控领域，奖励设计的挑战尤为突出：反馈受尾流传输延迟，运行条件具有随机性和非平稳性，且需同时平衡功率、载荷和执行器使用等多个目标。

研究人员系统回顾了24项相关研究，发现奖励公式存在严重的碎片化现象，缺乏关于核心设计选择（如功率与功率增量奖励、归一化方式或执行器惩罚）的共识，且关键实现细节（如归一化常数、惩罚权重和基线定义）的报告严重不足。此外，随机种子报告的缺失进一步削弱了研究的可重复性。基于上述观察，研究人员将奖励设计提升为核心研究问题，设计并执行了涵盖三阶段的大规模对照实验协议。

研究采用WindGym仿真环境，该环境基于动态尾流 meandering（Dynamic Wake Meandering, DWM）模型，以5秒为内部时间步长，智能体每10秒执行一次偏航控制动作。涡轮机采用PyWake中的致动器盘模型建模，选用DTU 10MW参考涡轮机。主要测试布局为3台涡轮机串联阵列（5D间距），扩展测试采用3×3网格布局（9台涡轮机）。观测包含每台涡轮机的局部风速、风向和当前偏航失准角，以及各信号的两个历史值。动作空间为所有涡轮机的增量偏航变化，偏航位置限制在±30°范围内，最大偏航速率为1°/秒。

实验第一阶段使用SAC算法，在层流和湍流（5%湍流强度）条件下对14种奖励公式进行筛选。这些奖励涵盖四类结构：原始功率奖励（瓦特与兆瓦单位）、归一化功率奖励（按涡轮机数量和自由流风速、额定功率、前排涡轮机功率及其偏航修正版本归一化）、基线相对功率奖励（相对于贪婪基线、稳态最优基线和无尾流基准的比例及百分比改进），以及延时感知功率奖励（百分比变化和符号阈值奖励）。第二阶段选取第一阶段表现最佳的五种奖励，在SAC和PPO两种算法及两种布局下进行对比。第三阶段对选定的奖励公式施加不同尺度的惩罚项（偏航位置惩罚和偏航行程惩罚，λ∈[0,5.0]），以表征功率产量与执行器磨损之间的帕累托前沿。

实验第一阶段的核心发现在于：14种奖励公式的最终性能呈现38.7个百分点的巨大差异范围，从-7.6%到+31.1%。尤为重要的是，仅数值缩放就足以产生27个百分点的性能差距（原始功率瓦特与兆瓦单位对比），证明奖励数值规模是一级设计选择。层流条件下的最优奖励在湍流条件下排名发生显著变化：延时感知奖励13从层流首位跌落至湍流倒数第二，仅保留43%的层流增益；而归一化奖励6和基线相对奖励9则展现出更强的鲁棒性，分别保留80%和83%的层流增益。这一发现表明，仅基于层流筛选得出的结论可能在实际湍流条件下产生误导。

第二阶段算法比较揭示：SAC在所有条件下均显著优于PPO，在3×1布局上平均领先10.0个百分点，在3×3布局上平均领先4.1个百分点。然而，奖励排名呈现明确的算法依赖性——SAC下最优的基线相对奖励9在PPO下并非最优，而PPO在不同布局下的最优奖励也存在差异。这表明奖励与算法应作为耦合设计决策联合考虑，而非独立优化。值得注意的是，Reward 9（相对于PyWake稳态最优基线的比例奖励）在两种算法和两种布局下均表现最为稳健，尤其在SAC下的方差最低（±2.6%），成为最可靠的选择。从3×1扩展到3×3布局时，SAC性能下降幅度（7.7个百分点，54%保留率）大于PPO（0.9个百分点，85%保留率），显示SAC对规模扩展更敏感但绝对性能更高。

第三阶段惩罚机制分析表明，偏航行程惩罚在中等尺度（λ≈0.05-0.1）时表现最佳，可同时保持功率增益并减少30-40%的累积偏航行程，证明未惩罚策略在功率与执行器磨损维度上并非帕累托最优。相反，偏航位置惩罚几乎单调地降低功率。研究人员观察到一种称为"停车悖论"的反直觉现象：当行程惩罚过强时，控制器一旦达到较大偏航偏移，由于返回零位会产生额外行程成本，局部最优策略变为维持在约束边界附近，导致约束违反时间反而增加。此外，SAC与PPO的性能差距随惩罚强度增加而缩小，从λ=0时的5.2个百分点降至λ=5.0时的接近零，表明算法选择在惩罚较弱时更为重要。

基于全部三阶段实验结果，研究人员提出以下结论：奖励设计并非实现细节，而是影响学习动态、控制器行为和跨条件泛化的核心因素。数值条件的适当处理至关重要，典型奖励量级应保持在适中且稳定的范围内。基线相对和归一化奖励通过常模抑制机制有效稳定学习信号，是推荐的首选结构。湍流鲁棒性是奖励筛选的关键判别标准，层流最优性能不能可靠预测实际表现。延时感知奖励在湍流条件下面临信噪比崩溃的挑战。奖励与算法的交互作用显著，应联合优化。惩罚项应作为控制目标的一级组件而非事后调节手段，中等强度的L2行程惩罚（λ=0.05-0.1）可在保持功率的同时有效降低执行器磨损。未来研究应扩展至更大规模和不规则布局、异构机群、复杂地形，以及超越纯功率最大化的运行模式，并探索约束强化学习和多目标强化学习方法以根本解决标量化目标的权重敏感性。

联系信箱：

粤ICP备09063491号

热点排行