基于强化学习的电厂脱硫系统在全运行条件下的运营策略优化

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Process Safety and Environmental Protection》：Operation Strategy Optimization for Power Plant Desulfurization Systems Under Full Operating Conditions Based on Reinforcement Learning

【字体：大中小】 时间：2026年06月06日 来源：Process Safety and Environmental Protection 7.8

编辑推荐：

　　侯超瀚|周斌|朱登豪摘要为了解决燃煤电厂传统湿法烟气脱硫（WFGD）系统控制中存在的问题，如依赖人工经验、响应延迟、资源浪费以及难以平衡多个目标，本文提出了一种新颖的多步反馈融合混合近端策略优化（MR-HPPO）算法，用于全条件WFGD运行策略的优化。首先，采用基于多门专家混合框

侯超瀚|周斌|朱登豪

摘要

为了解决燃煤电厂传统湿法烟气脱硫（WFGD）系统控制中存在的问题，如依赖人工经验、响应延迟、资源浪费以及难以平衡多个目标，本文提出了一种新颖的多步反馈融合混合近端策略优化（MR-HPPO）算法，用于全条件WFGD运行策略的优化。首先，采用基于多门专家混合框架（Multi-gate Mixture-of-Experts）并结合编码器-解码器LSTM（MMoE-LSTM）的动态仿真模型，准确再现烟气二氧化硫（SO?）排放浓度和吸收剂浆液pH值的时间演变规律，为强化学习代理提供了一个无风险的试错环境。其次，MR-HPPO算法通过整合多步预测反馈来优化奖励机制，从而适应涉及连续调节浆液供应流量和设备离散开关控制的混合动作空间的需求。最后，通过实际4×660 MW机组WFGD数据进行案例验证。结果表明，MMoE-LSTM模型具有较高的预测精度，烟气SO?排放浓度的平均多步R2值为0.959，吸收剂浆液pH值的平均多步R2值为0.995。MR-HPPO策略减少了浆液供应的波动，使pH值稳定在5.2–5.8之间，长期控制SO?排放量低于25 mg/Nm3，并将运营成本降低了9.8%。对于单个四机组安装，每年可节省442万元人民币的成本。本研究为WFGD系统提供了一种创新的智能控制方案，实现了环境保护、运行稳定性和经济效益的协同优化。

联系信箱：

粤ICP备09063491号

摘要

热点排行