一种可解释的机器学习框架,用于预测全规模污水处理厂的运行电力消耗

《Journal of Water Process Engineering》:Interpretable machine learning framework for predicting operational electricity consumption in full-scale wastewater treatment plants

【字体: 时间:2026年03月04日 来源:Journal of Water Process Engineering 6.7

编辑推荐:

  本研究开发了八种机器学习模型预测污水处理厂运营耗电量,发现Extra Trees模型最优(R2=0.834)。SHAP分析表明溶解氧和进水流量是主要影响因素,部分依赖图揭示了变量间的交互作用,为节能提供数据支持。

  
刘勇|卢康|陈毅文|罗继贵|郭忠良|孙晓璐|卢金城
中国上海同济大学环境科学与工程学院,水污染控制与绿色资源回收国家重点实验室,200092

摘要

污水处理厂(WWTPs)的运行电力消耗(OEC)占其运营成本和碳排放的很大一部分,其特点是具有强烈的非线性和多因素相互作用。准确预测OEC并识别其影响机制对于节能和减排至关重要。基于从中国某污水处理厂收集的长期运行数据,本研究开发并系统比较了八种机器学习模型,包括线性回归、支持向量回归、决策树、随机森林、Extra Trees(ET)、梯度提升回归、XGBoost和多层感知器。ET模型表现出最佳的预测性能,在10折交叉验证测试集上获得了0.834的平均R2和0.0010的均方误差(MSE),表明其具有很强的泛化能力。为了提高模型的可解释性,采用了SHAP分析来评估特征贡献。结果表明,溶解氧(DO)和进水流量(Q)是最具影响力的因素,其中DO对OEC有显著的正面影响,而Q则显示出明显的负面影响,反映了规模经济效应。温度(T)、氨氮(NH4+-N)和混合液悬浮固体被确定为次要因素。部分依赖图(PDPs)进一步阐明了关键变量的响应模式和交互效应,证实适当的DO水平和较高的Q可以降低单位能耗。这项工作建立了一个综合预测框架,平衡了模型准确性和运营可解释性,为曝气控制和负荷调节提供了可行的见解,以支持低碳、高效的污水处理厂管理。

引言

城市化的快速推进以及公众对环境保护需求的增加,使得污水处理成为保障水环境安全的关键基础设施组成部分[3]、[4]、[6]、[23]。污水处理厂(WWTPs)在减少污染物排放方面发挥着重要作用;然而,它们的运行通常伴随着大量的能源消耗。电力使用约占总运营成本的20-40%,在某些地区甚至可能更高[9]、[38]。在各种处理单元中,曝气系统长期以来被认为是最耗能的组成部分,通常占总电力消耗的50%以上[13]、[18]、[36]。在中国“双碳”目标的背景下,开发低能耗运行策略和减少运行电力消耗(OEC)已成为研究人员和从业者关注的关键挑战[1]、[19]、[33]、[37]。
污水处理系统的特点是由多个因素之间的复杂相互作用决定的,包括进水水质、水力负荷、活性污泥特性和运行控制策略。它们的能耗受到水力负荷、曝气强度、生化反应途径和工厂级运营决策的共同影响,从而导致明显的非线性和动态行为[18]。尽管传统的基于机制的模型可以表示某些生化和物理过程,但它们的实际应用往往受到参数识别困难、模型公式复杂以及适应波动运行条件能力有限的限制。这些限制阻碍了它们准确捕捉现实世界能耗模式的能力。相比之下,机器学习(ML)方法利用其强大的非线性建模能力和数据驱动特性,可以直接从历史运行数据中学习复杂的关系和潜在模式。因此,ML方法在涉及多变量耦合和运行不确定性的条件下展示了巨大的预测潜力[3]、[4]、[7]、[8]、[31]。
近年来,包括支持向量机[13]、[14]、随机森林(RF)[20]、梯度提升算法(GBDT, XGBoost)[27]和神经网络[15]在内的多种ML模型已被广泛应用于预测污水处理过程中的处理能力、出水质量和能耗,在众多研究中取得了高预测精度[29]、[30]。然而,现有研究主要集中在提高预测性能上,而对模型可解释性的关注相对较少。这种缺乏可解释性阻碍了这些模型解决关键实际问题的能力,例如哪些因素主要驱动能耗变化、应如何调整运行参数以提高能源效率,以及特定运行条件如何影响电力使用。因此,这些模型在工程决策和过程优化中的适用性仍然受到限制。更具体地说,大多数现有研究以片段化或模型特定的方式解释能耗驱动因素,通常只关注单一算法或报告特征重要性,而没有评估不同模型之间结论的稳健性[2]、[32]。此外,解释性分析通常仅限于定性变量排序,缺乏对直接影响运行控制的敏感运行范围和交互效应的系统性研究。为了解决这一差距,本研究通过系统比较多种ML模型,并结合基于SHAP的全局归因和基于部分依赖图(PDP)的敏感性和交互效应分析,建立了一个综合且模型稳健的可解释性框架,从而在高精度预测和WWTPs的OEC调节操作可行性之间架起了桥梁。
然而,仅提高模型可解释性并不会自动转化为对工程实践的有意义见解。为了克服这些限制,可解释的人工智能技术为解释ML模型的内部决策机制提供了一个有效的框架[16]。在这些方法中,基于合作博弈论的Shapley Additive exPlanations(SHAP)方法能够定量评估每个输入变量对模型预测的贡献方向和大小,无论是全局还是局部层面[21]、[30]。此外,PDPs可以进一步阐明关键变量变化对模型输出的响应趋势和交互效应,从而提供对模型行为的补充见解[13]。SHAP和PDP的集成应用有助于识别关键的运行驱动因素,支持开发有针对性的过程调节策略以优化能耗,并为污水处理系统中的节能实践和性能评估提供有价值的指导[20]。
基于前述讨论,本研究利用中国贵州省某污水处理厂三年的连续运行数据,开发了一个多模型框架来预测OEC,并系统评估了所提出模型的预测准确性和稳定性。随后应用SHAP来识别驱动OEC变化的主要因素,而PDPs用于分析关键变量对能耗的敏感性和交互效应。本研究的具体目标是:(1)开发和比较多种ML模型在OEC预测方面的性能;(2)使用SHAP定量评估各个特征对OEC的贡献;(3)通过PDP分析识别关键变量的敏感范围和交互关系;(4)为WWTPs的节能运行和过程优化提供方法论支持。通过建立一个综合的“预测-解释”框架,本研究提出了一种数据驱动的方法,用于OEC预测和运营参数优化,为推进污水处理厂的节能、减排和智能运行提供了宝贵的指导。

数据来源

本研究调查了中国的一家国内污水处理厂,该厂在三年期间(2022-2024年)连续收集了每日运行数据,共获得1096个有效样本。该厂采用厌氧-缺氧-好氧(AAO)工艺作为核心处理技术(图1),设计处理能力为20,000立方米/天。收集的数据集包括关键运行变量,如每日进水流量(Q)、进水水质参数等

数据可视化分析

图2展示了三年研究期间污水处理厂关键运行参数的时间序列变化和平均水平。总体而言,每个参数都表现出显著的时间波动,反映了季节性变化、进水特性变化和运行策略对水质、流量和系统性能的影响。Q的范围从10,000到30,000立方米/天,平均约为19,800立方米/天,显示出初始增加后

结论

本研究开发了一个可解释的机器学习框架,用于预测全规模污水处理厂的OEC。在测试的八种回归模型中,ET模型表现最佳,在交叉验证测试集上的R2为0.834,MSE为0.0010,显示出很强的准确性和泛化能力。
SHAP分析确定DO和Q是OEC的主要驱动因素,其中DO增加了能耗,而Q通过规模经济效应降低了能耗。次要影响因素包括T、NH4+-N和MLSS。

CRediT作者贡献声明

刘勇:撰写 – 审稿与编辑,撰写 – 原稿,可视化,方法论,数据管理。卢康:撰写 – 审稿与编辑,验证,调查,数据管理。陈毅文:调查。罗继贵:调查。郭忠良:调查。孙晓璐:撰写 – 审稿与编辑,验证,方法论。卢金城:撰写 – 审稿与编辑,方法论,资金获取,概念化。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本研究得到了Jing-Jin-Ji区域综合环境改善-国家科技重大项目(2025ZD1204405)、中央公益性科学机构基础研究基金(2024YSKY-05)以及生态环境部生态产业重点实验室中国环境科学研究院开放研究基金(2024KFF-06)的财政支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号