《Journal of Cleaner Production》:Machine learning for imbalanced WWTP energy consumption data in China: A spatially informed resampling framework with region-specific driver analysis
编辑推荐:
污水处理厂能耗预测的空间异质性分析与模型优化研究。摘要:提出结合空间相对局部偏差加权(RLDW)与交叉重采样泛化测试(CRGT)的机器学习框架,通过全国2256个污水厂数据验证,模型R2达0.9403,MSE仅0.0058,且通过五折交叉验证保持高一致性(平均R2=0.9974)。SHAP分析揭示南北地区能耗驱动因素差异显著:南方以处理能力为主导,北方则受进水BOD5和TN影响更大。研究创新性地整合空间数据失衡处理与区域特异性可解释性分析,为精准能效管理和区域环境政策制定提供技术支撑。
常晓凡|魏安磊|胡浩|唐康荣|郭洋洋|岳生博|史汉晓|王子轩
中国西北大学城市与环境科学学院,地表系统与环境承载能力陕西重点实验室,西安,710127
摘要
随着人们对污水处理厂(WWTPs)能源消耗问题的关注日益增加,对更准确、更可靠的预测工具的需求也随之提高。虽然机器学习提供了有前景的解决方案,但其效果往往受到现实世界中WWTP运营数据空间不平衡的限制。为了解决这一问题,我们开发了一个基于空间信息的重采样框架,该框架使用相对局部偏差权重(RLDW)函数来指导样本选择,并结合交叉重采样泛化测试(CRGT)来评估不同重采样策略下的模型鲁棒性。我们将这一框架应用于中国2256个WWTP的运营数据,测试了多种机器学习模型在各种重采样情景下的表现。独立测试集评估显示了模型的强大预测性能(R2 = 0.9403;MSE = 0.0058),而五折交叉验证表明最优模型具有较高的内部一致性(平均R2 = 0.9974;MSE = 0.0039)。CRGT进一步证实了该模型在异构和不平衡数据中的鲁棒性和泛化能力。为了探索区域差异,我们对按地理区域分组的WWTP进行了SHAP分析。结果表明,能源消耗的关键驱动因素存在空间差异:在南部省份,处理能力起主导作用;而在北部地区,进水BOD?和TN的影响更大。通过将空间不平衡处理与区域特定可解释性相结合,本研究推动了机器学习在能源高效废水管理中的应用,并为制定针对区域的环境政策提供了可操作的见解。
引言
城市污水处理厂(WWTPs)是城市基础设施的重要组成部分,在保护公众健康和水生生态系统方面发挥着关键作用。然而,它们也是城市系统中能源消耗最大的设施之一。在中国,快速的城市化导致了大规模的WWTP建设,这些设施占全国总能源使用的约0.3%和城市能源消耗的17.9%(He等人,2019年)。由于经济发展、技术水平和运营条件的显著区域差异,WWTP的能源消耗表现出显著的空间异质性。鉴于工厂规模和地理分布的广泛差异,准确预测WWTP的能源消耗对于制定针对区域的能源管理策略和减轻环境影响至关重要。
机器学习(ML)技术已广泛应用于WWTP的能源消耗建模(Zhang等人,2021年)。例如,对墨尔本WWTP的研究表明,引入时间滞后变量可以显著提高预测准确性(Harrou等人,2023年)。其他研究比较了多种ML算法,强调了集成方法(如随机森林和极端梯度提升)在能源预测任务中的优越性能(Alali等人,2023年)。还有研究通过贝叶斯优化优化模型超参数来预测总氮去除率和总能源消耗(Ye等人,2024年)。特征选择方法,包括人工神经网络、梯度提升机和随机森林,也被用来探索变量关系并量化预测不确定性(Bagherzadeh等人,2021年)。总体而言,这些研究表明ML模型能够有效捕捉控制WWTP能源消耗的非线性关系。然而,大多数现有模型都是使用局部数据集开发的,这限制了它们在多样化气候、地理和运营环境下的泛化能力。此外,许多高性能的ML模型本质上仍然是黑箱模型,为实际决策提供的可解释性有限(Chuntao等人,2024年)。
在WWTP能源建模中一个关键但尚未充分探索的挑战是不平衡回归问题,其中目标变量(例如单位能源消耗)呈现出高度偏斜的分布。这种不平衡通常由少数高能耗设施引起,会严重降低传统ML模型的性能,因为这些模型倾向于偏好主导模式,同时低估了极端但具有操作重要性的情况。尽管提出了许多方法来解决数据不平衡问题,但大多数方法主要是为分类任务开发的,因此不直接适用于连续回归问题。常见的方法包括随机过采样、随机欠采样、两阶段学习、合成少数样本过采样和动态采样(Ghosh等人,2024年;Johnson和Khoshgoftaar,2019年;Rezvani和Wang,2023年),但这些方法往往对连续结果的支持力度有限,会扭曲潜在的统计分布,或者无法充分保留罕见但影响较大的样本。为了克服这些限制,本研究提出了一个交叉重采样机器学习框架,该框架结合了三种欠采样策略——阈值欠采样、随机欠采样和逆直方图欠采样——专门针对连续且偏斜的能源消耗数据设计,同时保留了对能源优化至关重要的高能耗异常值。
模型可解释性是基于ML的WWTP研究中的另一个关键问题。虽然解释性分析有助于识别重要驱动因素,但大多数现有研究侧重于全局解释,缺乏对不同区域或运营环境的区分。例如,SHapley Additive exPlanations(SHAP)已被用于解释瑞典乌梅奥WWTP预测总悬浮固体的极端梯度提升模型(Wang等人,2022年),以及用于改进伊朗大不里士WWTP的生化需氧量和化学需氧量预测的数字孪生模型(Nourani等人,2025年)。这些研究展示了SHAP在特征归因和模型解释方面的价值。然而,明确检查特征贡献区域差异的SHAP应用仍然有限。
在这项研究中,我们做出了以下关键贡献。首先,我们使用涵盖中国2256个工厂的全国性数据集,开发了一个可扩展且可转移的ML框架,用于WWTP能源消耗预测,捕捉了多样的地理和运营特征。其次,我们引入了一种CRGT策略用于不平衡回归,结合相对局部偏差权重函数和多种欠采样技术来提高预测准确性和鲁棒性。第三,我们通过整合基于SHAP的空间分析来提高模型可解释性,从而能够识别特定区域的能源消耗驱动因素。通过将WWTP按省级进行分组,我们证明了关键变量对能源消耗的贡献在不同区域背景下存在显著差异——这是现有文献中较少涉及的方面。通过同时解决数据不平衡和可解释性问题,本研究为WWTP能源建模提供了一个强大且可操作的框架,为运营优化提供了设施级别的见解,并为区域规划和国家脱碳战略提供了宏观层面的支持。
数据描述与分析
本研究使用了2018年中国城市污水处理厂的运营数据,数据来源于《中国城市排水年鉴》。在数据预处理阶段,根据动态3σ原则移除了3%的异常样本。动态3σ标准仅适用于进水/出水水质变量和处理能力。单位能源消耗(UEC)值未被移除,确保所有高能耗和低能耗样本都被保留。
相关性分析结果
如相关性热图(图3)所示,能源消耗与进水COD(0.37)呈中等正相关。它还与进水BOD?(0.31)呈正相关。其余变量的相关性较弱(接近0)。这表明能源消耗主要受进水有机物质指标的影响。处理能力与每个变量之间的相关性较弱。最高的相关系数为0.12(进水BOD?)。
结论
本研究提出了一个新颖的交叉重采样机器学习框架,旨在解决不平衡回归问题并提高WWTP能源消耗预测的性能。本研究的主要发现如下:
(1)所提出的交叉重采样框架整合了RLDW、CRGT和多种机器学习算法。该框架适用于连续且偏斜的环境数据(如WWTP能源使用)。通过保留罕见的高能耗样本,有助于
CRediT作者贡献声明
常晓凡:撰写——审阅与编辑、撰写——初稿、可视化、验证、软件、方法论、调查、正式分析、数据管理、概念化。魏安磊:撰写——审阅与编辑、监督、项目管理、方法论、资金获取、概念化。胡浩:验证、方法论。唐康荣:验证、数据管理。郭洋洋:软件、正式分析。岳生博:方法论、正式分析。史汉晓:软件,
利益冲突声明
作者声明他们没有已知的可能会影响本文工作的财务利益或个人关系。
致谢
本研究得到了国家自然科学基金(项目编号:51208424、U24A20191)、西安科学规划项目(23SFSF0009)和陕西省重点研发项目(2024NC-YBXM-228)的支持。