《Journal of Environmental Chemical Engineering》:Hybrid prediction framework for total nitrogen in freshwater lake watershed based on the northern goshawk optimization and multiple machine learning methods: an integrated strategy from data cleaning to model optimization
编辑推荐:
总氮动态预测的混合建模与优化研究提出整合数据预处理、特征筛选、时空分解与智能优化的综合框架,通过KNN插值与Kalman滤波提升数据质量,采用VMD分解多尺度时间特征,结合RF和TCN模型预测,并运用NGO算法协同优化超参数,在鄱阳湖流域验证中显著提升R2(最高达0.8995)和降低MAPE(至5.16%),证实了方法在复杂水文环境下的稳定性和普适性。
Xihua Wang|Chengming Luo|Y. Jun Xu|Shunqing Jia|Zejun Liu|Boyang Mao|Yan Dai|Yanxin Rong|Qinya Lv|Xuming Ji
同济大学土木工程学院,中国上海四平路1239号,200092
摘要
准确预测流域内总氮(TN)的动态变化对于支持水质管理和污染控制至关重要。然而,在处理非线性时间特征以及数据质量较差的情况下进行预测时,仍存在方法和技术上的挑战。为了解决这些问题,本研究提出了一个综合的混合预测框架。为了提高数据质量,采用了K最近邻插值和卡尔曼滤波方法,随后使用随机森林(RF)进行特征选择。变分模态分解(VMD)用于时间特征提取,而随机森林和时间卷积网络(TCN)则用于预测。为了进一步优化模型性能,引入了北方鵟优化(NGO)算法来联合调整VMD、RF和TCN的超参数。结果表明,所提出的混合模型显著优于单独的模型。具体而言,与单独的RF模型相比,NGO-VMD-NGO-RF模型将平均R2值从0.8077提高到0.882,并将平均绝对百分比误差(MAPE)从6.6211%降低到5.0603%;同样,NGO-VMD-NGO-TCN模型将平均R2值从0.5908提高到0.8995,MAPE从9.7487%降低到5.1565%。此外,该混合框架还表现出更强的稳定性和泛化能力。这项研究为复杂流域环境中的高精度TN预测提供了有效的解决方案,并为智能水环境管理和污染控制提供了宝贵的见解。
引言
氮污染被广泛认为是全球主要的环境挑战之一,通过其复杂的生物地球化学循环和在陆地-水域界面的高流动性,对水质和水生生态系统功能产生显著影响[1]。过量氮输入湖泊、河流及相连水体会加剧营养负荷,并在强水文连通性和人为干扰条件下引发一系列相关的生态响应[2],[3]。作为代表多种氮物种和转化过程的综合指标,总氮(TN)浓度提供了水生系统中氮富集和污染压力的全面衡量标准[4],[5]。因此,准确预测TN的动态变化对于有效进行流域尺度的水质评估、管理和污染控制至关重要。
随着机器学习技术的快速发展,数据驱动的方法越来越多地应用于TN预测。然而,尽管取得了显著进展,但在整个建模过程中仍存在一些挑战。水质监测数据经常受到缺失值和噪声污染的影响,这削弱了模型的可靠性。现有研究应用了各种插值和去噪技术,如线性和样条插值[6],[7]、Savitzky–Golay滤波[8],[9]以及基于小波的去噪[10]。虽然这些方法提高了数据的完整性和平滑度,但它们通常对复杂且动态变化的水环境适应性有限,无法充分捕捉时间序列数据中的时间依赖性。
TN预测面临多维输入特征和复杂的非线性时间结构的挑战。特征选择方法,包括皮尔逊相关性分析和递归特征消除,已被用来减少冗余并提高模型效率[11],[12]。同时,时间序列分解技术如经验模态分解和集成经验模态分解被广泛用于提取多尺度时间信息[13],[14]。然而,这些方法常常受到冗余特征相互作用以及模态混合和分解不稳定性的影响,限制了它们在模拟高度非线性和非平稳水质过程中的有效性。
先进的机器学习和深度学习模型,包括随机森林(RF)[15],[16]和时间卷积网络(TCN)[17],[18],在环境预测方面展示了强大的预测能力。成功应用包括地下水硝酸盐估计[19]、水质指数预测[20]、叶绿素-a预测[21]和废水处理过程建模[22]。然而,这些模型的性能对超参数设置非常敏感,传统的调整策略如网格搜索和手动调整在高维参数空间中计算效率低下,且容易得到次优解。
为了解决这些问题,本研究提出了一个综合且分阶段的TN预测框架,该框架整合了数据预处理、特征处理、时间分解、预测建模和智能优化。具体来说,结合了K最近邻(KNN)插值和卡尔曼滤波(KF)来提高数据质量,使用随机森林进行特征选择,并引入变分模态分解(VMD)来提取多尺度时间特征。此外,使用北方鵟优化(NGO)算法来联合调整VMD、RF和TCN的关键超参数,从而提高预测精度、稳定性和计算效率。该框架应用于鄱阳湖流域,以证明其在复杂水文和人为条件下的有效性。
本研究的主要创新点如下:(1)开发了一个系统化的、分阶段的TN预测框架,将数据预处理、特征处理、模态分解和模型优化联系起来;(2)在复杂流域环境中实现了稳健且高度准确的TN预测。
研究区域
研究区域
鄱阳湖流域(北纬24°29′–29°04′,东经113°34′–118°28′)位于长江中下游的南岸,是中国最大的淡水湖流域,是长江水生健康的关键生态屏障(图1)[23]。该流域涵盖了多样的地貌景观,从周围的山区和丘陵地带过渡到中部的鄱阳湖平原,其特征是由
预处理结果
KNN算法在插值过程中表现良好,能够通过完全捕捉数据的固有趋势特征成功插补各种水质指标的缺失值(图4,图S1-S20)。原始观测值以连续的形式展示了水质指标在时间维度上的真实轨迹;而插补值则精确地填充了缺失数据的位置。
模型性能的多尺度归因
尽管所提出的混合模型在大多数监测站点的预测精度较高,但仍观察到模型性能存在明显的空间异质性。特别是,一些站点(JJDC、KMJK、SYJK、XL)的R2值相对较低。这种现象主要归因于各站点之间的水文复杂性和人为干扰强度的差异。位于河流-湖泊交汇区附近、人口密集的站点
结论
本研究通过整合数据预处理、特征选择、模态分解、优化算法和机器学习技术,开发了一个用于鄱阳湖流域TN浓度的混合和系统化预测框架。基于多个站点的长期监测数据,主要结论如下:
- (1)
所提出的框架有效提高了模型输入的可靠性和代表性,并增强了学习能力
CRediT作者贡献声明
Xihua Wang:撰写——初稿,监督,资源获取。Qinya Lv:软件,方法论。Xuming Ji:软件,方法论。Yan Dai:软件,方法论。Yanxin Rong:软件,方法论。Zejun Liu:形式分析,概念化。Boyang Mao:形式分析,概念化。Y. Jun Xu:撰写——审稿与编辑,监督。Shunqing Jia:形式分析,概念化。Chengming Luo:撰写——初稿,验证,软件,方法论,形式化
利益冲突声明
作者声明他们没有已知的可能会影响本文工作的财务利益或个人关系。
致谢
本研究得到了中央高校基本科研业务费(22120250242)和上海市海外高层次人才计划及上海市领军人才(海外)计划的支持。