《Environmental Research》:Prediction of Groundwater Total Nitrogen via an Interpretable Ensemble Machine learning Framework: Implications for Groundwater Diversion Management in Complex Catchments
编辑推荐:
地下水总氮时空分布预测与驱动机制研究,采用多尺度缓冲区分析(500-3500米)确定最优空间尺度(3000米),构建加权投票与堆叠集成机器学习模型,显著提升预测精度(R2=0.87,RMSE=1.11)。SHAP分析揭示景观格局、地形(DEM)和降水非线性交互主导TN空间变异,递归特征消除筛选出9个关键驱动因子,为流域精准氮管理提供方法论支持。
孙琪琪|崔玉环|王杰|陈冠宇|张淑慧|杨明|刘梦宇|郝双|刘琳
安徽农业大学资源与环境学院,中国合肥230036
摘要
地下水中总氮(TN)是地下水生态安全的关键指标,准确的预测和驱动因素识别对于有针对性的氮控制及流域管理至关重要。为了解决单一模型的局限性并更好地捕捉复杂相互作用,本研究以巢湖的主要支流——杭埠河流域为例进行了研究。在2024年11月至2025年9月的六次监测活动中,从59个监测井收集了地下水中总氮数据以及与气候、地形、土地利用、植被和土壤性质相关的多个环境变量信息。通过多尺度缓冲区分析(500–3,500米),确定了最佳的空间尺度,并在此基础上开发了一个可解释的集成机器学习框架,该框架结合了加权投票和堆叠策略。结果表明,3,000米的缓冲区是最佳的预测尺度。集成学习提高了预测性能:投票方法获得了最高的准确率(R2 = 0.87),而堆叠方法则具有最低的误差(RMSE = 1.11,MAE = 0.76);F检验(p < 0.05)证实了这些改进的稳健性。SHAP分析表明,地下水中总氮的空间变异性主要与景观配置(CIRCLE_MN)、地形(DEM)和降水量之间的非线性相互作用有关。基于Spearman相关性排序的递归特征消除显示,前九个预测因子能够捕捉到控制地下水中总氮变异性的关键信息(R2 = 0.81)。所提出的集成学习框架有助于更好地理解复杂流域中的地下水氮动态,并为精确的地下水氮污染控制提供了实用的方法论支持。
引言
作为地球上最丰富的可获取淡水资源之一,地下水对人类社会的可持续发展具有重要的战略意义(Li等人,2022年)。根据联合国教科文组织的报告,全球近一半的人口依赖地下水作为主要饮用水来源,同时地下水在确保农业灌溉、水产养殖和工业供水方面也发挥着重要作用(Jiang等人,2022年)。在中国,地下水是国家水资源安全的关键组成部分,尤其是在主要粮食生产区确保农业生产并支持城市供水(Liu等人,2013年)。与地表水相比,地下水的更新率较低,自净能力也较弱;一旦受到污染,修复工作极具挑战性,恢复期可能长达数十年,且成本极高(Gao等人,2021年)。
随着农业和城市化的加剧,由过量氮和磷输入引起的农业非点源污染已成为影响地下水质量的主要因素(Sheng等人,2020年)。这种污染具有扩散性、隐蔽性和滞后效应,通过降雨径流和农田渗透等复杂途径渗入地下水,对区域水生生态系统和饮用水安全构成长期潜在威胁(Jia等人,2020年)。在中国的主要粮食生产区,高强度的农业活动与有利的水文地质条件相结合,加剧了营养盐污染(Mahboobi等人,2023年)。总氮(TN)在地下水中表现出复杂的迁移和转化过程,这一过程受到生物地球化学过程(如硝化作用、反硝化作用)以及水文地质条件和人为活动的驱动。准确预测TN浓度的空间分布可以直接反映农业活动对地下水的影响,并为流域内的氮循环管理提供定量支持。因此,精确模拟地下水TN的空间分布并识别关键驱动因素对于区域绿色农业发展和管理决策至关重要。
近年来,由于机器学习(ML)在处理高维、非线性数据集方面的优越能力,它已成为地下水质量预测和污染机制分析的有效且广泛采用的工具(Haggerty等人,2023年;Sham等人,2025年)。人工神经网络(ANNs)、支持向量机(SVMs)、随机森林(RF)和极端梯度提升(XGBoost)等算法已广泛应用于地下水质量建模,并在预测硝酸盐和总溶解固体(TDS)等关键指标方面显示出高准确性(Tong等人,2025年)。此外,深度学习和集成学习方法(包括装袋、提升和堆叠)的出现为捕捉复杂环境系统中的非线性特征相互作用提供了新途径(Tao等人,2022年;Luo等人,2023年)。例如,RF模型已成功应用于德国黑森州的硝酸盐浓度测绘,展示了土地利用、氮平衡和水文地质单元等空间环境变量的显著影响(Knoll等人,2019年)。最新研究表明,将地理信息系统(GIS)与机器学习结合使用可以在监测数据有限的农业灌溉区高效评估地下水质量,大幅降低监测成本(Makhlouf等人,2025年)。这些发现不仅突显了机器学习在处理高维、非线性地下水数据集方面的优势,还为复杂环境系统中的营养盐迁移和转化提供了新的见解。然而,现有研究主要集中在单个机器学习模型的准确性比较上,缺乏对不同集成策略(如加权投票和堆叠)在地下水质量预测中的协同效益的系统性评估。在驱动因素分析方面,大多数研究仍停留在传统的相关性分析阶段,无法量化多个环境因素之间的复杂非线性关系和相互作用,这限制了它们在精准流域管理中的决策支持能力(Barzegar等人,2018年)。
为了解决这些问题,本研究选择了中国安徽省的杭埠河流域作为案例,旨在:(1)开发一个集成多种集成策略(如投票和堆叠)的机器学习框架,系统评估其在预测地下水中总氮浓度方面的性能;(2)利用Shapley Additive exPlanations(SHAP)值定量分析包括气候、土地利用和土壤性质在内的多源因素的贡献和相互作用;(3)通过递归特征消除方法识别一组核心驱动因素,为流域内地下水的精准预防、控制和高效监测提供系统指导。
研究区域概述
杭埠河流域(图1)位于中国安徽省中部(116.6–117.2°E,31.4–31.9°N),涵盖舒城县、肥西县(合肥市)和庐江县的部分地区,其中大部分流域位于舒城县境内。杭埠河的主流发源于舒城县大别山脉余脉的朱头涧北部山区。河流在肥西县的三元镇与丰乐河汇合后,继续流经新河
数据集
降水量和温度是调节地下水水文过程和生物地球化学循环的关键气候因素(Oduor等人,2023年;Persaud和Levison,2021年)。地形特征从根本上控制着地表和地下径流、物质传输和能量再分配(LaBianca等人,2024年)。土地利用是人类活动影响地下水环境的直接体现(Singh等人,2019年)。植被,特别是
单模型性能比较
四种模型(MLP、SVR、RF和XGBoost)的模拟结果在500至3,500米的缓冲区内进行了比较。如表2所示,MLP的R2值在0.39(2,500米)到0.75(3,000米)之间波动较大,表明其对空间尺度敏感度较高,且在较小缓冲区内的拟合性能不稳定。XGBoost也表现出类似的趋势,R2值在0.46(500米)到0.82(3,000米)之间,其在较大尺度上的表现最佳
不同缓冲尺度对模型预测精度的影响分析
正确确定缓冲区尺度是地下水环境评估的关键组成部分,因为它直接影响模型表示污染物迁移路径和源-汇关系的能力(Lee等人,2021年)。通过多尺度比较分析,本研究确定3,000米的缓冲区是捕捉杭埠河流域地下水中总氮浓度空间变异性的最佳尺度。这一尺度避免了信息缺失的问题
结论
本研究开发了一个可解释的集成机器学习框架,用于预测杭埠河流域地下水中总氮并识别其关键驱动因素。结果表明,3,000米的缓冲区是最佳的空间尺度。在该尺度下,投票集成方法获得了最高的预测准确率(R2 = 0.87),而堆叠集成方法则表现出更好的误差控制能力(RMSE = 1.11,MAE = 0.76)。统计测试证实了集成模型的显著优势
作者贡献声明
刘琳:写作 – 审稿与编辑,监督。王杰:方法论,调查,正式分析,概念化。陈冠宇:写作 – 审稿与编辑,验证,方法论,概念化。孙琪琪:写作 – 审稿与编辑,初稿撰写,可视化,方法论,数据管理,概念化。崔玉环:写作 – 审稿与编辑,验证,调查,资金获取,正式分析,概念化。刘梦宇:数据管理,
未引用的参考文献
Harkort和Duan,2023年;Lepot等人,2016年;Li等人,2022年;Reddy Y等人,2024年;Song,2015年;Yang等人,2023年;Zheng和Wang,2021年。
数据可用性
数据可应要求提供。
利益冲突声明
作者声明没有已知的财务利益或个人关系可能影响本文所述的工作。
致谢
本研究得到了安徽省自然科学基金(编号2308085MD114)、国家自然科学基金(编号32171573)和安徽省大学自然科学研究项目(编号2023AH051002)的资助。