《Groundwater for Sustainable Development》:Controls and predictions of geogenic redox-sensitive contaminants in Danish groundwater
编辑推荐:
地下水污染控制与机器学习预测研究。本研究基于丹麦7100余口井的高密度监测数据,结合34项地质水文参数,运用LightGBM算法构建了砷、锰、铁、铵态氮及总磷五种污染物的空间分布预测模型。结果显示,As、Mn、Fe、NH4超过饮用水标准的区域分别占丹麦总面积的14%、78%、74%、80%,P超标区域占49%。模型AUC值达0.85-0.90,揭示复杂第四纪地层、隔水黏土层及还原条件(Fe/Mn氧化物还原、有机质降解)是污染迁移的主控因素,并首次实现了丹麦全境多污染物协同分布预测。
乔治奥斯·伊卡罗斯·泽纳基斯(Georgios Ikaros Xenakis)|朱利安·科赫(Julian Koch)|索伦·耶森(S?ren Jessen)|乔尔·波德戈尔斯基(Joel Podgorski)|迈克尔·伯格(Michael Berg)|莱尔克·托林(L?rke Thorling)|约兰塔·卡兹米耶尔恰克(Jolanta Kazmierczak)
哥本哈根大学,地球科学与自然资源管理系,?ster Voldgade 10,1350 Copenhagen K,哥本哈根,丹麦
摘要
地下水是重要的饮用水来源,随着全球需求的增加,保持其质量变得越来越重要。本研究使用分类机器学习模型,分析了丹麦境内五种地质来源的地下水污染物——砷(As)、锰(Mn)、铁(Fe)、铵(NH4)和总磷(P)的空间分布及其控制因素。我们利用来自7,100多个井口的数据以及与土壤、地质、地下水位和补给量相关的34个空间协变量来训练模型。这些模型的曲线下面积得分在0.85到0.90之间。预测超出饮用水指导阈值(As、Mn、Fe、NH4)或生态系统状态阈值(P)的区域分别占丹麦总面积的14%、78%、74%、80%和49%;其中超过60%的区域被高置信度分类,不确定性因监测密度等因素而异。这些二维空间预测整合了多深度观测数据,并反映了地质和水文地质控制因素。砷含量升高主要与冰川融水形成的砂层和粘土层有关,这些层位于第四纪之前的海洋粘土之上。特征重要性分析表明,复杂的第四纪地层结构、限制性的粘土单元以及氧化还原敏感条件(尤其是在存在活性Fe/Mn氧化物和有机物的情况下)驱动了砷的迁移。这五种污染物在还原条件下倾向于共存,表明它们具有共同的氧化还原驱动释放机制。本研究展示了如何利用国家级高分辨率数据集结合机器学习来预测地下水质量,从而辅助井位选择和水质处理决策,并为具有类似水文地质条件的地区提供可借鉴的见解。
引言
地下水是重要的饮用水来源,与地表水生态系统紧密相连,并完全融入全球水循环中,提高了社会和生态系统对水资源短缺、污染和气候变化的抵御能力(Kl?ve等人,2011;Scanlon等人,2023)。其质量受到天然存在的地质成分的严重影响,这些成分可能威胁饮用水的可用性和安全性,对人类健康和环境构成风险(Misstear等人,2022;Mukherjee等人,2024)。在特定的物理化学条件下,某些地质成分(如砷(As)、锰(Mn)、铁(Fe)、铵(NH4)和总磷(P)的迁移会被触发(Kushawaha和Aithani,2021;Lewandowski等人,2015)。有机碳是许多含水层中的主要电子供体,而在还原条件下,锰(Mn)和铁(Fe)氧化物以及硝酸盐(NO3)可以被微生物作为电子受体。这些氧化还原反应导致锰(Mn)、铁(Fe)和铵(NH4)释放到地下水中,包括吸附在锰(Mn)和铁(Fe)氧化物上的砷(As)和磷(P)(Appelo和Postma,2005),从而增加它们的浓度(Lewandowski等人,2015;Smedley和Kinniburgh,2002)。丹麦地下水中的铵(NH4和总磷(P)主要来源于地质过程,人为来源的作用较小,因为这些成分的浓度随深度增加而增加,并与还原条件相关(Kazmierczak等人,2020;Madsen,2019;Postma等人,1991)。由于氧化还原驱动的过程在含水层系统中存在空间差异,了解它们的分布对于保护饮用水供应和地下水的可持续性至关重要。
地下水中最普遍且问题最严重的地质污染物砷(As)具有重大的毒理学影响(Mukherjee等人,2024)。长期摄入超过一定浓度的砷(As)和锰(Mn)可能导致癌症和神经毒性(世界卫生组织,2022)。锰(Mn)、铁(Fe)和铵(NH44的味道和气味制定了健康导向的阈值。总磷(P)的过量会对依赖地下水的生态系统健康产生不利影响(S?ndergaard等人,2005),进而影响水生生态系统服务人类福祉。它还可能通过占据吸附位点阻碍地下水中砷的去除(Katsoyiannis等人,2008)。
鉴于这些地质成分释放到地下水中对健康和环境造成的风险,了解它们的空间分布及其控制因素对于有效的公共卫生和环境管理至关重要。近年来,由于机器学习(ML)算法的大规模适用性和整合空间连续控制因素的能力,它们越来越多地被用于绘制地下水质量地图,能够捕捉到基于点插值方法无法表示的复杂关系(Gómez-Escalonilla等人,2024)。这些算法利用预测地图和点观测数据来估计广阔空间范围内的地下水质量参数。ML技术已被广泛用于预测地下水中地质污染物的空间分布,特别是砷(As)和氟化物(F),以及在较小程度上锰(Mn)、铁(Fe)和盐度(Araya等人,2023;Erickson等人,2021;Podgorski等人,2022;Podgorski和Berg,2022,2020)。然而,在地理空间ML研究中,磷(P)和铵(NH4受到的关注相对较少(Li等人,2022;Perovi?等人,2021)。尽管ML模型有助于提高对水文地球化学相互作用的理解,但只有少数研究同时建模了多种成分(Tesoriero等人,2017;Xia等人,2024),而成分的共存对地下水管理和饮用水处理具有重要意义。
在像丹麦这样的国家,地下水是主要的饮用水来源,因此地下水质量尤为重要。最近的研究利用高密度的丹麦地下水质量数据开发了全国范围内的氧化还原条件ML模型(Koch等人,2024,2019)。然而,迄今为止,还没有全国范围的研究使用地理空间ML来建模和绘制砷(As)、锰(Mn)、铁(Fe)、铵(NH4或总磷(P)等地质成分的分布图。在流域层面,最近的研究将地下水中的磷(P)负荷与湖泊生态系统联系起来(Kazmierczak等人,2021;Nisbeth等人,2019),磷(P)的迁移是由沙质含水层中的铁(Fe)氧化物还原和有机物(OM)降解驱动的(Kazmierczak等人,2020)。其他丹麦研究将含水层中铁(Fe)和铵(NH4浓度的增加与有机物(OM)降解联系起来,导致铁(Fe)氧化物还原和锰(Mn)的迁移(Larsen等人,2006;Postma和Appelo,2000)。一项大范围的分析显示,丹麦的砷(As)含量较高,主要归因于在还原条件下溶解的铁(Fe)氧化物释放砷(As)(Giménez-Forcada等人,2022)。
在这项研究中,我们开发了单独的地理空间分类模型,以绘制砷(As)>5 μg/L、锰(Mn)>50 μg/L、铁(Fe)>200 μg/L和铵(NH4>50 μg/L的概率,这些浓度超过了丹麦的饮用水限制(Thorling等人,2024)和相关的欧盟标准(EU 2020/2184)。总磷(P)也在100 μg/L的水平上进行了建模,因为在这种浓度下直接排放到湖泊中会对湖泊的生态状态产生负面影响(S?ndergaard等人,2005)。选择这些成分是因为它们在丹麦至少10%的井口中超过了各自的限制。我们的目标是:(1)在国家范围内绘制这五种地质成分高浓度的高分辨率(即100×100米)空间分布图;(2)更好地了解控制其空间分布的环境因素和水文地球化学过程;(3)展示ML方法在高密度数据环境中的表现,为多种地质污染物提供可靠的预测和不确定性地图,包括那些在以往ML应用中较少研究的成分。
尽管在地下水质量建模的地理空间ML应用方面取得了近期进展,但本研究仍包含一些关键的创新方面,例如:1)系统地建模五种地质成分,以了解它们的共存、相互关系和控制因素,其中砷(As)和铵(NH4的分类模型在现有文献中尚未报道;2)通过自助法量化预测不确定性以评估模型可靠性;3)结合地质协变量和高质量数据以提高空间预测精度。空间预测、特征重要性分析和不确定性量化相结合,提供了机制可解释性和信心评估,推动了ML在区域地下水管理中的应用。
研究地点
丹麦位于北欧,面积约为43,000平方公里,地形低洼,最高海拔约为170米。该国包括日德兰半岛以及波罗的海西南端的约450个岛屿,主要包括西兰岛、菲英岛和博恩霍尔姆岛(图1)。
地表地质反映了更新世期间冰川和间冰期过程的广泛影响,尤其是最后一次冰川期。
模型指标
表S3提供了LightGBM超参数及其针对每个目标成分的最佳值概述。补充表S4和S5报告了超参数调整期间5折交叉验证(5-fold CV)以及随后在独立测试集上的评估结果。使用训练集上的5折交叉验证有助于避免数据泄漏,确保泛化能力,并在调整过程中降低计算成本(相比10折交叉验证)。结果与之前获得的结果一致。
结论
本研究展示了将高质量的国家地下水数据集与机器学习相结合,创建可靠的地质成分地理空间预测的有效性。我们成功开发了五个分类ML模型,用于估计砷(As)、锰(Mn)、铁(Fe)、铵(NH4和总磷(P)超过阈值浓度的可能性,这是丹麦的首次尝试,而铵(NH4和总磷(P)的建模也是国际上的首次尝试。通过我们的地理空间预测以及相关的发展……
CRediT作者贡献声明
乔尔·波德戈尔斯基(Joel Podgorski):撰写——审稿与编辑、方法论、概念化。朱利安·科赫(Julian Koch):撰写——审稿与编辑、验证、软件、方法论、数据管理、概念化。索伦·耶森(S?ren Jessen):撰写——审稿与编辑、可视化、验证、方法论、概念化。乔治奥斯·伊卡罗斯·泽纳基斯(Georgios Ikaros Xenakis):撰写——审稿与编辑、初稿撰写、可视化、验证、方法论、形式分析、数据管理、概念化。迈克尔·伯格(Michael Berg):撰写——审稿与编辑,
未引用参考文献
Erickson等人,2019;世界卫生组织,2022。
数据可用性
本研究使用的所有数据都是公开可获得的。主要数据集来自(1)丹麦的国家井数据库(Jupiter),(2)丹麦地质门户网站,以及(3)丹麦国家水文模型(见下方链接)。其他数据集也是公开可访问的,并在文中进行了引用。
1.2.3.利益冲突声明
? 作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
致谢
致谢部分已从匿名手稿中移除,将在接受发表后另行提供。