编辑推荐:
污染源不确定性量化在裂隙网络中的应用研究。通过贝叶斯证据学习(BEL)方法,利用实验室与合成数据训练,结合鲁棒马氏距离(RMD)异常检测、主成分分析(PCA)与典型相关分析(CCA)降维技术,构建污染源位置、释放时间及浓度的联合概率分布模型。实验表明该方法有效缓解传统反演方法对初始假设敏感、计算成本高等问题,通过离线训练实现快速后验预测,提升地下水污染溯源的可靠性。
苗可汉|黄勇|张乐|郭立明|傅志敏|托马斯·赫尔曼斯
中国南京河海大学地球科学与工程学院
摘要
确定污染源特性对于地下水修复至关重要,尤其是在裂缝网络中,源的不确定性使得评估变得复杂。传统的逆向方法通常需要大量的正向模拟,并依赖于明确的似然性和误差模型规范,这在不确定性条件下可能计算要求高且具有挑战性。在这里,我们提出使用贝叶斯证据学习(BEL)来量化裂缝网络中的污染源不确定性,该方法通过离线训练集合学习观测到的突破曲线(BTCs)与源特性之间的关系,从而减少计算负担并降低对主观似然性规范的敏感性。训练数据包括从先验分布中抽取的目标(污染源位置、释放时间和浓度),以及通过在具有水文地质不确定性(入流速度和裂缝开口)的裂缝网络中进行正向模拟获得的相应预测因子(BTCs及其统计特征)。鲁棒马氏距离(RMD)被用于多维异常值检测,以排除与观测结果不一致的源位置。然后使用独热编码对一致的源位置进行离散化。主成分分析(PCA)和典型相关分析(CCA)被用来建立预测因子和目标之间的联合概率分布函数。接下来,我们将学习到的关系应用于实验室和合成数据中的裂缝网络溶质传输,以预测后验源分布。BEL后验指导了一种暴力蒙特卡洛随机搜索,通过最小化模拟和观测到的BTC之间的不匹配来优化污染源参数,从而提高可识别性。结果准确预测了实验值,有效量化了裂缝网络中的污染源不确定性,并为追踪地下水污染提供了一种新方法。
引言
地下水污染已成为一个重大的全球环境问题,对人类健康、农业和生态系统构成严重威胁(Karunanidhi等人,2024年;Shaji等人,2021年)。地下水污染是隐蔽的,检测存在滞后,这使得及时识别污染源和实施修复措施变得困难。裂缝网络在地下水流动和储存中起着关键作用,这在结晶含水层中尤为普遍。在硬岩含水层(如花岗岩、石灰岩和其他低孔隙度地层)中尤其如此,因为地下水流动主要受裂缝网络的控制(Neuman,2005年)。这需要对污染源进行有针对性的不确定性分析,以便在裂缝含水层中有效控制污染和进行风险评估(Wang等人,2024年)。裂缝网络复杂的几何形状和多尺度水动力特性使得污染传输路径难以预测,污染源的时空特性具有高度不确定性。开发分析裂缝网络中污染源信息不确定性的方法对于确保可持续的地下水资源和环境安全至关重要(Hermans等人,2023年)。
由于逆问题的不适定性和参数不确定性,识别地下水污染源面临关键挑战(Barati Moghaddam等人,2021年)。现有方法主要包括模拟-优化、贝叶斯推断、数据同化和直接方法。模拟-优化是一种常见的反演技术,通过最小化模拟数据和观测数据之间的差异来推断源特性(Ayvaz,2010年;J.Li等人,2023年;Y. Li等人,2023年;Zhu等人,2023年)。尽管它具有强大的搜索能力,但它严重依赖于初始条件,当这些初始条件与真实值相差较大时,该方法可能会收敛缓慢或提前收敛(Hou等人,2021年)。贝叶斯推断结合先验信息和观测数据来概率表示污染源参数。然而,广泛使用的马尔可夫链蒙特卡洛(McMC)方法计算成本很高,尤其是在高维问题中,收敛速度可能很慢(Yan等人,2020年;Zhang等人,2015年;Zhou和Tartakovsky,2021年)。数据同化整合观测数据以更新系统状态和参数(Jing等人,2023年;Li等人,2022年;Wang等人,2024年;Xu和Gómez-Hernández,2016年)。虽然有效,但传统实现往往难以处理裂缝网络中发生的高度非线性传输过程,因为它们经常依赖于特定的分布假设。这使得它们不太适用于流动路径极其不均匀的复杂裂缝含水层。直接方法通过逆向求解污染传输方程(例如对流-扩散方程)来确定源特性。尽管在理想条件下准确,但这种方法仅适用于简单的水文条件和均匀介质,对于复杂流场或多源场景来说不够适用(Li等人,2006年)。这些挑战促使了基于模拟的推断(SBI)的出现,也称为无似然推断(Cranmer等人,2020年)。SBI已成为解决似然函数计算上不可处理问题的强大范式。通过利用大量基于先验的模拟来学习观测值和参数之间的直接映射,SBI实现了分摊推断,一旦模型训练完成,对新数据的后验预测几乎是即时的。
上述的确定性和随机方法已广泛应用于源识别。然而,正如许多水文地质学中的逆问题一样,污染源识别往往是不适定的,表现出非唯一性和对小数据扰动的敏感性(Zhou等人,2014年)。污染传输路径的变异性可能导致来自不同源设置的相似观测结果,增加了逆问题的解的不稳定性(Andrle等人,2011年)。尽管这两种方法都受到必要模型简化的限制,但它们在表示解决方案的方式上存在显著差异。确定性方法通常旨在通过校准来识别单一最优参数集,但这可能无法反映系统的固有不确定性。与确定性方法不同,随机方法旨在获得目标的多个实现,从而允许量化不确定性(Hermans等人,2016年)。观测数据中的错误和污染传输模型中的不确定性进一步加剧了源识别的不确定性(Barati Moghaddam等人,2021年)。因此,随机方法在裂缝网络中的污染源识别方面可能具有更大的潜力。
为了解决这些挑战,本研究依赖于贝叶斯证据学习(BEL)进行不确定性分析(Fan等人,2024年;Hermans等人,2018年;Michel等人,2020年,2023年;Yang等人,2023年),旨在解决与裂缝网络中污染源识别相关的高维性和强不确定性问题。BEL属于更广泛的SBI框架,是一种可解释的、基于联合分布的策略。虽然许多SBI实现侧重于直接通过神经密度估计器近似似然性或后验分布,但BEL使用多变量降维技术在低维空间中有效表示污染源数据。然后使用核密度估计(KDE)在低维空间中估计污染源的后验分布,并将其转换回物理空间。与传统贝叶斯方法不同,BEL在计算上具有显著优势,因为先验样本的生成是独立的,可以在多个处理器上完全并行化(Satija和Caers,2015年;Hermans等人,2016年,2018年;Michel等人,2020年;Thibaut,2023年)。此外,一旦建立了先验集合,它提供了一个全面的模型空间,可以通过伪造-推断工作流程快速用于各种观测。与McMC收敛所需的数十万次顺序模拟相比,其后验估计在计算上更高效。在先验不确定性较大的情况下,该方法已被证明可以很好地近似后验分布,尽管可能会高估不确定性(Michel等人,2023年)。如果需要,可以通过应用更先进的BEL结果处理方法来纠正这一点,例如迭代先验重采样(Michel等人,2023年)或数据不匹配阈值处理(Ahmed等人,2024年;Aigner等人,2025年)。
本研究的目的是探索BEL在量化裂缝网络中污染源不确定性方面的潜力。我们的目标不是追求单一的确定性解决方案,而是提供一个稳健的后验分布,该分布反映了突破曲线(BTCs)的信息内容,同时确保真实源参数被包含在估计的不确定性范围内。使用实验室裂缝网络模型,我们评估了该方法在预测污染源位置和释放特性(例如释放时间、浓度)方面的准确性。该研究涵盖了从先验模型构建和观测数据收集到后验分布预测的整个过程,解决了传统模拟-优化和贝叶斯方法在裂缝网络源识别中的不足,并为地下水污染源不确定性分析提供了新的解决方案。
现有的BEL应用主要集中在处理连续变量上,例如多孔介质的物理参数(Fan等人,2024年)或土壤-岩石界面的高程(Yang等人,2023年),对其结合离散信息的能力探索有限。为了填补这一空白,本研究首先使用伪造数据评估训练数据。通过将离散空间位置作为源信息的重要组成部分,并将其与释放时间和浓度等连续属性结合,本研究调查了BEL有效处理混合数据类型的能力。
本文的结构如下:首先,我们介绍方法和理论框架。接下来,描述了裂缝网络模型的构建和污染源的先验分布。然后,我们使用基于实验室的和模拟的观测数据来验证污染源的后验分布预测。最后,讨论了结果和研究局限性。
方法概述
方法概述
BEL旨在建立测试数据(例如突破曲线(BTCs,预测因子)和某些感兴趣的变量(污染源信息和水文地质信息,目标)之间的关系(或联合概率分布f(h,d))。然后,它可以直接基于监测点处的观测到的BTCs d_obs来估计h的后验分布f(h|d_obs),而无需复杂的模型反演(图1)。值得注意的是,污染传输不仅
实验数据
为了测试BEL在识别裂缝网络中污染源信息方面的适用性,进行了关于裂缝网络中溶质传输的实验室实验(图4)。值得注意的是,这项实验的目的是为BEL提供测试数据,而不是探索裂缝网络中的溶质传输模式。因此,溶质传输实验是在自制的裂缝网络模型中进行的,这在操作上具有优势
训练集大小的影响
训练数据集的大小在训练过程中对模型性能起着关键作用(Thibaut等人,2021年)。我们从表1中的15个先验位置随机抽取了120个污染源信息的实现,总共获得了1,800个样本,用于使用第3.2节描述的模拟方法生成训练数据集。为了分析训练集大小的影响,通过从模拟结果中随机抽样创建了子集。
裂缝网络中源识别不适定性的分析
本研究开发的数值模型清楚地说明了裂缝网络中污染源识别的不定性。这种不定性主要源于两个因素:不同空间源位置产生高度相似的突破曲线(BTCs)的能力,以及入口流速和裂缝开口的空间异质性对源识别不确定性的放大效应。
如图13A和13B所示,源位置1,
结论
本研究提出使用贝叶斯证据学习对裂缝网络中的污染源进行不确定性分析。通过整合伪造、PCA和CCA进行降维,并使用独热编码处理离散源位置,BEL克服了传统源识别模型在处理高维和高度不确定的污染源信息方面的局限性,展示了量化裂缝网络中污染源不确定性的潜力
开放研究
本研究中使用的BEL代码可从Thibaut和Ramgraber(2021年)免费获取。
未引用的参考文献
Li等人,2023年;Ma等人,2024年;Michel,2020年;Wang等人,2024年;Wang等人,2024年
CRediT作者贡献声明
苗可汉:撰写——原始草稿、可视化、软件、方法论、资金获取、正式分析、数据管理、概念化。黄勇:撰写——审阅与编辑、监督、资金获取。张乐:软件、方法论、概念化。郭立明:软件、方法论。傅志敏:撰写——审阅与编辑、数据管理。托马斯·赫尔曼斯:撰写——审阅与编辑、监督、方法论、正式分析、概念化。