基于电阻率层析成像时间序列数据的条件扩散模型在水文地质参数估计中的应用
《Advances in Water Resources》:Conditional diffusion models for hydrogeologic parameter estimation from electrical resistivity tomography time-lapse data
【字体:
大
中
小
】
时间:2026年05月10日
来源:Advances in Water Resources 4.2
编辑推荐:
霍塞·L·埃尔南德斯·梅希亚 | 蒂莫西·C·约翰逊 | 格伦·E·哈蒙德 | 皮尤什·贾亚萨尔
美国华盛顿州里奇兰的太平洋西北国家实验室
**摘要**
由于测量到的地球物理响应对地下流动和传输特性的映射具有固有的非唯一性和不适定性,从时间序列电阻率层析成像(ERT
霍塞·L·埃尔南德斯·梅希亚 | 蒂莫西·C·约翰逊 | 格伦·E·哈蒙德 | 皮尤什·贾亚萨尔
美国华盛顿州里奇兰的太平洋西北国家实验室
**摘要**
由于测量到的地球物理响应对地下流动和传输特性的映射具有固有的非唯一性和不适定性,从时间序列电阻率层析成像(ERT)监测数据估计水文地质参数具有挑战性。在这项工作中,我们提出了一种基于人工智能(AI)的方法论,该方法利用条件扩散模型来稳健地估计水文地质模拟参数,并同时明确量化不确定性。我们的方法采用逆向扩散过程,从一个高斯随机向量开始,并根据时间序列ERT监测数据逐步对其进行去噪,以恢复一个29维的参数向量。训练有素的人工智能模型生成了尊重条件数据的地下模型集合,提供了一种评估不确定性的机制。拟合优度量标准用于评估每个参数的不确定性分布的准确性和精确性,避免了不可靠或过度自信的解决方案。通过对美国华盛顿州汉福德100 K East现场进行的原位土壤冲洗处理进行建模的实验结果表明,恢复的参数集生成的ERT模拟数据与给定的条件ERT数据非常吻合,这表明条件扩散模型为包括参数不确定性估计在内的地球物理反演提供了一种稳健的解决方案。
**1. 引言**
电阻率层析成像(ERT)被广泛用于远程成像地下体积电导率,该电导率对孔隙度、饱和度、流体电导率、纹理、矿物学和温度等属性敏感(Binley等人,2015年;Daily等人,2004年;Slater和Binley,2021年)。BEC随时间的变化反映了潜在的水文地质过程,例如由土壤保水特性驱动的潜流区中的流体迁移(Archie,1950年;Van Genuchten和Nielsen,1985年)。这些测量结果为通过提供水文地质参数分布来改进地下建模提供了机会,从而可以减少流动和传输的数值模拟中的不确定性(T. C. Johnson等人,2009年;Linde和Doetsch,2016年)。
数值模拟是地下科学的重要组成部分,但常常由于对异质水文地质特性的了解有限而面临不确定性(Kitanidis,2015年)。一种有前途的方法是从时间序列ERT数据中通过联合反演提取水文地质信息。然而,由于优化问题的不适定性,联合反演本质上是具有挑战性的,这个问题存在非唯一性、不稳定性和非线性(Pleasants等人,2022年;Vanderborght等人,2005年)。传统的ERT反演方法,无论是确定性的还是贝叶斯的,都存在缺点。确定性方法缺乏可靠的不确定性量化(Loke和Dahlin,2002年;Pratt等人,1998年),而贝叶斯方法虽然能够表征后验分布,但在计算效率和多模态后验方面存在困难(Curtis和Lomax,2001年)。深度学习技术,如变分自编码器和生成对抗网络(GANs),已被引入以解决这些挑战,但经常面临训练不稳定或模型崩溃的问题。在这项研究中,我们提出使用基于条件扩散模型(CDM)的生成式人工智能(AI)从时间序列ERT数据中提取水文地质参数。我们采用概率生成框架来解决反问题,使用在高性能模拟器生成的合成ERT数据上训练CDM。正向扩散过程向水文地质参数添加噪声,而逆向过程则通过基于ERT数据的神经网络预测逐步去除噪声。该过程生成了合理的参数集集合,使得不确定性量化和探索多模态解决方案成为可能。
所提出的框架专注于潜流区问题,其中地表施加的水向下渗透并通过ERT电极进行监测。通过并行多物理模拟器PFLOTRAN(Jaysaval等人,2023年)生成合成ERT数据,以训练CDM来估计孔隙度、渗透性、水分保持参数、岩石物理常数和三个地质单元中的流体电导率等属性。CDM输出29个参数的概率分布,这些分布用于基于拟合优度量标准(归一化加权平方误差和WSSE)、Wasserstein距离和集合统计量来评估模型性能。我们的结果表明,反演和条件ERT数据之间有很好的一致性,突出了该模型捕捉多模态不确定性并产生稳健估计的能力。
本文的组织结构如下:第2节回顾了ERT、水文地质建模、反问题和扩散模型进展的背景。第3节详细介绍了方法论,包括CDM训练、架构和评估指标。第4节介绍了基于现场的合成演示设置。第5节讨论了验证结果和多模态不确定性,第6节包括结论。
**2. 背景信息和相关工作**
**2.1. 电阻率层析成像原理和应用**
ERT是一种地球物理技术,通过在电极之间注入电流并在另外两个电极之间测量电位差来成像地下体积电导率或其倒数BEC(Binley和Slater,2020年;Singha等人,2015年)。通过将观察到的电位(V)除以注入的电流(A)得到传递电阻。时间序列调查收集了数千个此类测量结果,以检测随时间变化的地下BEC,为了解盐水示踪剂迁移(Müller等人,2010年)、地下水-河水相互作用(T. C. Johnson等人,2012年;Mamud等人,2025年)、海水入侵(Goebel等人,2017年;Palacios等人,2020年)、 amendment注入(T. C. Johnson等人,2015年;Schmidt-Hattenberger等人,2013年)、生物地球化学反应(Caterina等人,2017年)以及土壤饱和度变化(Brunet等人,2010年;F?th等人,2022年;Wikki和Hauck,2022年)等过程提供了宝贵的见解。这些变化本质上反映了控制这些过程的水文地质特性。关于ERT数据反演以生成地下BEC图像的详细信息可以在其他地方找到(Blanchy等人,2020年;T. C. Johnson等人,2010年;Rücker等人,2006年)。尽管ERT反演已经得到了广泛研究,但直接使用传递电阻进行参数估计的研究较少。本文使用CDM中的传递电阻来估计水文地质参数。
**2.2. 水文地质建模和PFLOTRAN**
PFLOTRAN是一个高性能的地下流动和反应传输模拟器,它通过求解非线性偏微分方程来模拟多相、反应性流动和传输(Hammond等人,2020年)。利用Archie定律(1950年)等岩石物理转换,PFLOTRAN能够模拟与地下过程耦合的时间序列ERT响应(Jaysaval等人,2023年)。这些模拟为理解地下流动和传输提供了关键的基础。然而,它们的预测性能在很大程度上取决于水文地质参数估计的质量,因为这些参数的变化可能会导致模拟结果的巨大差异。这强调了准确参数估计对于改进预测建模的必要性。
**2.3. 使用ERT数据的水文地质参数估计问题**
本研究旨在通过解决一个不适定的反问题从时间序列ERT数据中导出水文地质参数。正向问题涉及求解地下状态(例如流体电导率和饱和度),通过Archie定律(Archie,1950年)将这些状态映射到BEC,并计算与这些状态一致的传递电阻测量值。这种关系表示为:
(1)
mest = f(x)
其中x∈R表示水文地质和岩石物理参数,mest表示模拟的ERT响应。相比之下,反问题旨在从观察到的时间序列ERT数据中估计x,表示为x = f^(-1)(mest)。然而,这种反问题是不适定的且具有挑战性(Hinnell等人,2010年;Pleasants等人,2022年),主要原因有两个:非唯一性,不同的参数集x可以产生相似的ERT响应f(x1) ≈ f(x2) ≈ mest;这是因为ERT测量是水文地质特性(例如孔隙度)、地下状态(例如流体电导率和饱和度)和岩石物理参数的综合响应,导致了一个不确定的系统,不同的模型可以同样好地拟合观察数据。第二个因素是参数与ERT响应之间的关系本质上是非线性的,这使得寻找唯一解变得复杂,并增加了对局部最小值的敏感性。
确定性反方法,如正则化非线性优化(例如Tikhonov正则化(Gerth,2021年)),通过最小化成本函数来解决这些挑战:
(2)
min_x∥f(x)?mobs∥^2+λR(x)
其中R(x)是正则化项,λ平衡数据拟合与x的空间平滑度或稀疏性(Fuhry和Reichel,2012年)。虽然有效,但这些方法缺乏不确定性量化,并且对解决方案的非唯一性了解甚少。
贝叶斯反问题以概率方式解决反问题,使用贝叶斯定理表征参数p(x|m)的后验分布:
(3)
p(x|m)∝p(m|x)p(x)
贝叶斯方法(例如马尔可夫链蒙特卡洛或变分推断)允许不确定性量化。然而,它们在计算需求上对于高维、多模态后验来说变得过于复杂(Franck和Koutsourelakis,2017年)。因此,需要一种既能提高效率又能进行稳健不确定性量化的反演框架。
**2.4. 用于反问题的扩散模型**
深度生成模型的最新进展为解决复杂反问题开辟了新的途径。Ho等人(2020年)引入的扩散模型,并由Dhariwal和Nichol(2021年)进一步改进,证明了通过适当的噪声调度和条件策略,这些模型在样本保真度和灵活性方面可以超过GANs。最近,人们越来越感兴趣于使用条件扩散模型,其中逆过程在辅助数据的指导下生成符合给定条件的输出。这种条件公式不仅使得生成建模更加可控,还为生成输出中的不确定性量化提供了自然机制。
几位作者提出了使用扩散模型解决反问题的方法。Tartakovsky等人(2020年)引入了物理信息驱动的深度神经网络作为学习地下流动问题中参数和本构关系的新方法。他们的方法结合了数据驱动组件和物理定律来增强参数估计过程。研究表明,与传统的事后概率最大方法相比,深度神经网络提供了更准确的估计。Baldassari等人(2023年)提出了一种在扩散模型框架内使用傅里叶神经算子(FNO)的方法来增强地震成像。这种集成促进了条件采样,并提高了成像分辨率、不确定性量化以及捕捉复杂的地质结构的能力。Wang等人(2023年)提出了一种全波形反演(FWI)方法,将生成扩散模型集成到地下模型估计中。他们的方法旨在解决观测数据有限、区域噪声和其他影响分辨率质量的约束所带来的挑战。通过在先验速度模型分布上预训练扩散模型,该方法将这些期望纳入生成过程,即使在观测数据稀疏或噪声较大的情况下也能实现高质量重建。他们的发现表明,所提出的方法在性能上超过了传统的FWI,同时产生的额外计算成本最小。Wang等人(2024年)提出了一个使用生成扩散模型的可控地震速度合成框架。他们的方法侧重于实现高多样性和高质量地震速度生成,采用重建引导采样和无分类器引导机制。通过将跨注意力整合到扩散模型中,他们能够精确控制生成的速度,考虑了地下结构等条件。Zhang等人(2024年)提出了c-DDPM模型,该模型利用去噪扩散概率模型进行地震衍射分离和成像。c-DDPM模型解决了生成高保真地震图像的相关挑战,同时实现了有效的衍射分离。Jacobsen等人(2025年)提出了一个利用生成扩散模型进行现场反演和重建的框架,即使是在测量数据稀疏的情况下也强调遵循物理一致性原则。Dasgupta等人(2025年)提出了一种使用基于条件的分数扩散模型来解决力学中的反问题。这种方法侧重于从全场测量中推断空间变化的材料本构参数。通过将分数生成建模和贝叶斯框架结合起来,他们的方法解决了高维反问题。Dasgupta等人(2025年)提出了一个统一框架,使用偏微分方程的原理来扩展扩散模型的有效性。该方法包括正向和逆向过程的推导,包括保持方差和方差爆炸的公式。Bi等人(2025年)引入了CGM-Wave模型用于地震波形生成,结合了相位恢复方法(PRM)和跨注意力机制。这种方法解决了在捕获高频组件时遇到的采样稀疏和不规则数据集的挑战。他们的结果表明,CGM-Wave在保留细粒度时间和光谱细节方面优于VAE和VER-GAN。
**3. 方法论**
所提出的工作流程结合了使用PFLOTRAN的正向模拟和CDM来进行水文地质参数估计。流程如下:
1. 使用Sobol采样进行正向模拟,生成不同水文地质参数的ERT响应数据集,然后将数据集划分为训练集、验证集和测试集。
2. 对ERT响应数据进行标准化处理。
3. 使用两步程序对水文地质参数进行预处理:首先对跨越多个数量级的参数(例如,水导电率、地表电导率、van Genuchten-Alpha、渗透率)应用对数尺度变换,然后使用最小-最大归一化对所有参数进行缩放。
4. 使用ERT作为条件数据训练并验证扩散模型。
5. 对给定的时间延迟ERT数据集(即观测数据集)对训练好的模型进行采样,以生成参数空间的概率分布。
6. 使用拟合优度指标评估测试集的不确定性。
7. 使用推断出的参数分布,在PFLOTRAN中进行正向模拟,并评估ERT预测的准确性和不确定性。
**3.1 正向模拟**
时间延迟ERT反演需要全面的前向模拟来生成具有代表性的ERT数据。使用PFLOTRAN,通过Sobol序列对水文地质和岩石物理参数空间进行采样(Burhenne等人,2011年),以确保高维域的均匀覆盖。Sobol采样最小化了差异,降低了错过可能产生不同ERT响应的关键区域的风险,因为这是一个病态且非线性的逆问题。形式上,给定描述水文地质特性的参数向量x,Sobol采样生成一组样本{x(i)}i=1N,具有最优的覆盖度,确保ERT条件的分布得到充分表示。这些正向模拟生成的ERT响应被用作训练和验证CDM的条件数据。
**3.2 ERT条件扩散模型**
扩散模型(Ho等人,2020年;Dhariwal和Nichol,2021年)是通过提供完整分布而不是点估计来捕捉高维逆问题中的不确定性的概率生成框架。CDM依赖于一个两步过程:一个正向过程,通过高斯噪声破坏参数向量;一个反向过程,逐步减少噪声。正向过程定义为:
(4) q(xt|xt?1)=N(xt;(1?βt)xt?1,(1?βt)I)
其中,干净的参数向量x0逐渐通过噪声计划βt在T步内被破坏。在步骤t,计算出带有噪声的向量xt:
(5) xt=αt ̄xt?1+1?αt ̄?
(6) αt=1?βt
(7) αt ̄=∏s=1t(1?βs)
其中ε是从标准高斯分布中抽取的样本(即?~N(0,I)),αt ̄表示各步骤间的信号保持,βs是步骤t的噪声方差。
反向扩散过程从纯噪声中迭代重构原始参数向量x0。反向过程由条件分布模型表示为:
(8) pθ(xt?1|xt,c)=N(xt?1;μθ(xt,t,c),σt2I)
常用的参数化设置均值μθ(xt,t, c)为:
(9) μθ(xt,t,c)=1αt(xt?1?αt1?αt ̄?^(xt,t,c))
其中?^(xt,t,c)是给定当前噪声样本xt、步骤t和条件信息c的神经网络模型预测的噪声。方差σt2通常与βt相关(例如,σt2=βt),并在步骤t分配给反向过程。为了对反向过程的随机性进行额外控制,在采样过程中对噪声应用一个缩放因子τ。每步的完整反向更新由下式给出:
(10) xt?1=1αt(xt?1?αt1?αt ̄?^(xt,t,c))+βtτz,z~N(0,I)
然后训练神经网络,根据噪声参数xt、步骤t和条件数据预测噪声?^(xt,t,c),如图1所示。训练目标函数表述如下:
(11) L(θ)=Ex0,t,?[∥???θ^(xt,t,c)∥2]
**下载:下载高分辨率图像(298KB)**
**下载:下载全尺寸图像**
**图1. ERT条件扩散模型。该模型使用来自14次时间延迟调查的4693次ERT测量结果,求解29个水文地质参数(第4.3节)。正向扩散过程(红色箭头)用高斯噪声扰动干净的模拟参数(x0),而反向扩散过程(蓝色箭头)根据ERT观测结果重构参数(x0)。**
**图2. 噪声去除神经网络架构。**该网络由三个主要模块组成。条件编码器处理时间延迟ERT数据,是一个1D卷积神经网络(CNN)。它接收14次调查中的4693个电阻率测量值(输入形状:14 × 4693),通过两个连续的Conv1d层(带有ReLU激活函数)将通道深度从14增加到32,然后到64。一个自适应平均池化层 followed by a linear layer 将这些特征投影到一个紧凑的128维潜空间向量,作为条件信息。步长嵌入模块使用标准正弦嵌入将扩散步长t映射到128维表示,接着是一个带有ReLU激活函数的线性层。最后,噪声预测模块整合这些组件。ERT数据的条件化是通过连接实现的。29个噪声水文地质参数、128维步长嵌入和128维ERT潜空间向量被连接成一个285维向量。然后该向量由一个具有128个神经元的一个隐藏层和一个最终输出层的多层感知器(MLP)处理,预测在该扩散步骤添加的噪声。模型使用Adam优化器进行500个时代的训练,学习率为1x10?4,批量大小为34。扩散计划包括500个步骤,βt值范围从1x10?4到0.02。**
**下载:下载高分辨率图像(292KB)**
**下载:下载全尺寸图像**
**图2. 噪声去除神经网络架构。**该网络根据表1中定义的输入ERT时间延迟测量结果和29个噪声模拟参数向量,预测特定扩散步骤(t)的噪声。扩散步长t使用正弦嵌入进行编码,以提供特定步骤的上下文。ERT测量结果通过带有ReLU激活函数的卷积层和自适应平均池化处理,提取空间特征,得到紧凑的潜在表示。处理后的扩散步长嵌入、ERT特征和噪声模拟参数被连接起来,通过全连接层传递,以预测噪声,帮助重构水文地质参数。**
训练完成后,使用CDM进行反演。对于任何条件ERT数据,从随机高斯向量xT开始还原扩散过程,并通过公式(10)逐步去噪,直到恢复x0。重复此过程并使用不同的初始随机噪声向量,生成一组参数估计pθ(x0|c),为不确定性量化和多模态分布的分析提供基础。
反向扩散过程从随机噪声生成参数估计,每一步都由控制随机性水平的τ参数引导。在本研究中,我们设置τ=1.0,使反向过程完全随机,与DDPM公式保持一致。这个选择对于实现我们的目标是至关重要的,即实现稳健的不确定性量化。虽然确定性路径(τ = 0)会将单个噪声向量映射到单个解,但τ = 1引入的随机性允许模型探索多个解路径。这对于生成有效捕获病态逆问题中的全部后验分布和任何固有的多模态性的多样化的参数集至关重要。
**3.3 CDM不确定性评估**
CDM框架的概率输出允许量化估计的水文地质参数的不确定性。不确定性模型使用Deutsch(1997年)概述的方法,通过精度、准确性和拟合优度指标进行评估。
对于每个估计的参数集,不确定性模型通过一组累积分布Fθk(xi)来定义,这些分布通过参数实现的汇总集合非参数化表示。使用累积分布在对称概率区间内捕获的测试数据点的比例来评估不确定性模型的准确性和精度,概率范围p=j100,对于j∈[1,99]。对于给定的参数xi,对称概率区间定义为:
(12) plow=(1?p)2 和 pupp=(1+p)2
其中pupp和plow是对称的概率区间(PIs)。计算测试数据点ξ(p)k ̄落在每个区间内的观察比例:
(13) ξ(p)k ̄=1/N∑i=1Nξ(p)k
其中ξ(p)k是一个指示函数:
(14) ξ(p)k={1,if Fθk(xi)∈(plow,pupp], 0 otherwise
如果观察到的真实值比例ξ(p)k ̄至少等于指定的区间概率ξ(p)k ̄≥p,对于所有p,则认为不确定性模型是准确的;当ξ(p)k ̄=p,对于所有p,达到最佳精度,确保观察到的比例与名义概率紧密对齐。通过整合所有概率区间内的准确性指标a(p)k来计算摘要准确性指标Ak:
(15) Ak=∫01a(p)kdp
(16) a(p)k={1,if ξ(p)k ̄≥p, else 0}
其中Ak = 1表示完美精度。精度由下式定义:
(17) Pk=1?2∫01a(p)k[ξ(p)k ̄?p]dp
当观察到的比例与名义概率精确匹配时,精度为理想精度。拟合优度Gk衡量准确性图中的45度线的偏差,计算如下:
(18) Gk=1∫01[3a(p)k?2][ξ(p)k ̄?p]dp
其中Gk = 1表示最佳拟合,Gk = 0表示性能较差。这些指标共同提供了一个全面的框架,用于评估不确定性分布的准确性、精度和可靠性。
**3.4 量化ERT数据拟合**
从CDM导出候选参数集后,在PFLOTRAN中进行正向模拟,使用这些参数x0(i)计算它们的相关ERT响应mest(i):
(19) mest(i)=f(x0(i))
其中f(x0(i))表示基于候选参数实现的正向模拟ERT数据。生成N个参数样本,得到参数集合{mest(i)}i=1N,使参数不确定性传播到模拟的ERT响应中。计算分布的统计摘要,以评估反演框架的一致性和可靠性。使用两个指标,加权平方误差的标准化总和(WSSE)和Wasserstein距离,来评估CDM生成的参数与条件ERT数据的拟合度。WSSE量化反演mesti和条件ERT数据ci之间的逐点不匹配。WSSE由下式给出:
(20) WSSE=1/N∑i=1N(mesti?ci)2sdi2
这里,sdi2是计算出的测量不确定性:
(21) sdi2=A|mi|+B
其中A代表相对噪声(5–10%),B考虑精度容忍度(例如,0.001到0.1 Ω)。WSSE接近1表示反演数据在测量不确定性范围内一致匹配条件数据。
补充WSSE的是Wasserstein距离l1(u,v),它评估条件数据和反演数据概率分布之间的相似性,提供反演准确性的全局统计评估:
(22) l1(u,v)=∫?∞+∞|U?V|
其中U是条件ERT数据的概率分布,V是反演ERT的概率分布。虽然WSSE评估局部数据拟合,l1(u,v)捕捉整体统计对齐情况,从而能够全面评估CDM生成的参数分布是否再现了条件ERT数据的关键特征。WSSE和l1(u,v)一起提供了表征反演框架局部和全局性能的互补指标。
**4. 基于现场的演示和训练数据生成**
**4.1 概念模型**
演示示例基于在美国华盛顿州Handford 100 K East站点进行的非饱和带土壤冲洗处理,其中六价铬Cr(VI)污染是由以前的钚生产引起的(T. C. Johnson等人,2024年)。在最初挖掘受污染的土壤后,将干净的沉积物回填到坑中,留下Cr(VI)污染在下面的原生沉积物中。随后采用原位土壤冲洗,使清水渗透通过非饱和带,将移动的Cr(VI)输送到地下水中进行抽水处理(Szecsody等人,2023年)。冲洗效果取决于水的孔隙体积传输,这受到水文地质性质异质性的影响。使用地表ERT阵列监测冲洗区域的传输路径,以成像由土壤饱和度变化驱动的非饱和带体积电导率的变化。
**图3**显示了冲洗区域、以前的基础设施以及由8条32电极组成的ERT阵列,用于捕捉3D地下动态。**图4**展示了基于钻孔日志的概念地质模型,包含三个沉积单元:坑回填物、Hanford地层(Hanford Fm)和Ringold地层单元E(Ringold Fm)。地下水位位于地表下方约30米处(大约120米高度),材料边界由调查数据确定。
**下载:下载高分辨率图像(163KB)**
**下载:下载全尺寸图像**
**图4. (顶部)** 斜视图显示地表特征(电极、冲洗区域和以前的基础设施)、挖掘坑边界以及提取井位置。(底部) 材料边界和地下水位深度的横截面视图(Johnson等人,2024年)。**
**4.2 土壤冲洗操作**
冲洗操作涉及通过滴灌以113至454 L/min的速率施用清水,覆盖冲洗区的西1/4、中部1/2和东1/4。流量由数字计量器记录,冲洗过程持续了90天。本研究仅考虑了前27天。冲洗水的导电率是影响地下BEC变化的关键因素,但未进行记录,而是由训练好的CDM估计的。
**4.3**ERT监测
为了平衡计算成本与捕捉系统本质动态的需求,原本在27天冲洗期间每6小时收集一次的高频ERT数据被降采样为每2天一次,以用于反演框架。这样总共进行了14次调查,这个间隔被认为足够,因为虽然初始湿润前沿 advancement 很快,但更重要的过程——即主要羽流的缓慢向下迁移——是在几天年的时间尺度上发生的。每次调查包括4693个偶极-偶极测量倽数,其中在冲洗前进行了一次基线调查以确定初始的BEC条件。关于时间延迟ERT技术的一般描述,请参见Johnson等人(2024年)的研究。
4.4 多物理前向建模/训练数据生成
使用PFLOTRAN(第2.2节)进行了前向建模,以模拟在不同水文地质情景下的ERT监测数据。每种情景代表了独特的水文地质属性、岩石物理参数和条件(例如,流体导电性)的组合,这些参数作为模拟器的输入,并用于CDM训练的标签。计算域被离散成一个结构化网格,在渗透廊道和电流注入电极附近进行了细化,以减少关键区域的数值误差。该域水平跨度为1公里,垂直跨度为500米(图3),共有130万个单元格。边界条件包括与地下水位高度匹配的静水条件以及地表施加水的流量条件。每次27天的模拟在64个处理器上运行,耗时5-30分钟,具体取决于情景。5076种情景的训练数据集是在太平洋西北国家实验室(PNNL)的超级计算机上生成的。由于每次模拟需要64个处理器并运行5-30分钟,整个数据集在18000核系统的墙上时间大约需要1.6到9.5小时生成。随后,在使用MPS芯片的Apple M3 Pro系统上对条件扩散模型本身进行训练的速度相对较快,大约需要45分钟。虽然基于物理的模拟数据集的一次性生成在计算上非常密集,但在现代高性能计算资源上可以在实际时间内完成,而模型训练阶段则快得多。
水文地质参数包括孔隙率、渗透率、Archie定律常数、van-Genuchten参数、剩余饱和度和流体导电性。表1总结了使用的参数限值,这些限值是从类似材料的实验室规模测量中得出的(Nichols和Mehta,2017年;Rockhold等人,2018年)。
表1. 用于ERT反演的水文地质参数限值
参数 最大值
Hanford Fm孔隙率 0.05
Hanford Fm水平渗透率 [m2] 2.00E-13
Hanford Fm垂直/水平渗透率比 0.21
Hanford Fm Archie定律胶结指数 1.12.1
Hanford Fm Archie定律饱和指数 1.62.6
Hanford Fm Archie定律 tortuosity常数 0.81.2
Ringold Fm单位孔隙率 0.20.5
Ringold Fm水平渗透率 [m2] 1.00E-12
Ringold Fm垂直/水平渗透率比 0.21
Ringold Fm Archie定律胶结指数 1.12.1
Ringold Fm Archie定律饱和指数 1.62.6
Ringold Fm Archie定律 tortuosity常数 0.81.2
Pit孔隙率 0.05
Pit水平渗透率 [m2] 2.00E-13
Pit垂直/水平渗透率比 0.21
Pit Archie定律胶结指数 1.12.1
Pit Archie定律饱和指数 1.62.6
Pit Archie定律 tortuosity常数 0.81.2
Hanford Fm和Pit van Genuchten-Alpha [1/m] 2.00E-05
Hanford Fm和Pit van Genuchten-M 0.20.65
Hanford Fm和Pit剩余饱和度 0.0055
Ringold Fm van Genuchten-Alpha [1/m] 1.00E-05
Ringold Fm van Genuchten-M 0.16
Ringold Fm剩余饱和度 0.02
Hanford Fm地表电导率 [S/m] 1.00E-05
Ringold Fm地表电导率 [S/m] 1.00E-05
Pit地表电导率 [S/m] 1.00E-05
Pit原生孔隙水电导率 [S/m] 0.005
冲洗水电导率 [S/m] 0.005
使用Sobol采样方法,生成了5076种水文地质情景,以有效地覆盖参数空间,其中80%用于训练数据,10%用于验证数据集,剩余10%用于测试数据集。对于每种情景,计算相应的ERT响应(14次调查中的4693个测量值)以形成数据集。
5. 结果与讨论
多维缩放(MDS)是一种用于在较低维度空间中可视化高维数据的表示方法(Hout等人,2013年)。图5展示了模型模拟参数与相应ERT响应之间的高维关系,突出了反问题的复杂性。图5中模拟参数的MDS表示显示了均匀分布,而相应的MDS ERT表示则表现出较低的变异性,强调了输入和输出之间前向关系的复杂性。两个箭头代表了方向过程。图5强调了反问题的挑战,即使ERT响应的微小变化也可能对应于广泛的可能输入参数,这表明反过程中的非唯一性和不稳定性。
下载:下载高分辨率图像(290KB)
下载:下载全尺寸图像
图5. 模拟参数和ERT响应的MDS表示。前向模拟过程将参数映射到ERT响应,而反问题则试图从ERT响应中推断出模拟参数。我们的CDM不仅预测了水文地质参数,还提供了完整的不确定性概率描述。图6展示了训练有素的CDM对于不同τ值的全球不确定性精度图。当τ = 1时,过程完全随机,得到的曲线最接近一对一线,表明不确定性估计的最佳校准,精度为0.90,精确度为0.93,拟合优度为0.96。随着τ的减小,反向扩散过程变得更加确定性。这导致模型产生的不确定性分布分散不足,既不准确也不精确,如图中曲线逐渐偏离对角线所示。表2展示了从1.0到0.2范围内τ值的整体性能指标。在本研究的主要结果中使用的τ = 1.0提供了最佳校准的不确定性估计。图7提供了每个参数的详细精度分析,揭示了模型的性能。这些结果共同表明,CDM达到了整体的预测质量,并有效地量化了单个参数的不确定性。
下载:下载高分辨率图像(189KB)
下载:下载全尺寸图像
图6. 全球不确定性精度图。该图通过比较概率区间(p)与观测比例ξ(p)?来评估预测水文地质参数的不确定性量化的准确性和精确度。该图还展示了随机性参数τ对后验分布校准的影响。虚线红线表示完美校准,此时模型既准确又精确。实线显示,随着τ从1.0(完全随机)减小到0.2,不确定性估计逐渐变得不那么精确,偏离理想的一对一线。
表2. 不同缩放因子τ的全局精度指标
缩放因子 τ 准确度 精确度 拟合优度
0.2 0.0 0.0 0.2
0.4 0.0 0.0 0.5
0.6 0.0 0.0 0.7
0.8 0.0 0.0 0.8
1.0 0.9 0.9 0.9
下载:下载高分辨率图像(1MB)
下载:下载全尺寸图像
图7. 用于反演工作流程的所有29个水文地质参数的参数不确定性精度图。每个图表通过比较概率区间(p)与观测比例ξ(p)?来评估模型量化特定参数不确定性的能力。数据点(黑点)越接近对角线红色虚线,该参数的不确定性估计就越准确和精确。
我们对条件扩散模型不确定性量化的评估表明其性能稳健且非常有前景。如图7所示,模型在大多数水文地质参数上实现了高水平的准确度、精确度和拟合优度。例如,关键参数如Hanford Fm水平渗透率和Archie定律饱和指数表现出强劲的性能,准确度分别为0.84和0.83,精确度(0.95和0.97)和拟合优度(0.97和0.98)也非常高。这些高数值表明预测的不确定性分布既居中又正确缩放。
尽管大多数参数都得到了很好的约束,但仍有一些参数的准确度较低,反映了这个病态反问题中固有的不确定性。例如,Ringold Fm van Genuchten-M参数的准确度最低,为0.61。然而,需要注意的是,即使对于这个参数,精确度(0.97)和拟合优度(0.98)仍然很高。这表明,尽管某些参数的后验中心趋势不太确定,但预测分布的整体形状和分布仍然能够可靠地捕获。即使在ERT数据不太敏感的参数上,也能提供校准良好的不确定性估计,这是所提出框架的主要优势。
总体而言,集合衍生的指标表明我们的CDM框架能够可靠地为大多数水文地质参数量化不确定性,同时也突出了那些估计仍然具有挑战性的参数。这些详细的参数级别洞察突出了该方法的价值,因为它不仅提供了参数值的稳健估计,还量化了相关的不确定性。
通过对反向扩散过程进行50次采样,获得了每个水文地质参数的概率分布,每次采样都从不同的高斯噪声实现和给定的ERT条件数据开始。两个代表性的示例展示了使用不同ERT条件数据集的CDM方法的反向建模能力。在第一个示例中,条件ERT测试数据的传输电阻值范围从-5到15欧姆;而在第二个示例中,值范围从-50到250欧姆,如图8所示。
下载:下载高分辨率图像(596KB)
下载:下载全尺寸图像
图8. 条件ERT案例1(右)和案例2(左)的样本,用于从CDM生成水文地质参数。
对于每种情况,图9展示了29个水文地质参数的完整概率分布以及相应的真实值以便比较。这些图表展示了模型如何根据条件数据的大小和变异性调整其不确定性估计,从而产生更紧密或更宽的分布。图9表明,CDM恢复了最合理的参数值,并通过在不同的ERT制度下捕捉多模态不确定性来捕获替代的可行解决方案,同时与真实参数保持良好对齐。
下载:下载高分辨率图像(1MB)
下载:下载全尺寸图像
图9. 水文地质参数的概率分布。该图显示了两种不同ERT情况下29个水文地质参数的估计概率分布。垂直条形表示每种情况的采样后验概率直方图:蓝色条形代表ERT案例1,橙色条形代表ERT案例2。实线(蓝色和橙色)表示基于直方图数据的核密度估计,提供了一种平滑的概率分布近似。虚线垂直条形表示每种情况的真实参数值(蓝色代表案例1,橙色代表案例2)。
使用通过对每个ERT输入进行50次采样的水文地质参数集合,我们通过PFLOTRAN传播不确定性以生成相应的ERT响应。对于每个候选参数集x0(i),前向模拟器根据关系m(i) = f(x0(i))计算ERT响应。在整个集合上重复此过程得到的ERT响应分布表明CDM生成的水文地质情景能够很好地反映ERT响应,因此提取了ERT数据中的信息。使用参数A = 0.1(或10%)和B = 0.01欧姆的WSSE评估了案例1生成的ERT模拟的质量(图10),并详细比较了反演和条件ERT数据(图11)。图10中的WSSE结果显示了50个参数集合实现范围内的反演质量,其中Sim 30、Sim 18和Sim 13由于WSSE值一直较低而被认定为表现最佳的三个模拟。
下载:下载高分辨率图像(171KB)
下载:下载全尺寸图像
图10. 案例1的50个ERT参数实现的WSSE。较低的WSSE值反映了更高的反演精度,其中Sim 30、Sim 18和Sim 13被标记为表现最佳的模拟。
下载:下载高分辨率图像(1MB)
图11. 对案例1的三个最低WSSE模拟的分析。反演的ERT传输电阻模拟结果(左列)。散点图比较了反演ERT和条件ERT数据,点在对齐线(中间列)上进行精度评估。概率密度图显示了反演数据和条件数据的统计分布,以及量化分布对齐质量的Wasserstein距离(右列)。
图11显示了反演传输电阻的空间模式、逐点一致性以及与条件ERT数据的统计对齐。在三个案例中,Sim 30实现了最高的准确度,Wasserstein距离最小(0.2),沿对齐线的对齐最紧密,表明条件数据的再现效果非常好。Sim 18的表现同样优异,尽管在分布重叠上存在轻微偏差;而Sim 13则表现出更大的差异,这从其较高的Wasserstein距离(0.349)中可以看出。这些结果表明,反演方法能够可靠地捕捉条件数据的变异性,其中Sim 30代表了最佳的反演结果。在案例2中,反演过程面临着更大的复杂性,需要再现更广泛的电阻率值范围,转移电阻甚至达到了250欧姆。这种复杂性反映在WSSE趋势中(图12),与案例1相比,top模拟的WSSE值更高,表明在50个反演结果中反演质量的变异性更大。Sim 15实现了最佳性能,其WSSE值较低,且反演得到的ERT数据与条件数据之间的匹配度最高,通过Wasserstein距离量化为1.2759。尽管如此,散点图(图13,中间列)显示与案例1相比存在显著偏差,尤其是在较高电阻率值时,变异性更加明显。此外,虽然密度图(图13,右列)显示反演分布与条件分布之间的对齐情况合理,但前三个模拟的Wasserstein距离(1.2759 – 7.6031)仍然高于案例1的结果,表明反演框架在较高电阻率对比下更难以准确捕捉统计分布。Sim 18和Sim 0的表现水平相似,但Wasserstein距离较大,散点偏差也更大,这表明在这些更复杂的情景下对参数化更为敏感。尽管反演框架在解决低对比度电阻率配置时表现出稳健性能(案例1),但案例2的结果表明在高电阻率对比和更宽动态范围内存在挑战。这种较低的性能可能是由于模拟高电阻率系统的固有数值复杂性、基于训练数据的CDM的局限性或其综合效应所致。
下载:高分辨率图像(191KB)
下载:全尺寸图像
图12. 案例2中50个ERT参数反演结果的WSSE值,基于14次ERT测量绘制。较高的WSSE值反映了反演质量的更大变异性,Sim 15、Sim 18和Sim 0被认为是表现最好的模拟。
下载:高分辨率图像(1MB)
下载:全尺寸图像
图13. 案例2中WSSE最低的三个模拟的性能评估。反演得到的ERT转移电阻模拟结果(左列)。散点图比较反演得到的ERT数据和条件ERT数据,点对齐到身份线以评估准确性(中间列)。概率密度图显示反演数据和条件数据的统计分布,以及量化分布对齐质量的Wasserstein距离(右列)。
CDM工作流程提供了稳健的、考虑不确定性的时间延迟ERT数据反演方法。未来的计划包括将该方法的性能与变分自编码器(VAEs)和确定性反演技术在同一数据集上进行对比,以验证基于扩散的方法。我们将通过从均匀单元假设转向使用地质统计约束的异质性感知反演来改进该框架。这涉及根据先验地质知识定义目标变异图,并在反演过程中对偏差进行惩罚,以确保空间的连续性。通过自适应采样策略优化计算成本,新PFLOTRAN模拟将智能地集中在后验方差较高的区域,从而有效减少模型不确定性。最后,通过整合额外的条件数据源(如直接钻孔测量数据)来进一步增强模型,以进一步约束病态问题。这些进步将有助于严格验证和改进该方法的实用性应用。
6. 结论
我们开发了一个稳健的、考虑不确定性的反演框架,使用CDMs从时间延迟ERT数据中估计水文地质参数。所提出的方法学习了从ERT测量到地下参数的复杂非线性映射,有效处理了反问题的非唯一性和病态性。该方法不是产生单一解决方案,而是生成一组合理的参数集,从而可以实现不确定性量化。生成的参数集揭示了多模态的后验分布,表明多种参数组合可以解释相似的ERT响应。此外,由这些估计参数驱动的前向模拟与观测到的ERT数据高度匹配,高准确性、精确度和拟合优度指标凸显了生成式AI框架的预测性能。虽然本研究成功证明了该方法在基于场的合成数据集上解决反问题的能力,但还计划了几项关键扩展,以提高其可靠性并为实际应用做准备。未来的工作将包括将预训练模型应用于具有明确定义的现场的真实ERT数据。这一过渡需要解决重大挑战,包括我们的简化前向模型与真实场地异质性之间的模型结构误差,以及现场测量中固有的复杂噪声。此外,将进行系统性的消融研究,定量评估时间数据削减的影响,比较不同采样频率的反演结果,以确定信息内容和计算负担之间的最佳平衡。为了提高估计的可靠性并更好地解决反问题的病态性,我们将整合额外的条件数据,如钻孔饱和度测量数据。同时,未来的工作将通过纳入地质统计约束(如规定的变异图)来扩展参数化,从当前的均匀单元假设转向更现实的、考虑异质性的反演方法。这些进步对于将这一方法从概念验证转变为可靠的现场表征工具至关重要。
代码可用性
所有为这项工作开发的代码均可在以下链接公开获取:https://github.com/pnnl/ERTConditional-Diffusion-Model
作者贡献声明
Jose L Hernandez Mejia:撰写——原始草稿、软件、方法论、调查、正式分析、概念化。
Timothy C Johnson:撰写——原始草稿、监督、软件、资源管理、项目管理、方法论、调查、资金获取、正式分析、概念化。
Glenn E Hammond:软件。
Piyoosh Jaysaval:软件。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号