在地质情景不确定性下的历史匹配研究：采用隐式地质真实性控制机制，结合生成式深度学习和图卷积技术

《Computers & Geosciences》：History matching under uncertainty of geological scenarios with implicit geological realism control with generative deep learning and graph convolutions

【字体：大中小】 时间：2026年05月11日 来源：Computers & Geosciences 4.4

编辑推荐：

　　格列布·希沙耶夫|瓦西里·杰米亚诺夫|丹尼尔·阿诺德托木斯克理工大学，俄罗斯联邦 **摘要** 自编码器在水库建模中非常有用，因为它们能够学习到复杂高维地质实体的紧凑、低维表示，并从此表示中重建和生成新的、合理的模型。这为辅助历史匹配提供了高效的参数化方法，其中逆

　　格列布·希沙耶夫|瓦西里·杰米亚诺夫|丹尼尔·阿诺德
托木斯克理工大学，俄罗斯联邦

**摘要**
自编码器在水库建模中非常有用，因为它们能够学习到复杂高维地质实体的紧凑、低维表示，并从此表示中重建和生成新的、合理的模型。这为辅助历史匹配提供了高效的参数化方法，其中逆问题可以通过在潜在空间中搜索来解决，而不是直接在完整的网格/属性空间中搜索。我们提出了一种基于图的变分自编码器架构（实现为基于图的Wasserstein自编码器），用于在地质情景不确定性下表示和调整地质模型。基于图的方法的关键思想是将地质模型表示为图，以便卷积操作能够作用于连通性和拓扑结构，当几何形状是曲线或不连续时，这可以比标准的基于格子/网格的深度学习更好地保留地质结构。我们还在潜在空间中引入了测地距离度量，以隐式控制地质真实性，反映其非欧几里得的内部几何特性，并帮助引导采样/优化过程向与真实先验模型相关的密集、有支持的区域进行。在这篇开创性的论文中，我们在一个包含两种情景（单通道和双通道实现）的合成3D渠道化水库数据集上展示了这种方法，作为通过潜在空间进行辅助历史匹配解决方案的概念验证。最后，我们使用主成分分析（PCA）、t分布随机邻域嵌入（t-SNE）和拓扑数据分析（TDA）来分析学到的潜在空间，以说明地质变异性和情景结构在表示中的组织方式。

**1. 引言**
地下水库建模本质上是一个不确定性问题——如何描述、解释和量化这种不确定性。地质属性具有高度异质性，其相关模式与水库的沉积、成岩和构造历史有关。理解这一历史使我们能够使用地质统计学等工具创建具有代表性的地质模型。然而，具体的地质概念本身往往存在很大的模糊性，这才是不确定性的真正原因。由于地质解释经常受到有限井数据和间接地球物理观测的限制，地质学家通常通过一系列不同的地质概念来描述不确定性，这些概念必须分别进行建模。

传统上，地质统计学方法用于解决地质模型中的空间不确定性问题。这些方法依赖于随机统计模拟，以各种方式对空间相关结构进行参数化。这些模型在可能的情况下根据静态井数据进行校准，并由地质概念的知识指导。然而，传统的地质统计学模型依赖于用户指定的分布假设和结构形式（例如，变异函数），这在考虑不同参数化的不同地质情景时可能会限制其灵活性（高斯或非高斯）。这使得在不同地质情景之间探索模型不确定性变得复杂，因为这些模型的参数空间无法有意义地采样或探索。同样，这些不同概念之间的插值在实践中也是不可能的，因为参数空间可能具有不同的向量和维度。

需要区分地质统计学建模和流动模拟：地质统计学通常提供不确定的输入属性场（例如，岩相、孔隙度、渗透率），而这些属性到生产响应的非线性映射由基于过程的流动模拟器进行评估。因此，主要挑战是在地质情景不确定性下解决相关的逆问题——调整地质实体以适应动态生产数据，同时保持地质真实性。另一个困难是，在反演过程中，优化可能会倾向于产生符合生产数据的解决方案，但与地质先验理解不符的空间模式，除非明确控制地质真实性（例如，通过在目标函数中添加额外的约束/正则化项，或使用信息性先验（Arnold等人，2018年））。在高度异质的水库中，这种反演变得更加困难，因为非平稳性和多尺度特征会放大非唯一性，并使得动态数据和静态数据的集成在计算上变得要求更高。

这些考虑激发了替代的建模和参数化策略，例如，通过引入一个简化的潜在空间，以实现高效搜索/调整，并在统一的表示中结合多个竞争性的概念情景。为了解决整合静态和动态数据以及在多个概念情景中进行反演的难题，人们越来越感兴趣于用更灵活的潜在参数化替代直接操作地质统计参数的方法，同时认识到还需要防止逆问题产生仅仅适合数据的地质上不合理的解决方案。生成学习模型通过在一个低维潜在空间中学习这样的紧凑参数化，并提供在反演过程中控制地质真实性的机制（例如，通过潜在空间约束或显式正则化项），为历史匹配提供了一个有前途的解决方案。一旦在一系列地质上合理的实现上进行了训练（这些实现可能是在不同的建模假设下生成的），解码器就可以在这个潜在空间中快速生成多样的模型实现——从而减少了在反演过程中反复手动调整显式地质统计参数化的需要，同时认识到先验集合仍然反映了建模选择。

历史匹配随后被表述为在单一潜在参数空间中的搜索/优化，以便解码后的实现同时满足静态井约束（电缆测井数据）和动态生产历史，从而在培训集合中表示的多个竞争性地质情景下实现校准。此外，地质统计学模型通常受限于基于格子的表示，这可能不符合自然地质系统的地层或曲线几何形状。最广泛使用的有效水库建模工作流程包括两个步骤：在辅助的规则格子空间中使用地质统计学，然后将结果实现映射到水库模拟网格上。然而，在具有高度不规则拓扑的设置中（例如，由断层界定的块、地层尖灭或复杂的角点网格），映射步骤可能非常复杂，并可能通过扭曲原始拓扑和连通性而丢失信息或引入伪影。基于图的表示通过直接在原始网格拓扑上工作来规避这些问题：地质特征被编码为节点，而边可以明确表示结构关系（例如，断层或不整合），在学习和服务生成过程中保持连通性。在许多不需要活跃/空单元格的模型中，这些单元格仅用于强制矩形欧几里得布局，图卷积自然会忽略这些单元格，而基于CNN的架构要么必须包括它们（增加内存和计算需求），要么依赖于屏蔽策略。

本文提出了一种结合多种地质情景的生成深度学习方法进行地质建模和历史匹配，这些情景可能具有不同的维度、参数和假设，将它们整合到一个单一的学习潜在空间中。这种统一的表示使得在搜索逆解时能够高效地探索地质不确定性：我们可以在紧凑、低维的空间中进行搜索，同时自动尊重先前的地质集合约束和情景间的变异性。重要的是，因为反演可能会倾向于产生符合生产数据但可能地质上不合理的模型，我们在潜在空间搜索中明确纳入了地质真实性控制。我们基于图的VAE架构将地质模型表示为图，其中节点和边可以编码各种物理属性，如孔隙度、渗透率和岩相类型。图卷积网络提供了一种强大的方法，可以在多个尺度上捕捉空间相关性和拓扑结构，使模型能够比传统的基于格子的架构更有效地从地质数据中学习。在过去十年中，将深度生成模型应用于地质建模受到了越来越多的关注。早期的努力主要集中在生成对抗网络（GANs）上，这些网络通过将生成器与判别器放在一个双网络架构中来学习生成真实的地质模式。值得注意的贡献包括Chan和Elsheikh（2019a, 2019b, 2018年）、Dupont等人（2018年）以及Mosser等人（2019年）的工作，他们证明了GANs可以生成复杂的地质模型并重建精细尺度的多孔介质结构。Laloy等人（2018年、2017年）和Sun等人（2023年）的进一步发展表明，GANs还可以再现复杂的沉积特征，如蜿蜒的河流系统，并使用专门的变体（如空间GANs，SGANs）降低逆问题的维度。尽管GANs通常能产生高质量的输出，但它们容易受到模式崩溃等问题的影响，这限制了生成模型的多样性，并可能导致地质不确定性的低估和/或不现实的输出。

变分自编码器（VAEs）提供了一种结构化和概率化的生成建模方法。它们将数据转换为潜在分布，通常是一个多变量高斯分布，允许生成新的样本，这些样本可以解码为真实的地质实现。这创建了一个连续且可解释的潜在空间，使得在不同地质情景之间进行平滑插值成为可能，并促进了高效采样。Arauco等人（2017年）、Smith等人（2019年）、Arauco等人（2021年）、Lee等人（2018年）以及Jiang和Jafarpour（2021年）的研究表明，VAEs在需要减少参数化和不确定性量化的任务中表现出色，但这些演示主要基于理想化和合成的案例研究。此外，Bao等人（2022年）的比较研究表明，尽管GANs在复现地质结构方面通常更胜一筹，但在使用大型数据集的数据同化任务中，VAEs表现更好。与GAN不同，VAE通过使用概率编码器将输入数据映射到分布来创建一个结构化和连续的潜在空间，从而允许平滑插值和生成输入数据的变化。VAEs可以从潜在空间中采样并解码这些样本来生成新的、连贯的、多样化的数据实例。生成模型为地质模型到生产历史的校准提供了手段，而不会丢失地质真实性。在采用生成机器学习技术时，隐式控制地质真实性是一个重要的考虑因素，因为这些技术本身没有必须单独开发的功能。早期的贡献还解决了限制参数空间的问题。

这项工作的动机在于开发一个生成建模框架，它在保持地质真实性的同时实现高效的不确定性量化和历史匹配。在将生成模型应用于水库建模时，一个核心挑战是确保生成的实现保持合理性并且在受生产数据条件约束时具有地质一致性。早期的研究（Demyanov等人，2018年；Jung等人，2013年；Mosser等人，2019年）强调了在没有明确编码地质约束的情况下控制生成输出真实性的难度。我们的方法通过利用潜在空间学习到的结构来解决这个问题，该结构捕获了跨情景的地质上有意义的变化和相关性。这个空间可以被查询和约束，以在数据同化过程中产生合理的实现。

因此，这项工作的目标有三个：
• 使用基于图的卷积网络的生成机器学习在统一的参数空间中表示多样的地质模型，并隐式捕获它们的依赖性；
• 在历史匹配过程中考虑不同地质情景中的不确定性；
• 开发使用生成模型的潜在变量来确保地质真实性的工具。

**2. 方法论**
在本节中，我们提出了一种基于图的VAE方法，用于在生成受生产和静态井数据条件下的水库模型，同时通过潜在空间控制地质真实性。我们还将介绍用于分析潜在空间内部结构的工具，如PCA、t-SNE和TDA，因为这对于生成模型的有效运行是必要的。

使用VAE进行历史匹配包括以下阶段：
**第一阶段：** 在先验不确定性下重新参数化地质系统，定义模型参数的最小数量。这个阶段涉及创建一个描述整个不确定性空间的先验训练数据集。生成模型的架构意味着连接编码器和解码器的潜在空间决定了可以描述不确定性下对象的最小模型参数集（维度）以及参数之间的隐式依赖性（例如，孔隙度-渗透率）。
**第二阶段：** 从简化的参数潜在空间对水库进行正向建模。当神经网络经过训练并能够可靠地再现训练数据集的水库模型并生成新模型后，我们可以不再考虑编码器。如果新的实现被包含在覆盖不确定性空间的先验集合中的各种地质概念所涵盖，则认为这些实现是可靠的。这个约束由潜在空间施加，它将新生成的实例限制在与先验地质一致的模型空间内。

解码器本质上作为一个正向模型，使我们能够将潜在参数直接转换为对象的物理表示——即地质模型。与地理统计方法的区别在于，潜在空间的参数隐含地考虑了模型参数之间的相互依赖性，从而将生成的模型种类限制在在不同概念下都现实的范围内。

第三阶段：逆向建模以推断出与静态和动态数据都匹配的模型。最后一步是在解码器重建后，寻找与静态和动态数据相匹配的潜在空间位置。因此，这涉及到一个旨在最小化目标函数（OF）的优化过程，见图1。由于通过潜在空间的优化过程没有内置的地质真实性控制，这种控制可以通过最小化的目标函数来施加（见第2.4节）。

这种方法通过潜在空间提供了以下机会：
- 在不同的情景中提供通用的参数化，同时捕捉输入参数之间的复杂非线性关系；
- 通过降低潜在空间中模型描述的维度，实现有效的模型更新，并保持地质真实性控制。

2.1. 几何深度学习的重要性
VAE的编码器和解码器默认具有基于经典格子的CNN架构。CNN最初是为规则结构的数据（如图像和其他网格化信号）开发的，当底层域不规则且由连通性驱动时，这种架构可能会有所限制。地质结构通常表现出复杂的空间关系、连通性和依赖性，这些可以通过图表示更自然地捕捉。使用图表示时，学习模型可以直接操作活跃的地质/支撑网格的连通性，而无需引入仅用于强制CNN处理矩形网格的填充或不活跃的“空”单元。这对于复杂几何形状（例如断层域、变窄处或高度不规则的活跃单元模式）尤其相关，因为在这些情况下，大量格子单元可能没有信息价值。

基于图的卷积非常适合地质建模，因为它们可以保留拓扑结构中编码的连通性和结构关系。在这种设置中，地质实体被表示为节点，它们之间的关系被表示为边，形成一个简洁的编码异质性表示。重要的是，图被用作学习和生成的内部表示。解码后的属性场仍然可以映射回标准模拟器网格，用于下游流动模拟。因此，它允许对地下过程、断层网络和其他复杂地质现象进行精确和真实的建模。

2.2. 图Wasserstein自编码器（GWAE）
高阶图卷积架构的一个关键特点是可以在不同维度的子图（例如节点元组）上定义信息传递，而不仅仅是在单个节点和边上（Morris等人，2021年）。这在聚合领域提供了额外的“层次结构”概念（子结构与节点），允许考虑并结合节点尺度以及更大尺度对象（以子图形式）的地质特征。结合VAE的潜在空间，这种方法能够更灵活地处理不同尺度的不确定性，从地质情景到更局部化的情景。

层次结构与MPS的概念相关，后者强调连接模式和高阶空间统计。在训练图像MPS中，这些统计信息是通过在规则格子上扫描的模式模板明确施加的，新的实现是通过复制这些学到的模式频率来生成的。相比之下，在图神经网络中，图结构（节点及其连通性）及其相关节点/边属性被视为输入表示，而模型学习信息传递/聚合函数（即图卷积层的权重），这些函数组合来自相连邻居的信息，在高阶变体中还包括来自子图结构的信息。这种方式可以在潜在空间中灵活捕捉不规则地质拓扑中的复杂依赖性，而无需改变底层连通性本身。

为了更正式地描述这种类型的卷积操作，让我们引入以下符号：
- 图G是一对（V,E），其中V是有限的节点集，E?{{u,v}?V|u≠v}是边集。定义（u,v）为G中的一个特定边。N(v)是v∈V的邻居集，即N(v)={u∈V|(v,u)∈E}。
- 输入图G直接从原始水库离散化构建：活跃单元对应于节点，网格邻接性定义了边（可选地带有边类型/标志以表示结构不连续性）。子图由图连通性诱导，并由选定的高阶GNN操作符使用。为了计算目标图节点t在第l+1层的属性（这里，l表示编码器/解码器网络中图卷积层的索引），应考虑所有邻居节点。来自邻居节点的信息被传递给转换操作（Q），然后聚合（∑（?）并针对目标节点t进行转换（W）。这个动作序列针对图中的每个节点执行，为每个节点表示为一个特征向量h。因此，矩阵Q和W是神经网络的训练参数。
(1) ht(l+1) = fl(ht(l), hn(l)) = σ(W(l)ht(l) + Q(l)hn(l))
(2) hn(l) = 1/(n?1)∑n≠thi(l)

为了引入基于图的层次结构的概念，需要修改方程（1）以包括不同级别的节点和子图的邻域。引入k元素子集[Vk]?V，其中s={s1,…,sk}是[Vk]中的一个k-集合。因此，s的邻域是：N(s)={t∈[Vk] || s∩t|=k?1}。局部邻域NL(s)由t∈N(s)组成，对于每个u∈s?t和v∈t?s，它都有边(u,v)∈E。另一方面，全局邻域NG(s)定义为N(s)?NL(s)。
方程（1）可以定义如下：
(3) ht(l+1)(s) = σ(W(l)ht(l)(s) + ∑u∈NL(s)QL(l)hn(l)(u) + ∑v∈NG(s)QG(l)hn(l)(v))

使用矩阵W、QL、QG可以训练一个考虑局部和全局邻域的神经网络。此外，使用节点子集(s)作为一个单一元素允许在训练中实现层次结构。

作为一种生成架构，我们使用Wasserstein自编码器（WAE），即从最优传输（Wasserstein）目标派生的正则化自编码器。有关完整的数学推导和目标定义，我们建议读者参考（Tolstikhin等人，2017年）。与传统VAE类似，WAE的目标由两个部分组成：重建成本和正则化项。
WAE目标函数与VAE相比：
(4) DVAE(P(x), P(X|Z)) = inf EPX[KL(Q(Z|X)∥P(Z)) ? E[logP(Z|X)]
(5) DWAE(P(X), P(X|Z)) = inf λD(Q(Z|X), P(Z)) + EPXEQ(Z|X)[c(X,G(Z]])

GWAE由两个神经网络组成：一个编码器（Q(Z|X)）和一个解码器（P(X|Z)），每个都是图卷积网络的序列。训练数据集（一组非结构化图）被传递给编码器，编码器执行卷积操作。结果是分布Q(Z|X)的参数，这些参数是潜在空间的参数。接下来，从分布Q(Z|X)中采样一个隐藏向量z。如果GWAE训练得当，向量z包含足够的 ??使解码器能够重建x。

2.3. 潜在空间的内部几何结构
我们假设地质多变量空间分布的属性可以编码成一个低维表示或潜在空间。另一方面，潜在空间应该被视为一个曲面（Rubenstein等人，2018年）。因此，在分析潜在空间时，需要考虑其曲率，这在使用欧几里得度量时会导致错误。用测地线“最短路径”替换欧几里得“直线”来处理潜在空间，GWAE将使我们能够实现以下目标：
- 隐式地质可靠性控制。引入一个与潜在空间中区域密度相对应的度量，这将限制优化过程在高密度空间内进行，这意味着解码器重现最可能的对象，这些对象可以从地质角度解释为最真实的对象，因为这样的实现更常见于先验中。
- 最短路径。允许更自信地选择对应于相似地质对象的潜在向量。
- 通过潜在空间的平滑插值。提供了在潜在空间中从一个地质实现平滑过渡到另一个地质实现的能力，同时在整个潜在空间中导航以最小化OF。

为了实现这一概念，需要在分析中包括黎曼空间的概念。

Tosi等人（2014年）、Lawrence（2005年）、Arvanitidis等人（2021年）、Shao等人（2017年）的工作是最早关注生成神经网络生成的潜在空间内部非线性的研究之一。他们表明，考虑内部非线性可以提高采样潜在空间Z中的潜在向量z的质量，从而提高生成对象x的质量。

本节介绍了一种用于评估隐藏空间曲率的度量方法，该方法改编自Arvanitidis（2019年）的工作。

我们的数据集{x}∈X=R^n。同样，假设X“存在于”某个非线性隐藏空间Z中。用Z=R_m表示黎曼空间，因为GWAE的隐藏空间应尽可能接近它。因此，为了考虑黎曼空间的曲率，我们需要引入一个度量张量Z：
Z→S+m（其中S+m是大小为m的正定矩阵）。度量张量的值在观测到的x确认的Z区域内应该很小，否则Z应该较大，表明在这些区域没有来自训练集x的数据。

根据定义，解码器是一个形式为f(Z)=P(X|Z)=μθ+σθ⊙?的函数，其中?～N(0,In)。度量Z定义为拉回矩阵J_f(z)?J_f(z)，在我们的案例中，它分解为μ(z)和σ(z)的雅可比乘积之和，同时考虑了Z的内部几何结构（Arvanitidis等人，2021年）。
(6) Z_f(z) = J_f(z)?J_f(z) = J_μ(z)?J_μ(z) + J_σ(z)?J_σ(z)。

这个度量Z具有几个理想的特性：第一项考虑了隐藏空间Z的曲率，而第二项随着不确定性的增加而增加。因此，没有训练数据的隐藏空间区域应该具有较高的度量值Z。然后，两个潜在代码za和zb之间的测地距离被定义为在度量Z下连接它们的最短路径的长度。这个距离用于潜在空间中的插值/最短路径分析，因为它考虑了由生成映射引起的固有几何结构。

2.4. HA-M过程中的目标函数
AHM过程的关键组成部分是一个优化算法和一个OF，该OF估计所考虑模型与手头数据的一致性。随着生成神经网络作为匹配地质模型方法的发展，OF必须基于生产数据和静态指标（如井日志）来控制匹配质量。此外，即使匹配得很好，也不能保证最终模型的地质真实性，因为属性的空间分布可能会被打乱（Demyanov等人，2018年）。根据（Mosser等人，2019年），OF应包括三个主要组成部分：动态生产数据不匹配（Lossflow）、静态条件井数据不匹配（例如，从井日志派生的数据（Lossstatic）以及模型地质真实性的控制（Lossrealism），即模型化属性分布在井间空间的地质一致性：
(7) Loss = wfLossflow + wsLossstatic + wrLossrealism

其中wf、wr是权重，为整个损失函数提供额外的灵活性。Lossstatic和Lossflow组件由MSE表示（Yeremian，2022年）。

方程（7）中的第三项强制生成模型的地质真实性。由于潜在空间具有概率结构，从低概率区域采样可能导致地质上不可信的重建。因此，我们使用方程（6）中的度量来惩罚这样的样本。实际上，这个度量的较高值表示低密度区域（训练样本少），因此可信度较低，而较低的值对应于与更可能的地质实现相关的密集区域。潜在空间密度类似于先验概率密度分布，用于以数据驱动的方式而不是贝叶斯方式限制逆解的搜索。

进行的实验表明，OF的静态和动态组件协调工作，这是合乎逻辑的，因为井日志数据是后续生产的最关键指标之一。同时，第三项则更多地起到相反的作用，它对优化过程施加了限制，将搜索范围限制在地质上真实的情景中，以牺牲“真实性”来换取对潜在空间的“较少探索”。

3.结果 - 应用

我们展示了使用GWAE在合成数据集上进行AHM实验的结果，该数据集包含具有两种不同情景的3D地质模型实现，分别是一个通道和两个通道。我们将分析模型的生成能力、潜在空间的结构，并解释为什么考虑其内在的非线性是一个重要因素。此外，还将进行一项消融研究，以展示在优化过程中考虑地质现实性的重要性。

3.1. 案例数据集构建

使用生成神经网络进行地质建模的初始步骤是基于现有信息创建一组先验地下模型。先验集合用于训练模型并生成相应的数据和预测变量。数据集包括一组简化渠道化合成立方体的三维模型，这些立方体具有孔隙度和渗透性属性，如图2所示。选择了一个简化的河流环境作为基础地质概念，以便对生成的实现进行视觉质量控制。它包括两种情景：一个连接的单通道砂体和两个不连接的砂体解释。通道体使用基于对象的建模进行建模，其参数（宽度、厚度、波长、振幅、方向）从指定范围内采样，见表1。该数据集的主要不确定性在于通道体的位置、数量和通道参数的不确定性。通道内的连续孔隙度和渗透度场使用序列高斯模拟进行建模。此外，数据集还具有孔隙度和渗透度之间依赖性的不确定性。

创建了五千个实现，每种情景下各两千五百个。模型的维度为x=16, y=12, z=10，这意味着优化搜索空间的维度为x?y?z?NumberOfProperties=3840，因为优化算法需要为每个单元格找到孔隙度和渗透度的值。

下载：下载高分辨率图像（677KB）
下载：下载全尺寸图像

图2. 渠道化合成数据集的设置。考虑了单一通道和双通道两种不同的地质情景。第二行展示了数据集中的一些示例。

表1. 数据集构建参数表

| 情景 | 单通道 | 双通道 |
|------------|-------|-------|
| 通道数量 | 一 | 二 |
| 宽度（m） | [300;500] | [300;500] |
| 厚度（m） | [10;20] | [10;20] |
| 波长（m） | [1000;2000] | [500;1000] |
| 振幅（m） | [0;300] | [500;900] |
| 方向（度） | 90 | 120 |

一个训练有素的GWAE应遵循以下条件：保持孔隙度和渗透度属性的统计分布，维持模型属性之间的岩石物理多变量关系，并无论情景中有多少通道，都保持与先验一致的通道相的正确空间几何形状。

准备了一个流动模型来进行模拟实验。该模型包括两个相：油/水，中间有一排生产井和两排注入井。井性能计算设置为60个时间步长。流动模拟模型的主要参数列在表2中。

表2. 流动模拟参数

| 参数 | 值 | 单位 |
|---------------|--------------|-------------|
| Pinit | 240bar at OWCP | |
| prod | 45bar | |
| Pinj | 330bar | |
| Nwells | 9–OWC | |
| 2460meter | |
| Water viscosity（μw） | 0.40c | |
| Oil viscosity（μo） | 3.3c | |
| Water density（ρw） | 1020kg/m3 | |
| Oil density（ρo） | 875kg/m3 | |
| Connate Water Saturation（SWL）| ?0.048?ln(perm)+0.5 | |
| Critical Water Saturation（SWCR）| 1.1? SWL | |
| Initial Water Saturations（SWATINIT）| ?0.18?ln(J)+0.57 | |
| Scaled Critical Oil-in-Water Saturation（SOWCR）| if(SWATINIT=1, 0, 0.25) | |
| Maximum Water Saturation（SWU）| if(SWATINIT=1, 1, 1-SOWCR) | |

3.2. GWAE的生成质量

在训练GWAE之后，我们获得了一个统一的参数空间，其中包含了两种地质情景的变体。GWAE的编码器将初始维度3840缩减到了潜在空间的维度30。一些出版物（Chen等人，2022年；Levina和Bickel，2004年；Guss和Salakhutdinov，2018年）提供了维度选择过程，但这项研究超出了当前工作的范围。如果维度降低到30以下，编码器的性能开始恶化（重建误差增加，解码样本中关键地质/岩石物理特征丢失），表明这些特征对于正确生成属性来说信息不足。

下图3显示了训练数据集的随机实现和使用GWAE解码器重建的结果。可以得出结论，潜在空间的向量足以重建属性分布的空间依赖性和岩石物理属性关系。

下载：下载高分辨率图像（480KB）
下载：下载全尺寸图像

图3. 1：训练数据集的初始孔隙度网格示例。2：GWAE重建的结果。3：GWAE在地质情景不确定性下保持了岩石物理关系和属性的空间传播。

3.3. 潜在空间内部结构

探索GWAE生成能力的下一个阶段是对潜在空间进行更深入的分析。下图4通过降维方法（如PCA（Pearson，1901年；Hotelling，1933年）、t-SNE（van der Maaten和Hinton，2008年）和TDA（Edelsbrunner等人，2000年；Carlsson，2009年）展示了30维潜在空间的可视化。

对于PCA和t-SNE，可以看到空间由两个大簇组成的点云构成。每个点代表训练数据集中每个地质实现的潜在空间中的特定30维坐标，颜色表示特定的情景。我们可以推断，如果在潜在空间的特定区域进行采样，那么生成的地质实现将属于某个特定情景。

下载：下载高分辨率图像（520KB）
下载：下载全尺寸图像

图4. 在PCA、t-SNE和TDA空间中30维潜在空间的可视化。PCA和t-SNE空间中的每个点代表训练数据集中的一个30维向量。蓝点表示一个通道的地质情景，而黄点表示两个通道的情景。在TDA空间中，显示了连接组件的出现和消失。图5显示了对应于特定空间区域的地质实现。潜在空间具有内在结构，这反映在通道的空间排列上。如果我们考虑U形的蓝点云，可以看到通道从东南向西北“移动”。黄点云表现出类似的依赖性。潜在空间的北部产生了通道分布在相对两侧的实现，而潜在空间的中心部分允许在网格的中心区域附近重建通道。

下载：下载高分辨率图像（1MB）
下载：下载全尺寸图像

图5. 3D t-SNE可视化显示的30维潜在空间。这个云中的每个点都是训练数据集的样本。在情景维度中，红色条表示一个通道的情景，绿色条表示两个通道的情景。

分析潜在空间的拓扑结构涉及理解其几何形状和结构，而不一定是降低其维度。TDA使人们能够检查复杂的多维、噪声数据，并提取提供对所考虑对象形状洞察的重要特征（Tierny，2018年）。整个潜在空间被视为一个单一的对象。有关此，请参考图4（TDA）。

在持久同调中，H0（0-D同调）表征点云的连接组件，即随着过滤尺度增加而不断合并的不连通簇的数量。长寿命的H0特征通常被解释为稳定的簇。可以在空间H0中看到，点沿垂直轴排列，表明隐藏空间向量彼此之间的距离不同。

H1（1-D同调）捕获潜在空间中的环/循环（环状结构，即1D“孔”）。长寿命的H1特征表明存在稳健的循环结构，而不是噪声。然而，在H1中，没有明显的对象，因为点沿对角线大致均匀地拉伸。可以看到一些小的异常值，这表明在这个维度中可能有多个环并不代表全局对象。

总的来说，可以得出结论，30维潜在空间缺乏任何明显的拓扑特征，更像是一个简单的点云。在TDA的背景下，不能得出地质情景在某种程度上是可区分的。相反，两种情景似乎形成了一个单一的云。

3.4. 沿潜在空间中最短路径轨迹的模型变化

为了评估神经网络的生成能力，需要评估其生成训练数据集中不存在的新对象的能力。这种评估将使用沿潜在空间轨迹的模型变化作为示例。需要注意的是，潜在空间内部不是线性的。因此，最短路径将由测地距离而不是欧几里得距离定义。

我们选择了两个随机地质实现用于实验，并确定了它们在潜在空间中的位置。然后，我们使用欧几里得和测地距离计算了通过潜在空间的最短路径。沿着这些路径选择了十个实现，并使用解码器将它们重建回地质模型。图6展示了三个这样的实验。可以观察到，测地插值提供了更高质量的实现，而欧几里得插值在中等步骤时的置信度较低。

在图中，应注意第三个案例——从一个概念到另一个概念的过渡。在这里，可以看到欧几里得插值在步骤4到8之间实际上产生了不现实的实现，而测地插值仅在步骤7和8时显示了非质量的实现。这种行为可以这样解释：根据TDA分析，空间中的对象在H0中彼此相距较远。这些对象可以是地质情景。因此，在情景之间插值时，我们不可避免地进入了低密度空间，导致不现实的地质变化。然而，测地度量试图尽可能“保持在”潜在空间的密集区域。

下载：下载高分辨率图像（1MB）
下载：下载全尺寸图像

图6. 沿潜在空间中最短路径轨迹的集合成员变化。左侧：潜在空间中的起始和最终点。右侧：10步骤中的欧几里得（E）和测地（G）插值选项。

应该强调的是，中间实现不是训练数据集的实例。这意味着GWAE解码器的性能质量取决于训练过程的质量以及用于重建的隐藏向量。如果潜在位置是从潜在空间中没有训练示例的区域采样的，则不能期望生成的对象具有高质量。

3.5. 通过潜在空间的历史匹配

优化实验是通过对静态和动态井数据条件化的潜在空间进行的。静态条件数据在地质统计学意义上只是“硬”条件。实际上，来自电缆测井解释的条件数据受到很少考虑的不确定性影响。此外，井-测井支持体积并不使其成为具有网格单元支持大小的“硬”条件数据。因此，静态井数据应被视为“软”近似条件，在地质统计水库建模中并不传统地遵循。GWAE通过最小化OF为静态和动态数据提供“软”条件。

选择了一个参考模型，该模型除了井-测井和生产数据外是未知的。然后，通过迭代生成模型群体并将其与参考井数据进行比较来开始优化过程，从而最小化OF。

潜在空间具有不同的密度，因此认为密度反映了特定地质设置的概率。我们使用参数度量Z估计了不同区域的潜在空间密度，该度量提供了潜在空间曲率的估计，并且当我们远离训练数据覆盖的密集区域时，不确定性估计会增加。如果现实性损失的值很高，那么从子空间采样的优化算法的实现是低密度的，即实现或地质学的可靠性很低。否则，采样过程在高密度区域进行，即实现是可能的。

选择了CMA-ES优化算法来搜索潜在空间（Hansen，2023年）。它采用每一代的结果，并自适应地增加或减少下一代的搜索空间。我们启动了四个优化过程，每个过程包含100次迭代，每个过程的样本量为51个。优化过程找到了各种实现，所有这些实现都满足以下要求：静态和动态井数据的相似性以及每个找到的解决方案的地质真实性。优化过程的结果显示在图7中。由于在没有井数据的区域存在较高的不确定性，地质实现并没有完全与参考模型相同，因此可以考虑地质的不确定性。在图8中，展示了井P2的油和水生产剖面以及井I3和I5的注入剖面。灰线表示生成模型的初始种群的动态响应，由于初始种群在潜在空间中的随机分布，因此表现出很大的变异性。最终优化的实现以实线黑色显示，与历史数据较为接近。只有三口井穿透了通道，因此其余的井没有进行生产。参考模型和优化模型之间的生产值非常接近，因此可以认为动态响应的相似性是可以接受的。

由于在没有井数据的区域存在较高的不确定性，地质实现并没有完全与我们的参考模型相同。之前，我们考虑了已知的静态井属性，因此优化过程应该能够找到与参考模型相似的解决方案。结合优化过程，GWAE成功地找到了具有适当静态属性的模型（见图9）。可以说，GWAE可以用来生成一组基于井数据的可靠实现。

在图8中，展示了初始模型集合（左列）与最终优化集合（右列）以及参考（真实）动态响应的注入器和生产者的生产动态对比。图9显示了井P2、I2、I5的静态（孔隙度）属性：a. 初始（开始）实现示例；b. 参考（真实）实现；c. 优化（最终）实现。

3.6. 消融研究
3.6.1. VAE/WAE/GWAE比较
在本节中，我们将提供各种变分自编码器修改版本的生成能力的比较分析，并使用数据集作为例子来比较计算成本。由于基于CNN的VAE和WAE架构本质上局限于规则网格上的数据，无法直接应用于真正非结构化的网格，因此比较是在结构化网格上进行的。分析重点不是传统的机器学习质量指标，而是生成实现的地质真实性和它们在流动模拟中的动态响应，因为这些方面在水库建模工作流程中具有主要的实际意义。Tolstikhin等人（2017年）在论文中描述的一个预构建解决方案被用于实现基于CNN的VAE和WAE。每个网络的潜在空间维度设置为30。

为了训练VAE和WAE，使用了批量大小为100、 epoch数为10,000的批量。对于GWAE，批量大小设置为10，epoch数为1000，因为图卷积使得训练过程较慢。所有模型都使用了第12代Intel(R) Core(TM) i7-12700 2.10 GHz处理器和NVIDIA GeForce RTX 3070显卡进行训练。每个epoch的训练时间（以秒计）和总训练时间（以分钟计）在表3中给出。在评估生成模型的性能之前，我们首先检查了VAE、WAE和GWAE学习的潜在空间的内部结构。图10展示了VAE、WAE和GWAE对应的30维潜在空间的三维t-SNE投影，其中颜色表示每个实现所属的情景。

为了比较这三个模型的生成性能，我们使用每个网络从训练数据集中随机选择一个实现进行重建。在图11（顶部）中，展示了原始/参考孔隙度立方体以及由VAE、WAE和GWAE解码器生成的相应重建结果。

需要指出的是，VAE和WAE是按照Tolstikhin等人（2017年）最初提出的方式使用的，没有进行额外调整。对于VAE来说，由于其内部架构，生成能力明显较差；而WAE通过额外调整可以提高性能。值得一提的是，在以下情况下，基于图的变体将显著优于基于图的变体：

3.6.2. 目标函数
为了测试OF作为控制GWAE生成实现真实性的工具的有效性，进行了以下实验：禁用了OF的实现损失组件，该组件隐式地衡量了GWAE生成实现的真实性，然后运行了优化过程。因此，我们模拟了一个HM过程，在该过程中优化器没有接收到有关潜在空间中地质表示的空间位置的信息，也无法获取关于潜在空间中位置的方向信息。由于HM的结果，我们预期优化器会找到提供相似静态和动态组分的地质模型。然而，由于没有获取到任何信息，因此并不期望模型的地质真实性。

图13的左部显示了在PCA空间中找到的地质表示的空间位置。可以看出，找到的位置（蓝点）与主要点群（灰点 - 地质上一致的先验流形）相距甚远。这表明重建的地质实现将与先验集显著不同，违反了地质真实性。图的右部证实了这一点，因为重建的地质模型与参考模型（红点）以及具有真实性控制的重建实现（灰点）不同。

接下来的图14和图15表明，优化过程能够找到提供可靠静态和动态地质实现特性的实现。

4. 结论
我们展示了图变分自编码器在具有地质真实性控制的HM问题中的应用。结果表明，图架构是建模地质结构的合适方法。使用VAE架构可以有效减少原始地质表示的维度，以便在潜在空间中进行搜索。潜在空间本身具有内部结构，允许更有效地根据静态和动态井特性搜索地质表示。与标准欧几里得距离相比，测地线度量更适合处理非线性隐藏表示。在潜在空间内进行优化的一个关键方面是结合隐式控制机制以确保地质真实性。虽然提出的GWAE技术很有前景，但它有几个固有的限制。它严重依赖于训练先验集合的质量和覆盖范围。固定低维的潜在空间涉及权衡，过度压缩会丢失细粒度特征，而过度压缩以及自动维度选择仍然具有挑战性。尽管进行了Wasserstein正则化，解码器的模糊性仍然存在，可能导致岩石的渗透性被高估，从而增加井的排水量。GWAE的实现最接近地再现了动态响应，这主要归功于对通道的准确空间重建和正确的渗透性表示。然而，再现中的固有模糊性也略微增加了井的排水量，导致生产率高于参考情况。

在本文中，我们在单一沉积环境（河流通道）的单场景基准上展示了多场景能力，即单通道与双通道实现。将验证扩展到根本不同的沉积概念留待未来的工作。

本文的关键发现包括：
- 提出的基于GWAE的AHM工作流程旨在用于多场景探索，并在此处以双场景基准（单通道与双通道河流模型）进行了演示，解决了该设置中模型参数化的非唯一性问题；
- GWAE本质上表示的是水库拓扑而非基于格子的深度学习网络；
- AHM结合了多组分OF，通过潜在空间考虑并平衡了静态/动态匹配和地质一致性；
- 潜在空间的连续性提供了一种使用进化优化器搜索HM模型的方法。Vasily Demyanov：负责写作、审稿与编辑工作，以及项目监督和概念设计。
Daniel Arnold：同样负责写作、审稿与编辑工作，此外还负责代码验证和项目监督。

代码获取方式：
源代码可通过以下链接下载：
https://github.com/GlebShish/GWAE-Fluvial

热点排行