DEAE:一种半监督去噪增强型自适应编码器网络,用于中国大庆油田大陆砂岩-火成岩地层中的井间岩性识别

《Computers & Geosciences》:DEAE: A semi-supervised denoising enhanced adaptive encoder network for inter-well lithology identification in continental sandstone-igneous formations of Daqing Oilfield, China

【字体: 时间:2026年05月11日 来源:Computers & Geosciences 4.4

编辑推荐:

  赵风达|周志涵|翟浩兵|张鹏伟|李先山 中国科学院燕山大学软件学院人工智能系,秦皇岛市,066004,中国 摘要 岩性识别在石油和天然气勘探、地层评价以及风险缓解中起着关键作用。虽然采集测井样本相对容易,但注释过程成本较高。因此,探索用大量未标记数据补充标记数据的方向是值得的。

  赵风达|周志涵|翟浩兵|张鹏伟|李先山
中国科学院燕山大学软件学院人工智能系,秦皇岛市,066004,中国

摘要
岩性识别在石油和天然气勘探、地层评价以及风险缓解中起着关键作用。虽然采集测井样本相对容易,但注释过程成本较高。因此,探索用大量未标记数据补充标记数据的方向是值得的。编码器网络是一种可以预训练的半监督学习网络,特别适用于标记数据稀缺的场景。然而,传统的自编码器可能会忽略某些特征,导致过拟合。为了防止这种情况并充分利用大量未标记数据的信息,本文提出了一种去噪增强自适应编码器(DEAE)用于数据增强。通过使用掩码矩阵向未标记数据添加噪声,编码器通过特征评估器和掩码估计器进行训练,以获得原始数据的潜在表示。然后使用训练好的编码器进行下游的半监督岩性分类任务。我们的实验证明,该方法在中国大庆油田的不同井中比监督学习取得了更高的识别精度。

引言
岩性识别——确定岩石的物理特性和类型——对于储层描述、烃类区域的划定以及非常规油气资源的开发至关重要(Ye等人,2021)。传统上,这一过程依赖于岩心样本(从地下提取的圆柱形岩芯)和切割样本(钻井过程中收集的岩石碎片)。这些样本提供了直接的地质信息,但成本高昂且无法全面覆盖整个井深。为了解决这些问题,测井技术——特别是井测井曲线(沿着钻孔测量的岩石和流体特性的图形记录)——提供了一种连续、非破坏性的方法来评估地下岩石和流体特性(Corina和Hovda,2018)。地质学家通过解释这些曲线来获得高分辨率的岩石物理参数。这些参数包括电阻率(衡量材料抵抗电流流动的能力)和声波传播时间(声波穿过特定岩层所需的时间)。这些参数使得岩性划分更加精确。

随着人工智能、机器学习和深度学习方法的快速发展,这些方法越来越多地应用于岩性识别(El-Omairi和El Garouani,2023;Mishra等人,2022;Bressan等人,2020)。与传统的基于阈值或统计的方法相比,支持向量机、随机森林和梯度提升等机器学习算法能够更好地捕捉井测井数据中的复杂非线性关系,并在各种地质场景中显示出更高的准确性(Xie等人,2023;Wang等人,2024)。深度学习模型,包括卷积神经网络(CNN)和循环神经网络(RNN),进一步提升了特征提取和模式识别能力,使其特别适用于高维和复杂的测井数据集(Lin等人,2020;Chen等人,2019;Chen和Zhang,2020)。然而,深度学习模型通常需要大量的标记数据才能泛化得很好,这限制了它们在标记样本稀缺场景中的应用。

作为世界上最大的大陆砂岩油田之一,中国的大庆油田由于其独特的储层地质特征,带来了独特的岩性识别挑战。主要含油层分布在白垩纪青山河口组和姚家组,这些地层主要由薄夹层砂岩组成(厚度:0.5–20米),渗透率变化范围达到三个数量级(0.4–500 × 10?3μm2)。同时,深部火成岩(如安山岩、流纹岩)与砂岩互层,导致矿物成分的连续变化,从而产生重叠的井测井响应特性。此外,松辽盆地北部的频繁断层活动形成了低速异常区(例如Nen-2组成员断层阴影区),显著加剧了井间岩性预测的不确定性。传统方法依赖有限的标记数据和单参数阈值分割,难以有效处理这种异质储层中的小样本岩性分类(Yonghe等人,2013;Zhi-qiang等人,2010)。数据分析的高成本导致实际测井操作中产生了大量未标记数据。此外,由于地质环境的多样性和异质性,测井数据集的分布严重不平衡,导致小样本量岩性的特征不足。在基于井测井的岩性识别中,“小样本量”的定义因方法而异。对于传统的机器学习算法来说,几百到几千个标记样本通常就足以获得满意的性能,而深度学习模型通常需要几千到数百万个标记例本来实现稳健的泛化(Zhang等人,2016;Zhang等人,2021)。在本研究中,我们将“小样本量”数据集定义为包含少于2000个标记样本的数据集,反映出在实际应用中深度神经网络经常表现出不稳定的训练和有限的泛化能力的情况。这种情况在现实世界中很常见,因为获取标记地质数据的成本高且难度大。此外,如果某个岩性类别占总数据集的不到5%或包含少于300个样本,则认为它是“小样本类别”,这与某些岩性因地质异质性和操作限制而较为罕见的情况一致。在监督学习的约束下,模型的泛化能力难以进一步提高,常常导致岩性识别出现重大错误,并倾向于将少数类别误分类为多数类别。

为了应对这些挑战,我们提出了一种去噪增强自适应编码器(DEAE)网络,该网络利用标记和未标记数据进行岩性识别。核心思想是使用经过训练的编码器从带噪声和掩码的输入中恢复原始特征,从而学习到稳健的表示。然后使用训练好的编码器增强所有数据,以进行后续的半监督分类任务。所提出的方法结合了两种注意力机制来改进特征提取和掩码估计。在编码器训练过程中,对未标记数据施加噪声和掩码,并使用结合特征和掩码重建的加权损失函数进行优化。在半监督分类阶段,逐步增加未标记数据的损失权重,并生成动态伪标签以进一步利用未标记样本。使用交叉熵损失对数据进行标记。广泛的实验证明,这种基于编码器的数据增强方法比仅使用原始特征提供了更好的分类性能。

此外,我们研究了将不同地区的未标记数据与标记数据结合的效果,发现包含未标记数据仍然有助于数据增强并提高模型性能。

本文的主要贡献总结如下:
1. 我们提出了一种编码器,在对未标记数据应用掩码和噪声后,能够去噪并增强数据。这种编码器可以有效恢复原始特征并识别噪声,显著提高了数据利用率。
2. 我们设计了一种双重注意力机制:掩码估计器中的区域注意力机制用于更准确的位置信息分析,以及特征评估器中的特征自适应机制用于更合理的特征权重分配。
3. 我们在半监督任务中引入了未标记数据的动态伪标签策略。在与标记数据联合训练过程中,这些伪标签不断更新,并逐渐增加未标记数据的损失权重系数,以训练出更稳健的模型。

章节片段
近年来,机器学习方法已被广泛应用于岩性识别问题,提高了岩性识别的准确性和效率。Moazzeni等人使用人工神经网络进行地层钻探,利用实时钻井数据以可接受的准确性预测地层类型和岩性(Moazzeni和Haffar,2015)。为了探索测井数据特征空间中的非线性关系,Dong等人使用核技术进行了增强。

大庆油田位于中国东北部的松辽盆地中部,是东亚最大的中生代大陆沉积盆地之一(Zhi-qiang等人,2010;Wang等人,2013)。松辽盆地是一个在晚侏罗世到白垩世期间形成的断层凹陷盆地,特征是厚层的大陆地壳碎屑沉积物和复杂的构造历史。

提出的框架的整体架构如图1所示。该方法包括两个主要阶段:(1)数据增强的无监督学习阶段;(2)用于岩性预测的半监督分类阶段。

在第一阶段,以无监督的方式利用大量未标记的井测井数据。对输入特征施加随机掩码和噪声以生成损坏的样本。然后通过编码器-解码器网络处理这些样本。

为了有效评估模型,我们在大庆油田的两个井集上进行了实验:井集1称为DA,井集2称为DB。DA数据集包含来自49口地理位置相邻井的1628个测井数据条目,所有样本深度范围从1212.1米到2520.9721米。每个样本具有九个测井特征,包括自然电位(SP)、光电吸收因子(PE)、伽马射线(GR)、地层电阻率(AT)、声波...

讨论
本研究强调了在复杂地质环境中岩性识别面临的持续挑战,其中有限的标记数据、类别不平衡和地层异质性常常限制了模型性能。在DA和DB数据集上的实验表明,某些岩性类别,特别是暗泥岩和粉砂泥岩,在特征空间中有大量重叠,这由t-SNE可视化结果揭示。这种重叠经常导致误分类,突显了...

结论
为了克服样本标记的高成本和数据稀疏性问题,本文提出了一种去噪增强自适应编码器网络框架。该方法结合了少量标记数据和大量未标记数据,利用未标记数据中的潜在结构信息来提高岩性识别的准确性和效率。在两个测井数据集上进行了广泛的实验,得到了稳定可靠的结果。

CRediT作者贡献声明
赵风达:监督、资源、方法论。
周志涵:撰写——原始草稿、可视化、验证、方法论、数据管理。
翟浩兵:监督、方法论、调查。
张鹏伟:监督、调查、数据管理。
李先山:撰写——审稿与编辑、监督。

利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文的报告。

致谢
本工作部分得到了国家重点科学技术项目(项目编号2025ZD1401101)、河北省科技计划(项目编号246Z1817G)、新疆维吾尔自治区自然科学基金(项目编号2025D01C86)、河北省教育厅科研项目(项目编号QN2026475)以及河北省创新能力提升计划项目(项目编号22567637H)的支持。作者还非常感谢提供的有益意见。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号