关于不同采样策略对基于井测数据的机器学习岩性识别影响的研究与见解

《Artificial Intelligence in Geosciences》：Research and Insights into the Impact of Different Sampling Strategies on Machine Learning-Based Lithology Identification Using Well Logging Data

【字体：大中小】 时间：2026年05月11日 来源：Artificial Intelligence in Geosciences 4.2

编辑推荐：

　　曹振华|秦振|罗少成|陈伏庚|黄科|董旭|孟灵谊|苏可嘉|魏康健江西核地球科学数据科学与系统工程技术研究中心（华东工业大学），南昌330013，中国摘要岩性识别是地质勘探和矿产资源开发中的关键任务，其中准确的分类在地质建模和资源评估中起着至关重要的作用。尽管机器学习方法在

　　曹振华|秦振|罗少成|陈伏庚|黄科|董旭|孟灵谊|苏可嘉|魏康健
江西核地球科学数据科学与系统工程技术研究中心（华东工业大学），南昌330013，中国

摘要
岩性识别是地质勘探和矿产资源开发中的关键任务，其中准确的分类在地质建模和资源评估中起着至关重要的作用。尽管机器学习方法在岩性识别方面取得了显著进展，但不同采样策略对模型性能的影响尚未得到系统研究。本研究探讨了三种采样策略（简单随机采样、分层采样和系统采样）与四种机器学习模型（支持向量机（SVM）、随机森林（RF）、决策树（DT）和极端梯度提升（XGBoost）结合使用时对岩性识别性能的影响。实验在10%:90%、50%:50%和90%:10%的训练集与测试集比例下进行，模型性能通过准确率、召回率、精确率、混淆矩阵和Jaccard指数等指标进行评估。结果表明，尽管系统采样的计算效率较高，但其预测准确率和鲁棒性始终最低。在样本量较小的情况下（10%:90%的训练集与测试集比例），系统采样与SVM的结合导致性能下降最为显著，表明这种组合不适合数据稀缺情景下的可靠岩性分类。在样本量平衡且较大的情况下，简单随机采样和分层采样与基于树的模型（包括DT、RF和XGBoost）结合使用时，分类准确率始终超过0.95，而SVM的性能变异性较大。随着训练数据比例增加到90%，采样策略对模型性能的影响逐渐减小，尽管系统采样仍优于其他两种采样方法。总体而言，结果表明，在类别不平衡严重且测井响应复杂的的数据集中，分层采样或简单随机采样能够提供更可靠的岩性类别表示。特别是在样本量平衡或充足的情况下，将分层采样与决策树或极端梯度提升模型结合使用，可实现高分类准确率和稳健的岩性识别。这些发现为地质数据分析和机器学习模型在岩性识别中的优化提供了有用指导。

1. 引言
岩性识别在地质勘探、矿产资源开发和环境监测中起着关键作用。准确的岩性分类不仅有助于建立精确的地质模型，还为资源评估、矿物开采和地下水管理提供了重要依据（Al-Anazi & Gates, 2010）。过去，许多测井专家基于测井数据进行了广泛的岩性识别研究。他们首先钻井并取芯，然后手动观察和比较岩石。然而，取芯过程复杂且成本高昂（Silva et al., 2015）。后来提出了传统的岩性识别方法，如交叉图法（Fan et al., 1999; Gu et al., 2021）、统计方法（Yang et al., 2012）和成像测井（Lai et al., 2018）。然而，传统岩性识别方法主要依赖于手动经验和专业知识，存在耗时长、主观性强和准确性有限等问题（Shi et al., 2023），不利于广泛应用。
随着高精度测井仪器的快速发展以及地下数据量的不断增加，测井行业已转向智能和自动化的数据处理和系统维护解决方案（Hao et al., 2019）。机器学习为岩性识别提供了新的解决方案。研究人员尝试应用支持向量机（SVM）（Cortes & Vapnik, 1995; Al-Anazi & Gates, 2010; Li et al., 2022; Zhang et al., 2023）、随机森林（RF）（Breiman, 1996; Breiman, 2001; Rahimi & Riahi, 2022）、决策树（DT）（Quinlan, 1987; Ren et al., 2023）、极端梯度提升（XGBoost）（Chen & Guestrin, 2016; Duan et al., 2023; Ibrahim et al., 2023）、kNN（Peterson, 2009; Kong et al., 2020）、贝叶斯（NB）（Van de Schoot et al., 2021; Ren et al., 2022）和多层感知器（MLP）（Popescu et al., 2009; Li et al., 2023）等算法来提高分类的准确性和效率。
Kong et al.（2020）提出了一种结合图聚类和最小邻域算法的岩性识别方法，用于解决碳酸盐储层中岩性复杂和边界不明确的问题。该方法首先使用图聚类对测井数据进行初步分组，然后使用最小邻域算法进行岩性分类，有效提高了识别的准确性和分辨率。在四川盆地Leikoupo组的应用结果表明，该方法在处理非线性和高度重叠的岩性数据方面效果良好，适用于复杂储层的智能识别。Shebl和Csámer（2022）证明，将高级陆地成像仪（ALI）数据与机器学习算法整合可以显著提高岩性分类的准确性，优于传统方法。Ren et al.（2022）提出了一种基于改进的朴素贝叶斯的岩性识别框架，结合主动学习和半监督学习策略在标签样本有限的情况下提高识别性能。该方法通过主动学习选择代表性样本进行标注，并利用半监督机制扩展训练集，从而提高模型的泛化能力。实验结果表明，该框架在岩性分类准确率和数据利用效率方面优于传统监督学习方法，特别适用于难以获得实际岩性样本的情景。
为了降低高维测井数据带来的计算复杂度，Ren et al.（2023）使用主成分分析（PCA）降低特征维度，并使用粒子群优化（PSO）算法优化模糊决策树（FDT）结构，从而实现高精度的岩性识别。Zhang et al.（2023）通过调整最小二乘支持向量机（LSSVM）的超参数，并使用自适应粒子群优化（APSO）算法提出了一个岩性分类模型。该模型在识别深部变质岩性方面表现出稳健的预测性能，表明其在复杂构造环境中的地下地质解释潜力。Ming et al.（2023）开发了一种基于多层感知器（MLP）神经网络的测井曲线重建方法，有效捕捉了现有井测井曲线之间的复杂非线性相关性，推断缺失数据。他们的发现表明，该方法在重建准确性和泛化能力方面表现优越，为应对具有挑战性地质条件下的井测井数据不完整性提供了稳健和可扩展的解决方案。为了提高岩性识别的准确性和客观性，Ibrahim et al.（2023）提出了一种基于X射线荧光（XRF）分析数据的混合机器学习方法。该方法将合成少数 Oversampling 技术（SMOTE）与极端梯度提升（XGBoost）算法结合，形成 SMOTE-XGBoost 模型。通过应用 SMOTE，该模型有效平衡了不平衡的岩性数据集，显著提高了少数类（如矿化岩性）的分类性能。实验结果表明，该模型在准确率、ROC 曲线下面积（AUC）、精确率和 F1 分数方面优于其他五种智能分类方法。SMOTE-XGBoost 模型大幅提高了 Tarkwaian 古沉积层的岩性分类效率和鲁棒性。
Duan et al.（2023）对中国北部松辽盆地砂岩型铀矿床进行了自动岩性识别研究。为了优化预测框架，他们使用了先进的集成技术，特别是 SMOTE-Random Forest 和 XGBoost 算法，获得了高度稳健的分类结果。最近，研究人员在多个油田、气田和煤矿中进行了多机器学习分类器的岩性预测比较实验（Mukherjee et al., 2024a; Prajapati et al., 2024; Banerjee et al., 2024）。特别是 Banerjee et al.（2024）和 Prajapati et al.（2024）展示了先进机器学习模型在表征异质地下介质方面的显著优势，而 Mukherjee et al.（2024a）得出结论，算法选择必须严格符合岩石物理约束才能实现最先进的分类。近年来，深度学习方法在岩性识别中的应用日益增多，使得在复杂地质环境中进行更有效的特征提取和分类性能改进成为可能。Liu et al.（2024）提出了一种基于深度学习的岩性分类方法，用于砂岩微观结构的细粒度分类。实验结果表明，该方法显著提高了分类准确率，展示了其在捕捉细微结构和成分特征方面的有效性。然而，尽管机器学习在岩性识别方面取得了显著进展，现有研究仍面临一些挑战，特别是在数据预处理阶段。岩性数据集通常存在类别不平衡和空间分布不均等问题，这些都会影响模型训练效果和分类准确性。采样技术作为重要的数据预处理步骤，在解决这些问题中起着关键作用。不同的采样方法（包括简单随机采样、分层采样和系统采样）可能对模型训练过程及其最终性能产生不同程度的影响。关于采样方法在岩性识别中应用的系统研究仍然很少，特别是比较分析多种机器学习算法与不同采样技术结合的研究。因此，本研究旨在探索不同采样方法（包括支持向量机（SVM）、随机森林（RF）、决策树（DT）和极端梯度提升（XGBoost）在岩性识别中的影响。通过比较简单随机采样、分层采样和系统采样在这些模型中的分类性能，我们分析了各种采样技术如何提高岩性分类的模型准确率。通过设计和分析相应的实验，这项工作不仅为岩性识别的数据预处理策略提供了新的见解，还为地质数据分析中的机器学习模型优化提供了实际指导。

2. 数据
2.1. 研究区域
研究区域位于中国东北部渤海湾盆地辽河凹陷东部的辽河滩海油田，是中国最重要的油气勘探和开发区域之一（Yu et al., 2025）。该地区的构造特征是由多阶段裂谷作用和随后的沉降形成的叠加构造框架。在古新世同步裂谷阶段，即沙河阶第三到第一组成员沉积期间，强烈的伸展构造作用导致了快速沉降，形成了一个深湖盆。随后，在东营阶沉积期间，区域应力体制转变为走滑压缩，导致先前形成的正断层重新活动并局部反转，形成了由逆断层和走滑断层组成的多阶段构造系统。这种复杂的构造演化为烃类迁移和积累提供了有利条件（Yu et al., 2025; Hu et al., 2023）。渤海湾盆地古新世沙河阶的古地理重建表明，同步裂谷沉积主要由多个三角洲系统组成，包括扇形三角洲和辫状河三角洲复合体。这些系统优先在活跃的盆地边缘断层带和近源区发育（Yang et al., 2023）。这类沉积系统具有强烈的水动力条件、高沉积率和短的运输距离，有利于粗粒碎屑物质（如砾岩和粗砂岩）的积累。此外，来自源区的短运输距离使得一些粗粒碎屑沉积物中保留了相对放射性的成分，这在局部导致相对较高的GR响应。细粒沉积物主要被输送到更远端的湖泊环境或在相对平静的沉积期间沉积（Yang et al., 2023）。因此，细粒岩性（如泥质粉砂岩、泥质泥岩和泥岩）通常以薄层形式出现在粗粒层序中或作为区域盖层单元，仅占地层厚度的一小部分。这种构造沉积模式导致岩性组合以粗粒相为主，合理解释了随后井测井数据中观察到的显著岩性异质性和严重的岩性类别不平衡。
2.2. 数据情况
为了系统评估不同随机采样方法在岩性识别中的应用效果，设计了一系列实验来比较不同采样方法在各种机器学习算法中的性能。实验设计的核心目标是深入分析采样方法对模型训练结果的影响，并为地质数据中的岩性识别问题提供针对性的解决方案。实验步骤如下：首先，将现场采集的测井数据转换为CSV格式，并处理异常值（Zhang等人，2022年）：如果原始测井数据的首尾有异常值，可以根据经验直接删除这些值。从收集的测井曲线中选取五条曲线作为特征向量，即使用RT、GR、SP、CAL和AC这五条测井曲线作为机器学习的特征向量，每条曲线对应的岩性作为机器学习的标签。本研究中使用的岩性标签为Rock1、Rock2、Rock3、Rock4和Rock5，分别代表五种岩性。Rock1、Rock2、Rock3、Rock4和Rock5分别是砾岩、粗砂岩、粉砂质泥岩、泥质粉砂岩和泥岩。本次实验从九口井中收集的测井数据共包含1557个样本，这些数据来源于泥浆测井，如图2和表1所示：
下载：高分辨率图像（251KB）
下载：全尺寸图像
图1. 研究区域示意图
下载：高分辨率图像（178KB）
下载：全尺寸图像
图2. 所有样本的岩性分布
表1. 不同岩性下的测井参数统计分布

岩性 RT/(Ω·m) GR/APIS SP/mV CAL/in AC/(μs/ft)
砾岩 28.68-89.11 45.0-98.6 146.45-59.6 9.94-14.6 57.49-139.16
粗砂岩 17.84-28.65 46.43-90.3 46.09-61.6 10.11-14.57 81.64-142.86
泥质粉砂岩 11.55-17.09 50.69-87.1 49.19-58.4 9.77-13.2 169.7-133.78
粉砂质泥岩 5.02-11.54 56.55-104.3 52.67-64.2 10.09-13.66 83.08-137.02
泥岩 2.92-4.95 56.65-98.8 55.59-58.7 10.13-12.9 117.9-136.53

使用传统的岩性识别方法（交叉图法，Fan等人，1999年；Gu等人，2021年），图3和图4展示了校准井中岩性的分布特征及其对应的垂直测井响应。如图3所示，交叉图法通过高电阻率（RT）有效地区分了大部分砾岩和粗砂岩。这种模式与图4中的垂直测井响应一致，其中由砾岩和粗砂岩主导的层段的RT值比相邻的细粒层要高。然而，在几个参数空间中仍然可以观察到砾岩和粗砂岩之间有相当大的重叠，表明在常规测井测量下它们的测井响应相对相似。

下载：高分辨率图像（2MB）
下载：全尺寸图像
图3. 五条测井曲线的交叉图：RT、GR、SP、CAL、AC
下载：高分辨率图像（886KB）
下载：全尺寸图像
图4. 标准校准井
下载：高分辨率图像（664KB）
下载：全尺寸图像
图5. 简单随机抽样的示意图
下载：高分辨率图像（703KB）
下载：全尺寸图像
图6. 分层抽样的示意图

值得注意的是，伽马射线（GR）响应显示出非典型的特征：粉砂质泥岩（Rock3）和粗粒岩性表现出异常高的GR值（70-100 API），这些值与泥岩层域有很强的重叠甚至超过泥岩层域。这些放射性异常与近源扇三角洲系统中的不成熟、富含长石和岩石碎屑的沉积物密切相关，在这些沉积物中，来源的放射性成分既存在于粗粒碎屑中，也存在于细粒粉砂沉积物中。此外，虽然细粒岩性（泥质粉砂岩、粉砂质泥岩和泥岩）在RT图上表现出明显的分界线，但由于泥岩样品的数量极少（5.0%），这种区分性在统计上被放大了，从而造成了分类上的视觉偏差。在评估SP和AC等其他参数时，这些细粒类仍然表现出显著的重叠，反映了岩性和物理性质的复杂耦合，这使得基于单参数阈值的手动解释变得困难。

为了更清晰地区分这些岩性，并克服传统二维交叉图分析的局限性，我们选择了集成多参数测井信息的机器学习算法，以实现更可靠的岩性识别。

3. 方法
3.1. 常见采样方法
采样方法在数据预处理中的重要性不可忽视，尤其是在处理类别不平衡和数据偏置等问题时。通过优化样本选择和数据分布，采样方法可以有效提高模型训练质量和预测性能（Cao等人，2008年）。常见的采样方法包括：
3.1.1. 简单随机抽样
简单随机抽样是一种基本且常用的采样方法，从整个数据集中随机选择样本进行训练（Cao等人，2008年）。该方法假设数据集中的样本分布均匀，适用于类别分布平衡且没有显著空间相关性的情况。然而，在类别不平衡或数据存在空间依赖性的情况下，简单随机抽样可能导致某些类别的样本不足，从而影响模型的学习性能。
在目标总体中，每个个体被选中的概率相等，每次选择都是独立的。这意味着在大小为N的总体中，如果需要抽取一个岩石样本，从总体中选择任何个体的概率是（1/N），具体概率公式如下：
（1）设训练集与测试集的比例为K:1-K，则训练集和测试集的样本大小分别为：
（2）
（3）
以下是简单随机抽样的示意图：
3.1.2. 分层抽样
分层抽样是根据类别或其他特征将数据集划分为若干子集（层），然后从每个层中按比例或固定数量随机选择样本。这种方法在处理类别不平衡问题时特别有效（Meng，2013年；Lü等人，2018年）。研究表明，分层抽样可以提高岩性分类模型对少数类别的识别能力，尤其是在样本类别分布不均衡的情况下。
本研究中使用的分层抽样方法基于五种岩性的比例进行比例抽样。
从总体中大小为N的样本中，首先从每种岩性中抽取少量样本。然后选择每种岩性的概率公式如下：
（4）设训练集与测试集的比例为K:1-K，则训练集和测试集的样本大小分别为：
（5）
（6）
以下是分层抽样的示意图：
3.1.3. 系统抽样
系统抽样是通过在固定间隔（步长）从总体中选择单元来构建样本的方法。这种方法在实际应用中相对简单，同时保持了概率抽样的基本特点，即每个单元被选中的概率是已知且非零的（Yates，1948年）。其优点包括操作简便、效率较高；当总体有序时，可以通过设置起始点和固定步长来执行系统抽样，无需使用随机数随机选择每个单元，从而更快更方便。此外，样本在总体中的分布更加均匀；与简单随机抽样相比，系统抽样可以在总体中实现更均匀的样本分布，降低特定段落的聚集风险。
在本实验中，步长k设置为3，表示每3个单元中选择1个样本。从第一个样本开始，通过系统抽样选择的样本总数为：
（7）
（8）
（9）
以下是系统抽样的示意图：
3.2. 常用的岩性识别机器学习算法
随着数据科学和机器学习的快速发展，越来越多的研究开始应用机器学习算法进行岩性识别。常用的机器学习算法包括支持向量机（SVM）、随机森林（RF）、决策树（DT）和极端梯度提升（XGBoost）等。
3.2.1. 支持向量机（SVM）算法
支持向量机（SVM）是一种基于统计学习理论的监督学习算法（Cortes & Vapnik，1995年），它在处理非线性和高维分类任务时效果显著，并且具有可解释性。SVM的理论基础是通过构建具有最大几何边界的决策边界来实现最优数据分离。核心目标是确定一个在特征空间中距离最近训练样本尽可能远的划分超平面，从而确保分类器的鲁棒性和泛化能力。这是通过使用核函数将高维特征空间映射来构建划分不同样本的超平面来实现的，从而获得可视化的分类结果（Zhang等人，2023年），如图8所示。目标函数由公式（10）给出，满足以下条件：
（10）
（11）
在公式中：
下载：高分辨率图像（461KB）
下载：全尺寸图像
图7. 系统抽样的示意图
下载：高分辨率图像（333KB）
下载：全尺寸图像
图8. 使用支持向量机算法进行分类的示意图
是惩罚参数；是误差 margin；是每个样本引入的松弛变量；是特征的变换函数。
核函数定义为：
（12）
3.2.2. 随机森林算法（RF）
随机森林（RF）是由Breiman（Breiman，1996年；Breiman，2001年）提出的一种集成学习算法，本质上是一种基于Bagging框架改进的决策树集成模型。该算法通过引入双重随机机制——数据样本的Bootstrap抽样和节点分割时的特征子集随机选择——来构建高度多样化的决策树集。在训练阶段，算法从原始训练集中使用Bootstrap抽样生成多个子训练集，并在每个子集上训练一棵决策树。在分割节点时，算法仅从随机选择的特征子集中选择最优分割特征，进一步增强了基础学习器的多样性，如图9所示。
下载：高分辨率图像（189KB）
下载：全尺寸图像
图9. 随机森林算法的结构图
下载：高分辨率图像（190KB）
下载：全尺寸图像
图10. 决策树算法的流程图
下载：高分辨率图像（224KB）
下载：全尺寸图像
图11. 极端梯度提升算法的流程图
下载：高分辨率图像（320KB）
下载：全尺寸图像
图12. 抽样时间比较
下载：高分辨率图像（289KB）
下载：全尺寸图像
图13. 准确率比较
下载：高分辨率图像（638KB）
下载：全尺寸图像
图14. 杰卡德系数比较
下载：高分辨率图像（223KB）
下载：全尺寸图像
图15. 精确度比较
采样方法A、B和C分别对应于简单随机抽样、分层抽样和系统抽样，训练与测试的比例分别为10%:90%；
采样方法D、E和F分别对应于简单随机抽样、分层抽样和系统抽样，训练与测试的比例分别为50%:50%；
采样方法G、H和I分别对应于简单随机抽样、分层抽样和系统抽样，训练与测试的比例分别为90%:10%。
下载：高分辨率图像（250KB）
下载：全尺寸图像
图16. 召回率比较
采样方法A、B和C分别对应于简单随机抽样、分层抽样和系统抽样，训练与测试的比例分别为10%:90%；
采样方法D、E和F分别对应于简单随机抽样、分层抽样和系统抽样，训练与测试的比例分别为50%:50%；
采样方法G、H和I分别对应于简单随机抽样、分层抽样和系统抽样，训练与测试的比例分别为90%:10%。
对于分类任务，随机森林使用多数投票机制来组合每个决策树的预测结果，即最终分类结果是获得最多支持的类别。在回归任务中，树的输出通过算术平均合并。与传统算法仅依赖数据扰动来增强模型多样性不同，随机森林通过结合数据扰动和特征扰动策略有效地减少了基础学习器之间的相关性。这显著降低了方差，同时大致保持了偏差不变，从而提高了模型的整体泛化能力和抗过拟合能力。
3.2.3. 决策树算法（DT）
决策树（DT）是由Quinlan（Quinlan，1987年；Quinlan，1999年）首次正式提出的监督学习模型，它本质上是一种基于树结构的非参数分类方法。该模型通过构建具有分层拓扑结构的二叉树或多路树来进行决策推理。根节点代表初始的特征空间划分，非叶节点代表分割规则，叶节点对应最终的类别标签。
决策树的核心机制是使用递归分割策略，根据局部最优标准（如信息增益或Gini杂质度）迭代地划分特征空间。在训练阶段，算法通过最大化目标函数（信息增益比）来选择最优分割特征和阈值，直到满足预定义的终止条件（如达到节点纯度阈值或样本数量低于最小限制）。为了防止过拟合，通常引入了剪枝策略，包括预剪枝（提前终止树生长）和后剪枝（在生成完整树后简化结构）。修剪的理论基础来源于奥卡姆剃刀原则，该原则倾向于在保持分类准确性的同时选择更简单的模型。3.2.4 极端梯度提升算法（XGBoost）极端梯度提升（XGBoost）是一种基于梯度提升决策树的优化算法（Chen & Guestrin, 2016），旨在提高模型的计算效率和泛化能力。其核心思想是通过加性模型和前向逐步优化迭代学习一组弱学习器（即决策树），并使用二阶泰勒展开来增强优化过程。XGBoost的模型表示为：（13）其中：是第i个样本；是相应的预测值；是决策树的数量；是第k个决策树模型。XGBoost的目标函数包括损失函数和正则化项，损失函数定义为。经过t次目标函数更新后，目标是最小化目标函数值。目标函数的简化形式为：（14）注意：是损失函数的一阶导数；是损失函数的二阶导数。4. 测试与结果4.1 测试方法4.1.1 数据预处理和验证策略为了评估在不同数据可用性条件下的采样策略的有效性，将数据集分为三种训练-测试比例（10:90、50:50和90:10）。极端的10:90分割是为了模拟在早期勘探中常见的严重数据稀缺情况。为了减少在有限样本上训练机器学习模型时可能出现的方差和过拟合问题，在训练过程中实施了分层的五折交叉验证策略。遵循Mukherjee等人（2024b）提出的方法论框架，这种方法在每个折叠中保持了原始的岩石学类别分布，从而确保对不平衡地质数据集的模型泛化性能进行统计上稳健的评估。4.1.2 数据预处理和验证策略为了加速模型收敛、提高准确性、避免数值问题并确保特征之间的比例一致，对训练集和测试集进行了标准化。标准化使得不同特征的系数或权重可以相互比较，从而能够更清楚地解释每个特征在模型中的相对重要性。两种常见的标准化方法是Z分数标准化和最小-最大标准化。在本研究中应用了Z分数标准化，它根据数据的均值和标准差对原始数据进行转换。转换后，数据遵循均值为0、标准差为1的标准正态分布。（15）其中：是原始数据中的第i个值；是原始数据的均值；是原始数据的标准差；是标准化后的值。4.1.3 模型评估指标为了严格量化四种部署的算法（SVM、RF、DT和XGBoost）的预测能力，建立了一个多维评估框架。该框架的核心是混淆矩阵，它映射了实际岩石学真实值与模型预测之间的关系。在多类范式中，对角线占主导地位的混淆矩阵表示高分类准确性，而对角线以外的元素则明确量化了特定地质过渡区间的错误分类倾向。通过以一对一的方式处理每个岩石学类别，提取了四个基本组成部分：真阳性（TP）、假阳性（FP）、真阴性（TN）和假阴性（FN）。基于这些组成部分，以下评估标准被数学定义：准确率评估了整个数据集中正确分类实例的全球比例：（16）精确度衡量分类器的精确性，而召回率（敏感性）评估其在识别真实地质目标时的完整性，而不遗漏任何目标：（17）（18）为了在所研究的地质数据集中固有的严重类别不平衡情况下提供稳健和平衡的评估，使用了F1分数。它被数学上定义为精确度和召回率的调和平均值：（19）此外，还结合了Jaccard指数来严格量化预测集合和实际岩石学集合之间的交集。这个指标对于预测重叠非常敏感，是一个衡量少数类性能的优秀指标：（20）4.1.4 超参数优化机器学习分类器的预测准确性和泛化鲁棒性与它们的超参数校准密切相关。为了最大化分类效果，并在没有引入数据泄漏或过拟合的情况下细致地导航超参数空间，将系统化的网格搜索算法直接集成到上述分层五折交叉验证框架中。至关重要的是，认识到地质数据集中固有的严重类别不平衡，在这次全面的搜索中，宏观平均F1分数被指定为主要评估指标。这种方法确保优化过程对少数过渡岩石学的不良性能进行惩罚。这种严格的组合评估隔离了支持向量机、随机森林、决策树和XGBoost算法的全局最优配置。最终确定的最佳超参数设置总结在表2中。为了保持严格的实验可重复性，任何未列出的参数都保持其标准算法默认值。表2. 每种模型的最佳超参数采样方法模型最佳参数简单随机采样SVM'C'：1000, 'gamma'：0.1分层采样SVM'C'：5000, 'gamma'：0.001系统采样SVM'C'：20, 'gamma'：0.001简单随机采样RF'min_samples_split'：2, 'n_estimators'：100分层采样RF'min_samples_split'：2, 'n_estimators'：200系统采样RF'min_samples_split'：5, 'n_estimators'：200简单随机采样DT'min_samples_leaf'：1, 'min_samples_split'：2分层采样DT'min_samples_leaf'：1, 'min_samples_split'：2系统采样DT'min_samples_leaf'：2, 'min_samples_split'：2简单随机采样XGBoost'colsample_bytree'：0.6, 'learning_rate'：0.1, 'max_depth'：6, 'n_estimators'：100, 'subsample'：0.6分层采样XGBoost'colsample_bytree'：0.6, 'learning_rate'：0.1, 'max_depth'：6, 'n_estimators'：100, 'subsample'：0.8系统采样XGBoost'colsample_bytree'：0.8, 'learning_rate'：0.1, 'max_depth'：6, 'n_estimators'：100, 'subsample'：0.84.2 模型训练和评估4.2.1 采样策略的计算效率最初对1,557个井 logging 样本的实验评估评估了三种采样策略相关的计算开销。为了考虑系统条件的变化，每种方法独立执行了十次以确定平均计算时间。结果表明，在所有数据分割情况下，系统采样显示出最快的平均执行速度，其次是简单随机采样和分层采样。然而，如后续的准确性分析所示，系统采样的这种微小时间优势是以牺牲预测可靠性为代价的。4.2.2 全局性能：准确率和Jaccard指数使用两个全局性能指标（即准确率和Jaccard指数）来评估不同采样策略对基于机器学习的岩石学识别的影响。这些指标在多种训练-测试分割设置下进行计算，以评估模型在不同数据可用性条件下的稳健性。在10:90训练-测试分割的数据有限条件下，采样策略的选择强烈影响了模型的整体预测性能。当应用分层采样和简单随机采样时，大多数算法保持了相对稳定的性能，决策树和XGBoost模型实现了最高的准确率和Jaccard指数值。相比之下，系统采样导致性能明显下降。特别是支持向量机的预测能力显著下降，其准确率降至约0.74，Jaccard指数低于0.3。像随机森林和XGBoost这样的集成模型在系统采样下也表现出预测一致性的降低。随着训练数据比例增加到50:50和90:10配置，所有模型的整体预测性能都有所提高。在分层采样和简单随机采样下，四种机器学习算法逐渐趋向于稳定且高度准确的预测，准确率和Jaccard指数值接近1.0。然而，即使训练数据量增加，系统采样仍然在训练数据集中引入了偏差。支持向量机在这种采样策略下始终产生较低的Jaccard指数值。这些结果表明，采样策略在确定基于机器学习的岩石学识别的全球预测可靠性方面起着关键作用。尽管增加训练数据量通常会提高分类性能，但在异构储层环境中，代表性采样对于保持稳定的预测准确性仍然至关重要。4.2.3 类别特定的识别和少数类韧性除了全局性能评估之外，还使用精确度、召回率和F1分数进一步分析了类别级别的预测能力，以评估各个岩石学类型的识别性能。这些指标提供了对模型行为的更详细理解，特别是对于对采样偏差更敏感的少数岩石学类别。在高度受限的10:90训练-测试分割下，采样策略显著影响了少数岩石学的识别。分层采样保持了岩石学类别的原始分布，因此使得基于树的模型（如决策树、随机森林和XGBoost）在大多数岩石学类别上保持了相对较高的F1分数值。相比之下，简单随机采样由于采样的随机性而在评估指标中引入了中等程度的波动。具体来说，在系统采样下，支持向量机未能正确识别几种岩石学类型，包括粗砂岩（Rock2）、泥质粉砂岩（Rock4）和泥岩（Rock5）。随机森林和XGBoost在识别细粒岩石学类型时也观察到类似的性能下降，这表明基于间隔的采样可能会忽略薄的或空间上局部化的地质单元。随着训练比例增加到50:50和90:10，所有模型的识别性能都有所提高。尽管如此，系统采样继续影响某些岩石学类型的识别。例如，支持向量机对于泥质粉砂岩（Rock4）的召回率仍然相对较低，而随机森林在识别泥岩（Rock5）时表现较弱。这些观察表明，分层采样提供了更平衡的地质类别表示，并在早期勘探阶段典型的数据有限条件下提高了岩石学分类的鲁棒性。由于构建的模型数量较多，这里仅展示了50%:50%训练-测试分割条件下的混淆矩阵，如图18所示。下载：下载高分辨率图像（236KB）下载：下载全尺寸图像图17. 不同采样方法A、B和C分别对应于在10%:90%的训练-测试分割比例下进行的简单随机采样、分层采样和系统采样；采样方法D、E和F分别对应于在50%:50%的训练-测试分割比例下进行的简单随机采样、分层采样和系统采样；采样方法G、H和I分别对应于在90%:10%的训练-测试分割比例下进行的简单随机采样、分层采样和系统采样。下载：下载高分辨率图像（576KB）下载：下载全尺寸图像图18. (a) 在简单随机采样下的四种机器学习算法的混淆矩阵；(b) 在分层采样下的混淆矩阵；(c) 在系统采样下的混淆矩阵。下载：下载高分辨率图像（517KB）下载：下载全尺寸图像图19. 综合岩石学图表A、B、C和D分别代表在简单随机采样下SVM、DT、RF和XGBoost模型的岩石学预测；E、F、G和H分别对应于在分层采样下相同模型的预测；I、J、K和L分别表示在系统采样下的预测。4.3 实际井数据处理在本研究中，在10%:90%的训练-测试数据比例下，训练了十二种机器学习模型，并将其应用于编号为No.1的井中从1360米到1554.5米的深度区间的岩石学识别。识别结果展示在图18中。轨道1至5分别代表GR、RT、SP和AC日志。轨道6显示了四种机器学习算法在简单随机采样下的预测结果。轨道7至10显示了分层采样下的结果，轨道11至18显示了系统采样下的结果。在简单随机采样下，基于树的模型（DT、RF和XGBoost）在厚且均匀的区间内实现了可接受的基线性能。例如，在1360–1425米区间内，这三个模型准确识别了砾岩和粗砂岩，而SVM模型倾向于将砾岩误分类为粗砂岩。然而，由于采样的随机性，这些模型难以保持高稳定性。在更深的1500–1554.5米区间内，DT、RF和XGBoost仍然对粗砂岩产生轻微的分类错误，而SVM模型显示出明显的错误识别。转向分层采样，视觉比较清楚地表明这种方法产生了最准确和稳定的岩石学预测。通过保持岩石学类别的原始分布，这种策略显著提高了模型在复杂1425–1500米区间内的敏感性，在这一区间内层厚度相对较薄且岩石学变化频繁。在这一区间，DT模型在识别厚而连续的粉砂岩方面表现出色，并对细粒区间（如泥质粉砂岩、粉砂质泥岩和泥岩）的预测最为稳定。此外，RF模型成功识别了两层薄泥质粉砂岩，而基于树的模型在1500–1554.5米区间内对粗砂岩的预测非常一致。即使是一般表现不佳的支持向量机（SVM）模型，在识别粉质泥岩方面也显示出相对可靠的结果，与其简单的随机采样方法相比。相反，系统采样通常会导致整体性能最差。尽管基于树的模型在这种策略下仍能保持对粗砂岩的基本识别能力，但它们在整个深度区间内的预测表现出严重的不稳定性和视觉上的“峰值”。在1425-1500米的薄层区间内，尽管XGBoost模型能够识别目标层，但它显示出对层厚的明显高估或低估。这一视觉证据表明，基于区间的系统采样容易遗漏薄层或空间局部化的地质单元，从而降低了即使是先进的集成模型的预测能力。最终，通过对井 logs 的视觉和定量分析，确认了分层采样与先进基于树的模型（决策树、随机森林和XGBoost）的组合是岩石学识别的最佳框架。这种方法在解决具有复杂岩石学变化和严重类别不平衡的区域时尤其有效，其中分层采样保证了模型的最佳准确性和鲁棒性。

5. 讨论
在这项研究中，对简单随机采样、系统采样和分层采样在岩石学识别中的应用性能进行了系统的比较。主要发现和讨论如下：
实验结果表明，系统采样在样本分布和岩石学类别平衡方面存在某些缺点，导致分类准确率和Jaccard指数较低。这种性能差距与地质数据集中的严重类别不平衡密切相关，其中砾岩占样本的43.6%，而泥岩仅占5.0%。这种不平衡部分可以由辽河滩海油田的沉积特征来解释。研究区域主要由高能量扇三角洲系统主导，其中粗粒沉积物如砾岩和砂岩广泛发育，而泥岩通常作为厚层渠道化地层中的薄层出现。在这些地质条件下，分层采样提供了一种更可靠的策略，以保持类别代表性并减轻由高度不均匀的岩石学分布引入的偏差。通过确保这些少数但地层上至关重要的岩石相在训练过程中得到比例适当的代表，分层采样有效地防止了“样本稀释”，从而增强了模型对薄层区域封隔层和地层边界的敏感性。
四种评估的预测模型，即支持向量机、随机森林、决策树和极值梯度提升，在不同的岩石相中表现出不同的性能变化。其中，决策树（DT）在不同采样方法和数据比例下一直显示出高准确性和显著的计算效率，而XGBoost则表现出更强的泛化能力和稳定性，优于随机森林（RF），而SVM则表现出最低的鲁棒性。基于这些发现，建议在实际的岩石学分类任务中优先选择特定任务的模型，当模型可解释性和快速执行至关重要时使用决策树（DT），并在多岩石学环境中利用XGBoost来提高整体识别性能和增强模型的适应性和鲁棒性。
此外，所提出的采样和机器学习框架的可迁移性对于超出辽河滩海油田特定碎屑特征之外的更广泛工业应用至关重要。对于高度异质的碳酸盐岩地区的跨区域应用，采样策略需要在礁坪过渡带增加分层采样密度来进行有针对性的优化。同样，迁移到对测井响应低对比度的致密砂岩盆地时，需要整合岩石物理约束条件，如束缚水孔隙度、渗透率和脆性指数B1，以提高随机森林和极值梯度提升模型的区分能力。为了在多样化的沉积盆地中最大化总体泛化能力，动态重新应用超参数优化至关重要，确保预测模型能够持续适应区域数据分布和特定的噪声水平。
由于本研究集中在五种主要的岩石学类别上，采样方法对模型性能的影响是显著的。观察到的岩石学异质性和测井响应之间的非线性关系是渤海湾盆地活跃构造-沉积框架的直接体现。因此，未来的研究应该探索在不同更复杂的地质环境和更大规模的多类别数据集中不同采样策略的优化机制。这将为实际地质勘探和智能岩石学分类提供更可靠的方法学支持，确保基于机器学习的解决方案在复杂的勘探前沿中仍然具有地质合理性和工业可行性。

6. 结论
在这项研究中，我们系统地评估了三种不同的采样策略，即系统采样、简单随机采样和分层采样，对岩石学识别的计算效率、预测准确性和算法鲁棒性的影响。我们进一步研究了这些采样方法在各种采样条件下与四种不同预测模型的相互作用，以决定分类结果。
系统采样在所有评估的情景中显示出最高的计算效率。然而，这种方法始终产生最低的预测准确性和鲁棒性。在数据稀缺的情况下，当训练集仅占数据的10%时，应用系统采样会导致所有评估模型的性能大幅下降。当与支持向量机结合时，这种下降尤为严重，使得系统采样和稀疏数据的组合对于可靠的岩石学分类来说非常不足。
在分析平衡或数据丰富的样本条件下采样方法与模型架构之间的相互作用时，简单随机采样和分层采样始终优于系统采样。将这两种稳健的采样策略与基于树的架构和集成架构（特别是决策树、随机森林和极值梯度提升）结合，可以持续保持超过0.95的分类准确率。随着训练数据量增加到90%，稳健采样方法与系统采样之间的性能差距缩小，但采样有效性的基本层次结构保持一致。
总之，采样策略的选择从根本上决定了智能井测井解释的成功性和可靠性。虽然系统采样提供了快速的执行时间，但它严重损害了预测的可靠性。因此，为了确保地质数据的代表性分布并最大化分类准确率，强烈建议在数据准备阶段优先选择分层采样或简单随机采样。特别是在平衡或数据丰富的条件下，将分层采样与决策树或极值梯度提升模型相结合，提供了最佳框架，确保在可接受的计算成本和卓越的预测性能之间实现高效的平衡。此外，虽然本研究使用传统的统计采样建立了稳健的基线，但未来的研究将集中于整合先进的失衡数据处理技术，如过采样（例如SMOTE）和混合采样，以进一步提高稀有岩石学类别的识别准确率。

CRediT作者贡献声明
Meng Lingyi：形式分析。
Xu Dong：调查、形式分析。
Wei Kangjian：调查、形式分析。
Su Kejia：形式分析、数据管理。
Qin Zhen：软件、方法论、调查、形式分析、数据管理、概念化。
Cao Zhenhua：编写——原始草稿、可视化、验证、软件、形式分析、数据管理、概念化。
Chen Fugeng：调查、数据管理。
Luo Shaocheng：可视化、调查、形式分析。
Huang Ke：调查、数据管理。

未引用的参考文献
Mukherjee等人，2024；Wang等人，2024；Peterson和K-最近邻，2009；Zhang等人，2023。

热点排行