《Geoenergy Science and Engineering》:Explainable Machine Learning and Deep Learning for Productive Zone Identification in Tight Sandstone Reservoirs: Integrating PROMETHEE-II and Class Imbalance Handling
编辑推荐:
本研究提出整合可解释机器学习与PROMETHEE-II多准则决策的框架,用于解决致密砂岩储层中地质异质性和类别不平衡问题。在西非数据集上,模型实现F1=0.95、召回率100%、ROC-AUC=1.00的高效预测,并通过SHAP分析验证地质一致性,但需注意模型在不同地质条件下的泛化风险。
阿米尔·加拉维(Amir Gharavi)| 艾丹·奥沙利文(Aidan O’Sullivan)| 马利克·哈达德(Malik Haddad)| 穆罕默德·G·哈桑(Mohamed G. Hassan)| 雷哈姆·阿拉斯马尔(Reham Alasmar)| 帕里亚·尤塞菲(Paria Yousefi)| 萨拉姆·阿尔-萨格(Salam Al-Saegh)
伦敦大学学院(University College London, UCL),巴特利特环境、能源与资源学院(Bartlett School of Environment, Energy & Resources, BSEER),UCL能源研究所(UCL Energy Institute),中央大楼,14 Upper Woburn Place,伦敦WC1H 0NN,英国
摘要
在致密砂岩储层中识别产油区受到地质异质性、严重的类别不平衡以及模型解释透明性的要求的阻碍。我们提出了一种集成的、可解释的机器学习和深度学习工作流程,该流程结合了区域分析和多标准模型选择,通过偏好排序组织方法进行增强评估(PROMETHEE-II)。将该方法应用于西非致密砂岩数据集后,取得了出色的预测准确性(F1分数=0.95,召回率=1.00,ROC-AUC=1.00)。虽然这些数值表明了该方法对当前数据集的出色区分能力,但它们可能部分反映了数据集特征、分层交叉验证结构和有效的类别不平衡校正。因此,在推广这些结果时,应考虑模型的不确定性以及在其他储层中的性能变化潜力。
该工作流程还使用区域SHapley加性解释(SHAP)提供了可靠的、经过地质验证的见解。基于岩心的流动单元和网络连通性分析进一步证实了预测产油区的可靠性。通过提供透明的“黑箱”解决方案,该框架提高了非常规资源的水力刺激中的储层生产力分类和运营决策能力。
引言
非常规储层,特别是渗透率低于0.1 mD的致密砂岩和页岩层,由于其超低流动能力和复杂的矿物学特性以及显著的空间异质性,给商业开发带来了持续挑战。与传统储层不同,这些地层通常需要采用多阶段水力压裂和酸化等先进完井策略才能实现商业流动速率(>100 m3/天)(Ma & Holditch, 2016; Ahmed & Meehan, 2016)。随着全球能源安全越来越依赖于这些资源的成功开发,对致密储层的稳健表征和有针对性的开发已成为战略重点。
机器学习(ML)和深度学习(DL)的最新进展改变了地下数据分析方式,使得在高度异质系统中实现储层分类、流动单元划分和生产力预测的自动化工作流程成为可能(Samnioti & Gaganis, 2023; Zhou et al., 2024)。特别是深度学习模型已经证明了从大规模井测井和岩心数据集中提取微妙非线性模式的能力。然而,这些方法的“黑箱”特性限制了透明度,并阻碍了现场层面的信任和操作采用。持续的挑战包括严重的地质异质性、岩石物理变量之间的多重共线性、类别不平衡以及有限的岩心数据,继续影响模型的泛化能力、可解释性和实际应用(Rezaee, 2015; Clarkson & Pedersen, 2011)。
我们之前的研究(Gharavi et al., 2022; 2023)从地质和岩石物理角度探讨了致密砂岩储层的特征和生产力行为。本研究在此基础上,引入了一个集成的、可解释的机器学习和PROMETHEE-II多标准决策分析框架,专门用于致密砂岩储层的透明生产力分类。
本研究通过提出一种新颖的、考虑地层的、可解释的ML/DL框架,用于致密砂岩储层的二元生产力分类,推动了该领域的发展。与以往的方法不同,我们的工作流程独特地将多标准决策分析(PROMETHEE-II)与特定区域的可解释人工智能(XAI)方法相结合,直接解决了类别不平衡和操作可解释性这两个长期存在的瓶颈问题。具体来说,本研究通过以下贡献推动了该领域的发展:
•领域引导的探索性数据分析(EDA):异常值检测、特征选择和地质验证,以确定数据质量和上游地质合理性(Ma et al., 2017; Abzalov, 2016)。
•降维和诊断:主成分分析(PCA)、相关性分析、Winland R35和网络图,用于解决多重共线性问题并验证孔隙结构。
•GeoZone分类:将储层划分为三个岩石物理特性不同的相区(A:高质量;B:中等;C:低质量),捕捉垂直异质性并降低区域内复杂性。
•多方法XAI:
应用Shapley加性解释(SHAP)、局部可解释模型无关解释(LIME)和排列重要性,从全局和每个GeoZone中获得可操作的见解(Bedle & Lubo-Robles, 2024; Deng et al., 2024)。 •稳健的类别不平衡处理:
分层交叉验证和现代重采样,以确保可靠地检测到少数(产油)区间。•比较模型评估和选择:
PROMETHEE-II多标准决策分析(MCDA),结合F1分数、召回率、精确度、ROC-AUC和计算效率,透明地对模型和超参数进行排名(Brans & Vincke, 1985; Brans et al., 1986; Behzadian et al., 2010)。通过明确结合PROMETHEE-II MCDA进行模型和储层区域排名,该工作流程实现了透明、基于领域信息的最佳预测策略选择,支持在类别不平衡、地质复杂的储层中进行可推广的、操作上稳健的部署。图1展示了集成可解释ML/DL工作流程的示意图,说明了从数据采集和预处理到降维、区域分类、模型训练、PROMETHEE-II排名、可解释性分析和生成操作见解的每个步骤。
将该工作流程应用于西非一个致密砂岩油田后,取得了高预测性能(F1分数0.95,召回率1.00,ROC-AUC 1.00),并通过区域SHAP解释提供了地质上一致的见解,从而证明了储层生产力分类的透明度和可解释性的提升。尽管这些数值表明了该方法对当前数据集的出色区分能力,但在实际储层应用中几乎完美的性能并不常见,因此应谨慎解读。由于地质差异、数据集特征和类别不平衡结构的不同,模型在其他储层中的表现可能会有所不同。
部分内容
背景和动机
非常规储层,尤其是渗透率低于0.1 mD的致密砂岩和页岩层,由于其极低的流动能力和复杂的矿物学特性以及显著的空间异质性,给商业开发带来了持续挑战。与传统储层不同,这些地层通常需要采用多阶段水力压裂和酸化等先进完井策略才能实现商业流动速率(>100 m3/天)(Ma & Holditch, 2016; Ahmed & Meehan, 2016)。随着全球能源安全越来越依赖于这些资源的成功开发,对致密储层的稳健表征和有针对性的开发已成为战略要求。
机器学习(ML)和深度学习(DL)的最新进展改变了地下数据分析方式,使得在高度异质系统中实现储层分类、流动单元划分和生产力预测的自动化工作流程成为可能(Samnioti & Gaganis, 2023; Zhou et al., 2024)。特别是深度学习模型已经证明了从大规模井测井和岩心数据集中提取微妙非线性模式的能力。然而,这些方法的“黑箱”特性限制了透明度,并阻碍了现场层面的信任和操作采用。持续的挑战包括严重的地质异质性、岩石物理变量之间的多重共线性、类别不平衡以及有限的岩心数据,继续影响模型的泛化能力、可解释性和实际应用(Rezaee, 2015; Clarkson & Pedersen, 2011)。
我们之前的研究(Gharavi et al., 2022; 2023)从地质和岩石物理角度研究了致密砂岩储层的特征和生产力行为。本研究在此基础上,引入了一个集成的、可解释的机器学习和PROMETHEE-II多标准决策分析框架,专门用于致密砂岩储层的透明生产力分类。
本研究通过提出一种新的、考虑地层的、可解释的ML/DL框架,用于致密砂岩储层的二元生产力分类,推动了该领域的发展。与以往的方法不同,我们的工作流程独特地将多标准决策分析(PROMETHEE-II)与特定区域的可解释人工智能(XAI)方法相结合,直接解决了类别不平衡和操作可解释性这两个长期存在的瓶颈问题。具体来说,本研究通过以下贡献推动了该领域的发展:
•领域引导的探索性数据分析(EDA):异常值检测、特征选择和地质验证,以确定数据质量和上游地质合理性(Ma et al., 2017; Abzalov, 2016)。
•降维和诊断:主成分分析(PCA)、相关性分析、Winland R35和网络图,用于解决多重共线性问题并验证孔隙结构。
•GeoZone分类:
将储层划分为三个岩石物理特性不同的相区(A:高质量;B:中等;C:低质量),捕捉垂直异质性并降低区域内复杂性。 •多方法XAI:
应用Shapley加性解释(SHAP)、局部可解释模型无关解释(LIME)和排列重要性,从全局和每个GeoZone中获得可操作的见解(Bedle & Lubo-Robles, 2024; Deng et al., 2024)。 •稳健的类别不平衡处理:
分层交叉验证和现代重采样,以确保可靠地检测到少数(产油)区间。•比较模型评估和选择:
PROMETHEE-II多标准决策分析(MCDA),结合F1分数、召回率、精确度、ROC-AUC和计算效率,透明地对模型和超参数进行排名(Brans & Vincke, 1985; Brans et al., 1986; Behzadian et al., 2010)。通过明确结合PROMETHEE-II MCDA进行模型和储层区域排名,该工作流程实现了透明、基于领域信息的最佳预测策略选择,支持在类别不平衡、地质复杂的储层中进行可推广的、操作上稳健的部署。图1展示了集成可解释ML/DL工作流程的示意图,说明了从数据采集和预处理到降维、区域分类、模型训练、PROMETHEE-II排名、可解释性分析和生成操作见解的每个步骤。
将该工作流程应用于西非一个致密砂岩油田后,取得了高预测性能(F1分数0.95,召回率1.00,ROC-AUC 1.00),并通过区域SHAP解释提供了地质上一致的见解,从而证明了储层生产力分类的透明度和可解释性的提升。尽管这些数值表明了该方法对当前数据集的出色区分能力,但在实际储层应用中几乎完美的性能并不常见,因此应谨慎解读。由于地质差异、数据集特征和类别不平衡结构的不同,模型在其他储层中的表现可能会有所不同。
部分内容片段
背景和动机
非常规储层,尤其是致密砂岩的表征,已经从传统的基于岩心的工作流程发展到数据驱动的、可解释的机器学习(ML)和多标准方法。传统方法,如汞注入毛细压力分析和NMR测井,虽然提供了有价值的信息,但在处理高度异质的数据集时可扩展性有限(Rezaee, 2015; Holditch, 2006)。这种限制特别是在捕捉孔隙度、渗透率等变化方面尤为明显
数据和方法
我们开发了一种集成的、可解释的机器学习(ML)工作流程,用于对致密砂岩储层的生产力进行分类,解决了地质异质性和类别不平衡问题。该工作流程从领域引导的探索性数据分析(EDA)开始,使用交叉图、配对图和热图进行特征选择和质量控制。降维通过主成分分析(PCA)完成,并通过网络图和Winland R35分析进行验证
探索性数据分析(EDA)
数据集包含2,000个区间,每个区间都具备13个对储层分析至关重要的地质和岩石物理特征。完整的 数据架构和详细特征描述见附录A(表A1和A2)。
Shap特征重要性分析
采用可解释的人工智能(XAI)技术对于将复杂的机器学习模型转化为透明的、具有地质意义的见解至关重要。在本研究中,使用了SHAP(Shapley加性解释)、LIME(局部可解释模型无关解释)和排列特征重要性(PFI)来解释一个经过训练用于预测储层生产力的随机森林分类器。这些方法提供了全局和局部的可解释性
PCA特征重要性
使用主成分分析(PCA)进行降维,并根据主成分载荷量化特征重要性(Peres-Neto et al., 2003; Roden et al., 2015; Guo et al., 2009)。图16显示了前七个主成分上的平均绝对载荷(保留了超过95%的总方差)。排名最高的变量VSH(页岩体积)、PHIE(有效孔隙度)和TOC(总有机碳)基于AI的储层生产力分类
本节详细介绍了开发的监督机器学习(ML)框架,用于使用SuperRT二元分类标签(1 = 产油,0 = 非产油)识别致密砂岩地层中的产油区。该流程基于可解释AI(XAI)原则,通过SHAP、LIME、排列重要性和随机森林排名来指导特征选择,以确保地质一致性和操作相关性。最终模型在统计上具有稳健性
模型架构
最终的深度学习模型架构总结在表11中。该配置通过系统基准测试和超参数调整进行了优化,并用于所有后续的训练、评估和可解释性分析(Gorishniy et al., 2021; Shwartz-Ziv & Armon, 2022)。该设计遵循了表格数据上深度学习的最佳实践,同时支持性能和可解释性。
超参数优化策略
超参数优化采用了随机搜索和
使用SHAP进行区域可解释性
为了提高模型的可解释性并实现地质上一致的决策,将SHAP(Shapley加性解释)应用于最终深度学习模型中的内部定义的储层区域(区域A、B和C)。这些区域是根据综合的岩石物理阈值和地质逻辑得出的,反映了致密砂岩储层内部的异质性,而不是正式的地层成员。
讨论
传统的渗透率模型往往无法捕捉致密砂岩储层的内在复杂性,其中低孔隙度、较差的孔隙连通性和复杂的成岩作用对预测和操作决策提出了挑战(Rezaee et al., 2012)。机器学习(ML)和深度学习(DL)的最新进展使得能够对复杂的、多变量地下关系进行建模;然而,大多数已发表的ML方法将储层视为岩石物理上均匀的
结论
本研究提出了一个稳健的、可解释的机器学习和深度学习框架,用于识别致密砂岩储层中的产油区,优先考虑区域可解释性、地质严谨性和操作相关性。通过结合领域引导的探索性数据分析(EDA)、通过主成分分析(PCA)进行降维以及可解释AI方法(SHAP、LIME和排列重要性),该工作流程实现了高预测性能和
操作应用
在储层评估和开发规划期间应用区域ML/DL框架,以识别和优先考虑具有有利岩石物理特性的区间,特别是高PHIE、Perm、SO和TOC的区间。使用特定区域的SHAP结果来指导针对每个相的完井和刺激策略。
2集成到钻前和实时工作流程中: