基于CatBoost与多源数据融合的油气溶解气油比预测模型构建与评估

《Digital Chemical Engineering》:Advanced machine learning techniques for predicting solution gas-oil ratios in petroleum reservoirs: A comprehensive study and new empirical correlation

【字体: 时间:2026年02月16日 来源:Digital Chemical Engineering 4.1

编辑推荐:

  为克服传统压力-体积-温度实验耗时长、成本高且现有经验关联式与智能预测模型存在数据局限性、准确性不足的问题,本研究团队开展了一项题为“先进机器学习技术在油气藏溶解气油比预测中的应用:综合性研究与新经验关联式”的系统性工作。研究汇集了来自全球多个地区的1309个原油样本数据,开发了一种新的经验关联式,并比较了包括MLP、RBF、XGBoost、AdaBoost及CatBoost在内的多种智能模型。最终结果表明,CatBoost模型预测性能最优,其平均绝对百分比相对误差仅为8.13%,显著优于其他模型及传统关联式。该成果为油气藏工程提供了一种高精度、通用性强的溶解气油比快速预测工具,对油气藏评价、生产优化及设备设计具有重要实践价值。

  
准确了解地底下油气藏中流体的“脾气”,对石油工程师而言至关重要。这关乎着能采出多少油、如何高效开采、地面处理设备该造多大,乃至整个油田的经济效益。其中,溶解气油比是一个核心参数,它描述了多少天然气溶解在原油里。然而,精确测定这个比值通常需要昂贵、耗时且对样品要求极高的实验室压力-体积-温度分析。于是,工程师们转而寻求数学公式来估算。自上世纪40年代以来,涌现了大量基于特定地区数据建立的经验关联式,但它们往往“水土不服”,换个油田误差就很大。近年来,人工智能的兴起带来了新希望,各种机器学习模型被尝试用于预测,可它们大多训练数据有限,模型的“见识”不够广,预测的稳定性和准确性依然是个挑战。为了破解这些难题,由Mohammad Sepahvand、Majid Mohammadi、Ali Madani和Mahin Schaffie组成的研究团队,决心利用更广泛的数据和更先进的算法,打造一个更可靠、更通用的预测工具。他们的研究成果最终发表在了《Digital Chemical Engineering》期刊上。
为了开展这项研究,作者们首先从已发表的文献中广泛收集了涉及全球多个地理区域的1340个原油样本的压力-体积-温度数据,在剔除不完整记录后,最终形成了一个包含1309个有效数据点的大型数据库。输入变量为泡点压力、储层温度、API重力、气体比重,输出目标为溶解气油比。基于此数据集,研究团队主要采用了以下几种关键技术方法:其一,运用Excel的求解器工具,通过广义简约梯度非线性优化方法,开发了一个新的五参数经验关联式。其二,构建并比较了多种智能模型,包括采用Levenberg-Marquardt和贝叶斯正则化两种算法的多层感知机神经网络、径向基函数网络,以及三种先进的梯度提升模型。这些梯度提升模型分别是极限梯度提升、自适应提升和支持分类特征提升。其中,支持分类特征提升模型因其能有效处理分类特征和避免目标泄漏而受到特别关注。所有智能模型均采用80%的数据进行训练,剩余20%用于测试,并通过早停法等策略防止过拟合,其超参数通过试错法进行优化以追求最佳性能。其三,为全面评估模型,研究采用了统计与图形误差分析、敏感性分析、分组误差评估、模型趋势检验以及杠杆值分析等多种评估手段。
研究结果部分详细展示了各项工作的发现:
数据收集与处理:研究整合的数据库具有广泛的代表性,API重力覆盖了6至56.8°的范围,储层温度在69.98至341.6°F之间,泡点压力为67至7127 psi,气体比重为0.520至3.44,而溶解气油比则在10.78至3298.66 SCF/STB之间变化,确保了模型能够适用于轻质到重质原油以及多种储层条件。
新经验关联式的开发:通过试错和优化,研究者提出了一个新的函数形式用于估算溶解气油比。该关联式将溶解气油比表达为气体比重乘以一个包含泡点压力、以API和温度组合为指数的项的幂函数。经评估,该新关联式在测试集上的平均绝对百分比相对误差为16.40%,虽然不及最佳的智能模型,但相较于文献中报道的传统关联式,其性能已有显著提升。
智能模型预测性能比较:在所有测试的模型中,支持分类特征提升模型表现最为出色,其平均绝对百分比相对误差低至8.13%,均方根误差为69.43 SCF/STB,拟合优度达到0.9903,各项指标均优于其他模型。极限梯度提升和自适应提升模型的平均绝对百分比相对误差分别为10.51%和24.78%。在神经网络中,采用贝叶斯正则化算法的多层感知机网络平均绝对百分比相对误差为9.80%,略优于采用Levenberg-Marquardt算法的版本,而径向基函数网络的误差为12.99%。预测值与实验值的交叉图、误差分布直方图以及累计频率图均直观地证实了支持分类特征提升模型的优越预测精度和稳定性。
模型可靠性验证:通过威廉姆斯图进行的杠杆值分析表明,绝大多数数据点都位于可信区间内,仅有少数被识别为高杠杆点或异常值,这证明了所开发模型,特别是支持分类特征提升模型,在应用于该数据集时是统计学上可靠和稳健的。
敏感性分析:析因敏感性分析揭示了各输入变量对溶解气油比预测的相对重要性。结果表明,泡点压力是影响力最大的因素,贡献了25.4%的预测方差。紧随其后的是API重力和气体比重。储层温度的影响相对较小,而输入变量之间的交互作用,特别是泡点压力与API重力、泡点压力与气体比重之间的交互作用,也对预测有不可忽视的贡献。
研究结论与讨论部分对全文工作进行了总结并展望了其意义。本研究的核心结论是,通过整合大规模的、地理来源多样的数据集,并应用先进的机器学习算法,能够显著提升溶解气油比的预测精度。其中,支持分类特征提升模型凭借其处理梯度偏差和目标泄漏问题的内在机制,在本次比较中脱颖而出,成为预测溶解气油比的最优工具。同时,新开发的经验关联式也提供了一种计算简便、且精度优于许多传统方法的“白箱”模型选项,在缺乏复杂计算工具时具有实用价值。
这项工作的重要意义在于:首先,它为解决油气藏工程中一个长期存在的关键参数估算难题提供了新的、更优的解决方案。所建立的高精度预测模型能够作为传统实验室分析的有效补充或替代,大幅降低时间和经济成本。其次,研究证明了在大数据时代,利用更全面的数据集训练智能模型,是突破以往模型区域局限性、提升其泛化能力和实用价值的关键路径。最后,敏感性分析结果加深了对影响溶解气油比关键因素及其相互作用的理解,为油气藏流体性质研究提供了理论洞见。这些成果对于油气储量评估、油藏动态模拟、生产策略优化、地面设施设计乃至提高原油采收率等工程实践均具有重要的指导意义和应用前景。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号