综述:人工智能与机器学习在油气地面网络生产预测与优化中的应用

《Energy and AI》:Artificial Intelligence and Machine Learning for Production Prediction and Optimization of Oil and Gas Surface Networks

【字体: 时间:2026年05月10日 来源:Energy and AI 9.6

编辑推荐:

  乌萨马·阿里 | 保罗·纳文 | 埃马德·W·阿尔-沙拉比 | 哈米德·艾特·阿卜杜勒-拉赫曼 阿联酋阿布扎比哈利法科技大学机械与核工程系 **摘要** 人工智能(AI)和机器学习(ML)正在改变石油和天然气(O&G)地面网络的生产预测和优化,为传统的基于物理的模型

  乌萨马·阿里 | 保罗·纳文 | 埃马德·W·阿尔-沙拉比 | 哈米德·艾特·阿卜杜勒-拉赫曼
阿联酋阿布扎比哈利法科技大学机械与核工程系

**摘要**
人工智能(AI)和机器学习(ML)正在改变石油和天然气(O&G)地面网络的生产预测和优化,为传统的基于物理的模型提供了强大的替代方案。本综述全面概述了数据驱动、混合和基于物理的框架在地面网络分析方面的最新进展,重点介绍了它们在预测、控制和决策中的应用。本文追溯了从早期稳态节点分析到数字孪生和基于物理的AI的方法演变过程,强调了实时数据、自动化和自适应优化的日益集成。讨论了关键的人工智能/机器学习技术,包括统计学习、基于树的集成模型、深度学习和神经算子架构,从预测准确性、可扩展性和可解释性等方面进行了评估。同时,还探讨了实施过程中面临的主要挑战,如数据质量、计算需求、模型泛化能力和可信度。新兴领域,如实时自适应控制、混合AI-物理模型和闭环数字孪生,也被作为实现自主和可持续现场操作的工具进行了研究。总体而言,本综述强调地面网络管理的未来将由基于物理的、以数据为中心的智能技术驱动,从而支持各种石油和天然气资产的可靠、高效和易于理解的优化。

**1. 引言和背景**
当前全球能源格局正在经历一个关键转型时期,需要在迫切的脱碳需求与对可靠能源供应的持续需求之间找到平衡。尽管可再生能源迅速发展,石油和天然气行业仍然是世界能源供应的重要组成部分,为运输、发电和重工业提供必要的燃料[1]。2023年,石油和天然气约占总初级能源需求的53%,如图1所示,这表明碳氢化合物在维持全球经济稳定方面依然具有重要意义。
随着全球各行业面临提高效率和减少碳足迹的压力,石油和天然气(O&G)行业已将重点转向最大限度地提高现有资产的回收率和效率。在此背景下,优化地面生产网络已从次要的运营任务发展成为确保安全、可靠和经济可持续运行的关键机制。有效的优化能够提高产量、减少停机时间并延长资产寿命,这些好处对于在严格经济约束下运营的边际或成熟油田尤为重要。
地面生产网络,尤其是在海上环境中,是现代工程中最复杂的系统之一。这些网络包括相互连接的井、管线、立管、分流器和压缩机,用于处理多相流体以供出口,如图2所示。这些系统需要大量资本投资,并且具有强烈的相互依赖性,因此对运营决策非常敏感。诸如节流阀调整或清管计划等小动作可能会以意想不到的方式影响回压、流路和设施约束[3,4]。

这些网络的物理特性非常复杂,随着流速、压力、温度和管道倾斜度的变化,会出现不同的流动状态(分层、塞流、环流和分散流)。每种状态都有独特的压降和瞬态特性,会影响系统稳定性[5]。常规操作,如清管,会导致不稳定的波动和热或水力变化,从而对基础设施造成压力[6]。操作人员必须管理 wax 和 asphaltene 沉积、水合物形成以及沙子生产等威胁。为此,他们采用化学处理、溶剂处理和热处理方法(如热油或热柴油循环)来防止沉积或与粘度相关的损失[7,8]。如果这些威胁未得到预见和管理,可能会导致昂贵的停机并加速设备老化[9]。在这种情况下,优化地面网络对于确保安全、可靠和经济稳健的运行至关重要。

地面网络工程的概念发展反映了行业的运营需求。早期的节点分析依赖于经验相关性和漂移通量概念。基于机制的双流体模型在不同流动状态下恢复了物理一致性。稳态网络求解器将井、管线和设施结合成适用于现场规模的综合性工具。随着深水开发和长距离輸送的增加,高保真度瞬态模拟器应运而生,能够准确模拟地形引起的塞流、冷却和重启行为以及 wax 或水合物风险。经过验证的软件,如 OLGA [11](用于动态多相模拟)和 PIPESIM [12](用于网络分析和规划),已成为行业标准。目前的主要价值在于在不确定性和约束条件下做出从小到小时的决策。然而,传统工具始终存在三个局限性:校准脆弱性(界面摩擦、热传递和沉积动力学的现场特定参数往往缺乏测量数据)、计算延迟(动态分析可能过于缓慢,无法满足运营周期的需求)以及模型与实际系统的不匹配(随着流体变化、资产老化和传感器漂移而加剧)。随着资产之间的相互连接性增强,这些限制会导致保守的设定点和对干扰的缓慢响应,从而错失经济机会。

与此同时,石油和天然气运营产生了大量的高频测量数据,包括 SCADA(监控控制和数据采集)流、历史档案、井测试和 PVT(压力-体积-温度)数据、维护日志、清管和化学处理计划以及海洋气象记录。这种情况为将数据驱动的智能与第一性原理模拟相结合提供了重要机会。人工智能(AI)和机器学习(ML)可以学习非线性响应面,在不确定性面前推断未测量的状态并建议行动,从而补充和改进基于物理的模型[13]。这包括旨在提高预测可靠性的集成模型;用于瞬态预测的序列模型(如长短期记忆网络 LSTM、时间卷积网络 TCN 和 Transformer);遵循网络拓扑的图神经网络(GNNs);基于物理的替代模型(如基于物理的神经网络 PINN);以及神经算子(如傅里叶神经算子 FNO 和基于物理的神经算子 PINO)。这些方法显著减少了模拟器的运行时间,同时确保符合控制方程。相关研究[14]还表明,将地质描述符与操作变量结合使用可以提高页岩气生产预测,强调了在数据驱动的生产力预测中整合地下和生产历史信息的重要性。总体而言,它们使得在物理计量器不实用的情况下实现增强型数字孪生成为可能,支持短期瞬态预测、非线性模型预测控制和实时网络优化。

图3显示了2015年至2025年间与石油和天然气生产中人工智能和机器学习应用相关的年度出版物数量和引用次数,数据来源于 Web of Science。该图清楚地表明,在过去十年中,研究产出和学术影响力均呈强劲上升趋势。2020年之前的出版活动较为有限,但此后急剧增加,表明全球对石油和天然气行业中 AI/ML 集成的兴趣日益增长。

尽管石油和天然气领域中的 AI/ML 研究增长迅速,但相关文献和实际应用仍然分散。已发表的研究分布在不同的模型家族、运营任务和资产规模上,而实际部署的解决方案通常只是孤立的点应用,而不是跨井、分流器和设施的集成决策支持系统。许多情况下,研究要么作为独立的预测或优化应用呈现,要么作为以算法为中心的贡献,缺乏对互连地面设施的预测、保证和控制的统一视角。此外,不确定性量化和管理往往不够明确,超出试点研究范围的安全闭环使用的可信证据也有限。这些差距阻碍了不同资产之间的信任度、可移植性以及运营、经济和排放影响的测量,造成了方法论进展与地面网络管理实际需求之间的明显差距。现有的关于上游石油和天然气中 AI 和 ML 的综述通常也集中在单一的方法论家族、单一的资产规模或单一的应用任务上。相比之下,本综述采取了端到端的地面网络视角,涵盖了从井口测量和软 sensing 到网络级监控、预测、优化和决策支持的整个流程。

为了解决这一差距,本综述遵循以下目标和问题:
1. 识别并整理应用于石油和天然气地面网络问题的主要 AI/ML 模型家族,包括生产预测、保证和控制/优化。
2. 从报告的性能、数据需求、可解释性、物理一致性和部署相关性等方面比较这些方法。
3. 通过关注石油和天然气地面生产系统来定义综述的范围边界,同时排除仅涉及地下储层模拟而不直接关联地面网络的研究。
4. 识别目前限制可信的、现场规模应用的最重要的技术和实际研究差距,包括数据质量、可转移性、不确定性意识和运营集成等问题。

这种结构支持对文献的批判性、以任务为导向的综合分析,有助于明确基准测试需求和部署相关性。

与这些目标一致,本综述批判性地审视了人工智能/机器学习在地面生产网络中的预测、保证和控制应用,追溯了从经验相关性和基于机制的模型到增强型数字孪生和基于物理的机器学习的演变过程。综述涵盖了统计学习、深度序列模型、图神经网络、混合灰箱方法和用于虚拟流量计量的基于物理的替代模型、短期预测、异常检测和非线性模型预测控制(NMPC)。还讨论了实际部署问题,包括边缘计算、本地部署和云部署,以及漂移监控、可审计的数据溯源和受保护的执行机制。

本文将文献分为三个主要领域:生产预测、保证(包括异常检测、故障检测和软 sensing)和控制/优化。将每个任务与合适的模型类型(如集成模型、序列模型、图神经网络和混合或基于物理的方法)联系起来。使用标准评估指标综合报告的性能,并结合部署相关因素,突出数据驱动方法在何处优于或补充了传统的基于机制的模型。综述还讨论了完整性意识控制策略、校准的不确定性量化、人在回路中的保障措施以及实现可防御闭环操作所需的事后审计。总体而言,它强调了证据、安全性和操作实用性,以明确人工智能在地面网络管理中的持久价值。

本文使用的主要 AI/ML 文献是通过结构化搜索 Web of Science Core Collection、Scopus、OnePetro、IEEE Xplore 和 ScienceDirect 等数据库获得的,涵盖了2015年1月至2026年3月的出版物。搜索策略结合了石油和天然气地面网络相关的术语,以及人工智能术语(如“机器学习”、“深度学习”、“神经网络”、“基于物理的”、“神经算子”、“图神经网络”、“Transformer”和“强化学习”)。检索的记录经过筛选,以确保其与石油和天然气地面生产预测、监控、保证或优化相关。仅保留报告方法论发展、比较基准测试或面向现场应用的研究,并提供足够的技术细节的研究。排除那些仅关注地下储层模拟且与地面网络决策无关的研究,以及编辑评论、重复记录和不完整的预印本。此外,还保留了有关多相流建模、生产系统和控制的早期重要参考文献,以提供第2节讨论的演变的历史和方法论背景。最终文献根据应用任务和模型家族进行了分类,形成了第3.2–3.6节和比较总结表的内容基础。在方法论方面,本文采用了混合式综述方法,结合了基于数据库的文献筛选和主题内容综合,遵循了最近使用主题分组来加强分析严谨性和更明确识别研究趋势和差距的综述实践[[15], [16], [17]]。

**2. 石油和天然气行业建模和仿真方法的演变**
石油和天然气行业的地面网络流建模已从基于实验室数据的经验相关性转向使用实时运行的基于物理的、基于学习的替代模型,如图4所示。初始方法依赖于垂直和倾斜管道的相关性研究,包括Duns & Ros [18]、Hagedorn–Brown [19]、Orkiszewski [20]和Beggs–Brill [21]的工作,这些研究经常使用Zuber & Findlay [22]提出的漂移-通量概念来解释。这些方法表现出较高的效率,适用于节点分析;然而,在超出校准范围的情况下,它们的可靠性会降低。从20世纪70年代末到90年代,具有显式状态图的流体系统机械模型(两相模型)开始纳入力平衡考虑(例如Xiao–Shoham–Brill [23]、Ansari等人[24]和Petalas–Aziz [25]的研究)。这些模型提高了对直径、倾斜角度和流体特性变化的外推能力。它们的出现支持了稳态网络求解器的应用,并随着动态双流体模拟器(尤其是OLGA)的发展,开启了流动保障时代,使得严重段塞、冷却/重启以及水合物/蜡风险的分析成为可能[11]。随着仪器的普及,虚拟流量计将物理原理与估计和数据驱动组件结合起来,实现了连续分配。随后,这些模型通过实时优化和模型预测控制被纳入操作程序中。当前的前沿技术包括基于物理的机器学习,如用于状态重建的相位成像网络(PINNs)、用于解映射的神经运算符以及用于非结构化资产的图/网格网络。这些方法在保持物理约束的同时,显著提高了计算速度[[26]、[27]、[28]]。表1对油气地表网络模型的方法演变及其适应性和实施情况进行了批判性评估。如图4所示,关键的转变不仅仅是时间上的,更是功能上的。该领域已经从离线设计和基于相关性的预测转向更快、更具适应性的、并且更加受物理约束的人工智能框架,以支持在不确定性条件下的操作决策。

下载:下载高分辨率图像(1MB)
下载:下载全尺寸图像

图4. 地表网络预测和优化方法的发展历程,展示了从经验性和机械建模到稳态和瞬态模拟、虚拟流量计、实时优化以及基于物理的人工智能方法的进展。

表1. 油气和天然气地表网络模型的方法演变及其适应性和实施情况。

| 方法 | 应用 | 物理准确性 | 执行要求 | 优势 | 失效模式和注意事项 |
|-----------------|------------------------|--------------------------|------------------|------------------------------------|
| 经验多相相关性(A/B/C) | 初步节点分析 | 低至中等 | 快速 | 基本且易于实现 | 由于超出范围值、状态转变导致的误差,应用范围有限 |
| 机械(两相)模型 | 全面的设计;广泛的直径/倾斜角度适用范围 | 中等 | 改进了外推能力,物理过程更清晰 | 但计算要求和复杂性增加,对系统关闭敏感 |
| 稳态网络模拟 | 全场范围内的综合规划,识别瓶颈,并静态分配气举资源 | 高(稳态) | 中等 | 网络级别的约束和复杂的拓扑结构 |
| 瞬态模拟器/流动保障 | 在系统重启操作期间防止段塞 | 最高(一维双流体) | 中等 | 行业标准操作方法 |
| 虚拟流量计 | 利用基于模型的方法或机器学习软感知流量 | 高性能基于模型的结果,机器学习效果因情况而异 | 实时 | 传感器质量和在不同工况下的稳定性,调整机制 |
| 实时优化(RTO) | 优化经济参数,包括气举分配、节流装置、压缩机、分离器目标及路由 | 中等至高(稳态或混合状态) | 在线 | 实时SCADA/历史数据,操作限制,PVT分析 |
| 先进控制:NMPC/MHE | 闭环多变量控制和估算,段塞抑制,气举稳定 | 高(动态) | 高速传感器和执行器模型 | 对模型差异、估计器漂移、求解器不可用性需要备用机制 |
| 基于物理的机器学习替代方法 | 快速情景分析,内部迭代用于RTO/MPC,逆问题求解 | 高,前提是约束条件明确 | 训练后速度快 | 面向对象的设计存在脆弱性,实施刚性物理原则时不确定性量化较难 |

**说明:**
- 分类A = 均质模型,不考虑相滑移;
- 分类B = 考虑相滑移但不考虑流动状态的模型;
- 分类C = 同时考虑相滑移和流动状态的模型;
- MPFM = 多相流量计;
- NMPC = 非线性模型预测控制;
- MHE = 移动视界估计。

**3. 用于地表网络的人工智能/机器学习技术**
将人工智能/机器学习(AI/ML)整合到油气地表网络优化中,标志着从传统的基于物理的建模向先进的数据驱动方法的转变。图5展示了生产预测和优化的数据驱动建模工作流程示意图。该框架包括数据预处理、特征工程、模型训练和验证,随后是实时部署和决策支持。反馈循环使得新操作数据可用时能够持续更新模型。与依赖确定性原理公式的机械模拟器不同,AI/ML模型利用来自传感器、SCADA系统和历史操作数据的庞大数据集来学习复杂的非线性系统动态。这些方法能够捕捉复杂的非线性动态,适应变化的现场条件,并提供接近实时的预测以优化生产系统。在地表网络应用中,AI/ML模型证明了它们在提高生产率、降低举升成本、改善设备可靠性以及通过异常检测、趋势预测和预测性维护来最小化停机时间方面的能力。本节按任务讨论了AI/ML技术,包括虚拟流量计(VFM)、预测、异常检测以及网络层面的优化和控制。

下载:下载高分辨率图像(959KB)
下载:下载全尺寸图像

图5. 生产优化的数据驱动建模框架,展示了从数据采集和预处理到模型训练、验证、部署和决策支持的工作流程。反馈循环强调了随着新操作数据的出现,地表网络中的AI/ML模型需要持续更新。

**3.1. 油气和天然气生产数据**
油气生产井的监控主要通过在井口和井口附近的测量来进行的。如图6所示,井口测量和节流控制对于确定系统状态、确定可行的控制范围以及识别优化措施至关重要。被操作的变量是节流阀的大小(单位为1/64英寸),它可以在井口建立可控的非线性压降,以管理 drawdown 并减轻 riser 引起的段塞现象[32]。关键参数包括 tubing head pressure (THP),它连接了水库的流入和到地表网络的垂直提升;以及 tubing head temperature (THT),这是水合物和蜡风险的最直接指标[33]。环形空间压力(包括 tubing annulus pressure (TAP)、casing head pressure (CHP) 和 behind-casing pressure (BCP))作为完整性约束。此外,basic sediment and water percentage (BS&W) 可量化产生的沙子和水的比例,这会影响分离器的负荷[34]。表2提供了每个变量的物理意义及其相应控制功能的全面总结,以及相关的监管和计量参考标准(API RP 90-1, 30 CFR 250 和 API MPMS 10.10 / EI HM 56)。

图6. 地表生产网络中的数据测量点示意图以及典型的维护操作位置。

表2. 地表网络的变量、物理意义和控制功能:

| 变量 | 物理位置/解释 | 关键功能与控制 |
|-------------------|----------------------------------|----------------------------------------|
| 节流阀大小 (1/64 英寸) | 地表节流阀的有效流通面积 | 调节井口压降,控制生产率,稳定流量,保护设施 |
| Tubing head pressure (THP) | 井口/管线的上游压力 | 地下流入与地表网络水力之间的关键耦合变量,保护分离器和头部设施 |
| Tubing head temperature (THT) | 节流阀上游的流体温度 | 指示水合物和蜡的风险,影响粘度和相行为,指导化学和热干预 |
| Downstream choke pressure (DSCP) | 流线或分离器入口压力 | 决定流动状态(临界/亚临界),影响分离效率 |
| Tubing annulus pressure (TAP) | 管道-套管环形空间的压力 | 监测热效应、迁移或泄漏的完整性,受 API RP 90-1 和 30 CFR 250 的约束 |
| Casing head pressure (CHP) | 套管头部的压力 | 表示屏障健康状况和通信状态,受 MAWOP/MAASP 和诊断阈值的约束 |
| Behind-casing pressure (BCP) | 套管串后的压力 | 分类持续压力、热压力和操作员施加的压力,按 RP 90-1 规定进行调整 |
| Basic sediment & water (BS&W) | 产出液体中的沙子和水比例(在线分析仪或实验室检测) | 确定分离器和泵的负荷,确保符合产出水标准 |

在油气地表生产中,流体通过管道和流线的流动受到摩擦力、重力和加速效应的影响,这些因素取决于气液比 (GLR)、流量、管道倾斜角度、混合物密度/持液率和气液滑移。生产系统的操作点由流入性能关系 (IPR) 和垂直提升性能 (VLP) 曲线的交点定义。THP 和节流阀大小决定了 VLP,而水库压力和相对渗透率决定了 IPR。节流阀是主要的控制元素:打开它可以增加液体和气体的流动,降低 THP,增加 drawdown 并可能冷却系统(例如通过 Joule–Thomson 效应);关闭它则产生相反的效果:THP 上升,drawdown 减少,速率降低,段塞现象减少[33]。由于节流阀的水力特性是非线性的,即使是微小的变化也会产生显著影响。在以气体为主的流动中,如果节流阀的下游到上游压力比低于某个临界值,流动会变得受阻且不再受下游压力影响[32]。由于没有普遍适用的相关性,操作员会定期更新节流阀的配置并考虑不确定性。环形空间压力会随温度变化而变化,因为热呼吸效应,高 drawdown 可能导致水锥现象。必须遵守设施的约束,如分离器限制、停留时间、环形空间压力阈值和套管压力要求。在多井系统中,协调的节流阀调整可以减少段塞现象,但可能会增加集管压力。最终,最佳生产取决于平衡节流阀大小、压力和温度,以最大化油气生产率,同时最小化设备应力、流动不稳定性和操作风险。这种方法确保了基于 THP、THT、TAP、CHP、BCP 和 BS&W 的物理控制符合操作要求,如表2所述。

**3.2. 统计机器学习方法**
统计建模通过变量之间的数学关系来捕捉系统行为,为基于回归的推断和时间依赖的预测提供了基础。虽然经典回归假设观测值之间的独立性,但时间序列方法明确考虑了时间依赖性,以提高预测精度并揭示系统的潜在动态。在油气生产分析中,广泛使用的时间模型包括自回归 (AR)、移动平均 (MA)、自回归移动平均 (ARMA) 和自回归积分移动平均 (ARIMA) 及其季节性变体 (SARIMA)。考虑到在油气生产预测中使用统计机器学习方法,Qiao 等人[35] 提出了一种混合预测模型,该模型结合了粒子群优化 (PSO) 和最小二乘支持向量机 (LS-SVM) 来提高预测精度。他们使用中国一家石油和天然气公司的历史生产数据构建了一个数据驱动模型,该模型预处理数据以消除异常并自动优化模型参数。在 MATLAB 中进行的模拟表明,PSO-LS-SVM 模型的预测结果与实际生产数据非常吻合,显示出较高的收敛速度和预测精度,证明了其适用于实时生产预测和优化任务。类似地,Panja 等人[36] 开發并比较了三种 AI 替代模型:响应面模型 (RSM)、LS-SVM 和人工神经网络 (ANN),用于预测水力压裂页岩储层的碳氢化合物产量。他们使用了来自 144 个商业黑油模拟 (IMEX) 的合成数据集,并包括了八个关键输入参数:储层渗透率、初始气油比、岩石压缩性、气油比斜率、初始压力、井底压力和裂缝间距。结果表明,RSM 和 LS-SVM 都实现了良好的油回收预测,其中 LS-SVM 在模拟气油比的复杂行为方面表现更好。ANN 表现尚可,但在外推能力上较差。该研究的主要局限在于它依赖于模拟数据而非现场数据,并忽略了物理流动机制,这可能影响模型的普适性。

基于树的机器学习方法(如决策树 (DT) 和随机森林 (RF) 算法)因其可解释性、处理混合数据类型的能力以及捕捉非线性关系的稳健性而受到高度重视,成为钻井操作、生产预测、储层表征和管道完整性管理的强大工具。将基于树的模型与其他集成或优化方法结合起来,使得油气生产系统的预测更加可靠和准确。在管道安全和可靠性方面,Mazumder 等人[37] 开发了一种非时间分类模型,使用了多种机器学习算法:K-最近邻 (KNN)、DT、RF、自适应提升 (AdaBoost)、极端梯度提升 (XGBoost) 和分类提升 (CatBoost) 来评估管道故障风险。他们的数据集包含 959 个样本,涉及管道直径、壁厚、缺陷几何形状、抗拉强度和操作压力等参数。在通过准确性、精确度和召回率指标评估的模型中,XGBoost取得了最佳性能,准确率达到85%,这证明了基于集成树的技术在管道完整性评估中的实用性。刘等人[38]使用来自华北地区的1500个井测井样本研究了管道缺陷预测,评估了包括逻辑回归(LR)、SVM、高斯过程回归(GPR)和基于决策树的集成算法在内的模型。人工神经网络(ANN)模型取得了最高的准确率(训练阶段的决定系数R2=99%,测试阶段为96%),但随机森林(RF)和决策树(DT)方法为非时间依赖性缺陷评估提供了可解释且高效的替代方案。同样,马等人[7]应用RF、XGBoost、SVM和LightGBM来估计腐蚀油气管道的破裂压力,使用314个样本(这些样本包含了管道几何形状、材料强度和腐蚀深度的信息),在训练阶段的准确率达到了令人印象深刻的99%,在测试阶段为98%。RF还被应用于水库模拟和生产预测。库马尔和哈桑扎德[39]利用RF分析了2D水库模拟(240个时间样本),基于物理和热属性(例如地层的压缩性和热导率)预测了页岩屏障的性能。该模型取得了高R2值和低均方根误差(RMSE),突显了RF对动态水库系统的适应性。此外,奥切雷等人[40]使用贝叶斯优化的XGBoost(BayesOpt-XGBoost)处理了Equinor Volve油田的数据,预测了孔隙度、页岩体积和含水饱和度。他们的混合模型在训练阶段的准确率为93%,精确率为98%,验证了其在水库表征和生产预测方面的潜力。

在井完整性及生产故障检测方面,桑托斯等人[41]使用了公开可用的Petrobras 3W数据集[42],该数据集包含标记的多变量时间序列数据。他们采用随机森林(RF)根据气体提升节流压力、下游温度和流速等变量对不希望发生的操作事件进行分类。该模型的准确率达到94%,表明其能够识别早期生产异常并提高运营可靠性。在管道腐蚀率预测的研究中,RF和CatBoost被应用于3240个非时间依赖性样本,预测变量包括气体成分、压力和流速[43]。CatBoost取得了最高的准确率(R2=99.9%),证明了梯度提升树集成算法在估计油气系统腐蚀倾向方面的有效性。在另一项非时间依赖性的管道故障分析中,使用多层感知器(MLP)、RF和支持向量回归(SVR)模型处理了149,940条记录的大数据集[44]。特征包括反映运输中断和设备可靠性的运营、安全和维护指标。这些模型在计算效率和预测准确性方面进行了基准测试,MLP和SVR在减少计算时间的同时表现出了竞争力,突显了它们在大规模基础设施监测中的应用潜力。在油管系统内的腐蚀建模中,混合人工智能方法也取得了显著成果。纳瑟扎德和诺赫加尔[45]应用了一套通过遗传算法(GA)、粒子群优化(PSO)和萤火虫算法(FA)优化的元启发式增强型SVR模型来预测伊朗油田管道中的碳钢腐蚀率。使用340个样本和诸如坑洞深度、暴露时间、运营压力和化学浓度等变量,SVR-GA-PSO模型的预测性能表现出色,R2为0.99,均方根误差(RMSE)为0.0099,优于传统的基于回归的模型。马林斯等人[46]应用了几种人工智能模型,包括RF、ANN、长短期记忆(LSTM)和独立循环神经网络(IndRNN),对油井生产系统中的故障进行分类。使用1984个时间序列井样本(特征包括套管和环空压力、温度和事件状态),ANN取得了较高的整体性能(准确率=96%,F1分数=85%)。然而,该模型在分类特定不希望发生的生产事件时显示出有限的精确度,这促使人们建议改进混合策略。

在井况监测方面,马查多等人[47]部署了一类支持向量机(OCSVM)和LSTM模型,对3W数据集中的故障进行时间分类。测量的变量包括套管和环空压力、温度和节流压力。OCSVM取得了91%的准确率,尽管标记数据的可用性有限,但仍能有效识别早期故障。同样,卡瓦略等人[48]探索了有序最近邻(ONN)和加权最近邻(WNN)模型来检测同一井数据集中的流动不稳定性,ONN的准确率达到81%,表明通过混合元启发式调优有改进潜力。

传统的机器学习方法,包括支持向量机、随机森林和梯度提升树,仍然对许多地面网络任务具有吸引力,因为它们在结构化表格数据上表现良好,所需的训练数据量少于更复杂的架构,并且通过特征重要性分析提供了相对较强的可解释性。在这里回顾的研究中,这些方法特别适用于软传感器、故障分类、完整性筛查和短期预测。它们的主要限制在于它们无法自然捕捉长期时间依赖性或跨互联资产演变的相互作用,这降低了它们对强瞬态多相行为和跨资产传输的鲁棒性。因此,它们最好被视为中等复杂度任务的强大基线、实用的现场级预测器,以及混合工作流中的有用组件,而不是通用解决方案。

3.3 人工神经网络
人工神经网络(ANNs)是受人类大脑数据处理机制启发的计算模型,能够通过迭代训练学习复杂的模式和依赖关系。在结构上,它们由输入层、隐藏层和输出层组成,这些层相互连接以模拟生物突触,从而将输入数据转换为相关输出[49]。每个神经元作为一个处理单元,通过应用激活函数(如sigmoid、tanh或线性函数)来工作,而学习算法则迭代调整连接权重以最小化误差。在石油和天然气行业,ANN对于建模传统统计或线性方法无法处理的非线性系统至关重要。前馈人工神经网络(FF-ANNs)通过隐藏层单向传输信息,被广泛用于预测井性能、提高产量以及评估管道完整性和故障率[50]。它们还作为高效的替代模型,用于替代计算密集型模拟,例如预测压降和估计活塞流频率的任务。贾和张[51]通过使用ANN和时间序列方法训练生产数据来进行递减曲线分析,实现了0.99867的相关系数来预测页岩产量,超过了基于井底压力(BHP)训练的ANN模型的表现。在数据驱动策略的基础上,苏布拉马尼亚等人[52]使用主动学习和半监督学习来识别标记和未标记井数据集中的高信息数据点,使生产建模更加准确。在井性能预测的背景下,萨米和易卜拉欣[53]使用RF、KNN和ANN模型分析了中东垂直井的数据集,以预测井底流动压力,ANN在测试阶段的R2达到了93%,突显了其捕捉复杂非线性井行为的能力。同样,卡尤姆·乔汉等人[54]使用ANN、最小二乘提升(LSB)和装袋算法对2600个油页岩样本进行了训练,以预测石油产量和二氧化碳生成量。ANN模型的相关系数分别为99.6%和99.9%,同时RMSE值较低,证实了其在多变量化学过程建模中的鲁棒性。易卜拉欣等人[55]开发了一个数据驱动框架来分类和预测石油、天然气和水的产量。利用沙特阿美提供的五个不同水库的模拟数据,他们创建了一个包含12个输入特征和1968个数据点的综合数据集,以模拟三年的生产行为。测试了八种不同的回归技术,包括多元线性回归、多项式回归、SVR、决策树回归、随机森林回归、XGBoost、ANN和循环神经网络(RNN),以确定最准确的井性能预测器。他们的结果显示,深度学习方法的表现优于传统的机器学习方法,XGBoost的R2值为0.96,ANN为0.97,RNN为0.98,在保持高预测准确性的同时减少了计算时间。

前馈人工神经网络为浅层机器学习模型和更复杂的深度时间架构之间提供了一个有用的中间选项。训练后它们在计算上高效,并且当底层映射相对平滑且接近稳态时,可以近似生产变量之间的非线性关系。然而,由于它们不显式编码时间动态或地面网络拓扑,因此在瞬态预测、控制导向任务和多节点交互问题上的应用受到限制。它们的预测质量也强烈依赖于数据量、变量选择和正则化,当现场数据稀缺、噪声较大或代表性不足时,它们容易过拟合。

3.4 深度学习架构
深度学习(DL)已成为建模复杂和非线性多相流动现象的强大方法,这些现象对传统方法构成了挑战。在石油和天然气行业,DL通过启用高级模式识别和风险缓解能力,改变了分析实践。通过其多层架构,DL促进了层次化特征提取,使其能够有效地捕捉非线性依赖关系和处理高维度、时间依赖的数据[56]。例如卷积神经网络(CNNs)、循环神经网络(RNNs)、长短期记忆(LSTMs)和变换器(Transformers)等架构在模拟时间动态、检测管道异常和预测生产和管道系统内的操作行为方面表现出色。

3.4.1 循环神经网络及其变体
由于地面网络动态表现出强烈的时间依赖性,RNN及其高级变体(如LSTM和门控循环单元(GRU)模型在模拟此类行为方面非常有效。这些架构能够捕捉流量、压力和温度之间的时间依赖关系,从而准确预测瞬态现象,如清管冲击和关井响应。其中,LSTM网络因其通过专门的门控机制保留长期依赖性的能力而脱颖而出,使其能够准确预测对动态水库管理至关重要的关键时间依赖参数,如压力、流量和产量水平。在地面网络应用中,这些架构通常通过使用多变量过程变量的滑动时间窗口(如压力、温度、节流位置和流速历史)进行适配,从而使模型能够捕捉与活塞流、关井/重启行为、气体提升不稳定性以及短期生产波动相关的瞬态依赖性。杨等人[57]提出了一个使用LSTM网络的深度学习框架,以比传统分析或统计模型更高的保真度预测页岩气产量和井底压力。他们的研究解决了经典递减曲线分析(Arps、SEPD和Duong模型)的局限性,这些模型往往无法捕捉非常规水库中的非线性动态和多变的生产模式。他们使用了来自中国Longmaxi地层的三个页岩气井的数据集。在训练LSTM之前,预处理了历史时间序列输入,如累积天然气产量、压力和井口条件。他们的工作流程结合了短期统计预测(ARIMA)和长期LSTM序列学习模型,后者能够捕捉时间依赖性和非线性递减行为。结果表明,LSTM取得了显著高的预测准确性,R2值大于0.95,均方误差和相对误差较低,优于ARIMA和所有传统的递减曲线模型。尽管其预测准确性很强,但该模型仅基于单个地层的三个页岩气井进行了评估,这对其在其他类型的 reservoir 或生产环境中的可扩展性和泛化能力提出了问题。同样,王等人[56]分析了中国四川盆地Longmaxi地层的90,000个样本,以预测实时天然气管道裂缝和生产异常。他们比较了Deep-CNN + LSTM、ANN、LSTM、RNN和SVR模型,发现混合模型Deep-CNN + LSTM的准确率达到了99.37%,突显了其在从广泛的时间数据集中识别页岩气生产模式方面的能力。在另一项值得注意的贡献中,安塔里克萨等人[58]利用West Natuna盆地(11,497个样本)的数据,基于井测井参数(如深电阻率和浅电阻率(LLD、LLS)、声速(Vp)、中子孔隙率(NPHI)和伽马射线(GR)来预测碳氢化合物产量。他们比较了LSTM和RF模型,发现LSTM的预测准确率达到了94%,RMSE和MSE较低,突显了其在时间天然气生产预测方面的鲁棒性。宋等人[59]开发了一个数据驱动的油田生产力预测框架,使用五种机器学习算法:多元线性回归、XGBoost、LightGBM、反向传播(BP)神经网络和LSTM。他们的数据集来自中国的394口海上油井,包含30个参数,如渗透率、孔隙率、石油粘度和压力。在应用皮尔逊相关性分析降低维度后,选择了12个关键特征作为模型输入。LightGBM模型展示了最佳的总体准确率和泛化能力,优于XGBoost和LR模型,后者存在过拟合问题,并且对高产量井敏感。基于单个井的时间序列数据训练的LSTM模型在动态生产预测方面展示了强大的潜力。Du等人[60]提出了一种深度自回归时间序列(DATS)模型,利用1919-2009年的美国油田数据来预测石油产量。他们的方法将改进的门控循环单元(M-GRU)网络与自回归模型相结合,以捕捉非线性时间依赖性和先前的领域知识。M-GRU被设计为能够结合外部经济指标(如GDP、油价和利率)以及技术性油田参数。与比较方法相比,DATS模型取得了最高的预测准确性(R2=0.99874,平均绝对误差(MAE)=0.00254),优于GRU、LSTM、CNN和递减曲线分析(DCA)模型。它在小样本和长期预测方面也表现出色,并且在2008年金融危机和COVID-19大流行等颠覆性事件中保持稳健。他们的模型依赖于宏观经济因素而非详细的储层参数,因此不太适合政治或经济不稳定的地区,在这些地区输入数据可能不确定或不可用。

Martínez和Rocha等人[61]提出了“Golem”,这是一个基于RNN的通用数据驱动的石油和天然气生产预测模型,特别使用了LSTM和GRU架构。他们的模型旨在克服以往工作的局限性,后者仅关注单变量预测(通常是油产量)和单一类型的储层数据。他们开发了一个自适应的序列到序列(Seq2Seq)预测框架,能够预测多个生产变量(石油、天然气、水产量)和井筒压力。他们使用了两个数据集:UNISIM-II-H基准数据集(来自巴西盐下层的合成碳酸盐储层)和Volve油田(一个已退役的北海油田)。该模型输入了每日历史生产数据,并生成了不同未来时间范围的预测,其结构能够自动调整以适应数据集大小和时间窗口。关键发现表明,GRU和LSTM模型在合成情况下的性能相当,R2值通常可达0.99,对称平均绝对百分比误差(SMAPE)低于2,同时仍然具有很强的趋势跟随能力。该模型的简单性,使用最少数量的密集层且没有基于物理的输入,显示出在不同生产场景下的高效率和适应性。然而,在实际应用中(例如Volve油田),由于数据复杂性和停产期,模型的准确性有所下降,并且缺乏与基于物理的约束的整合,这可能限制了其可解释性和对未见情况的外推能力。

Werneck等人[62]开发了一个数据驱动的深度学习框架,用于复杂储层中石油产量和井底压力的短期预测。他们的数据集包括来自生产井和注入井的传感器数据,包括石油、天然气、水产量和压力测量值。他们测试了多种神经网络架构:堆叠GRU、CNN、Seq2Seq以及混合GRU-CNN模型,并将它们与传统的压力标准化递减曲线分析方法以及现代现成的预测模型(如Transformer、N-BEATS、DeepAR和Prophet)进行了比较。模拟在真实油田数据和合成基准数据集(UNISIM-II-M-CO)上进行,结果显示堆叠循环网络(GRU和Seq2Seq)在30天产量和压力预测方面表现最佳。他们的方法还包含了异常值去除和数据增强来提高模型的稳健性。

3.4.2. Transformer模型

Transformer模型已成为现代AI中最具影响力的架构之一,从根本上改变了序列数据和结构化数据的处理方式。Vaswani等人[63]引入的Transformer模型用自注意力机制替代了循环和卷积操作,这些机制能够更高效、并行地捕捉数据中的长距离依赖性,从而极大地提高了跨任务的可扩展性和性能。其编码器-解码器框架、多头注意力和位置编码使得它能够在序列中学习复杂的时间和空间关系。除了自然语言处理(NLP),Transformer模拟非线性多变量依赖性的能力使其特别适合时间序列预测和动态系统建模。最近的跨领域研究进一步强化了这一观点,展示了Transformer在多粒度时空预测、非平稳序列学习和带有缺失值的稳健多变量预测方面的进展[64,65]。在石油和天然气行业中,Transformer架构可以用于预测产量、优化地面网络操作以及通过学习井口压力、流量和储层条件之间的复杂依赖性来检测异常。Li等人[66]引入了TST-Refrac,这是一种基于Transformer的新模型,旨在预测压裂后油井的产量。利用准噶尔盆地名吴区块的时间序列生产数据,作者旨在克服传统深度学习模型(如RNN和LSTM)的局限性,这些模型在处理长距离依赖性和非平稳生产数据时遇到困难。他们的方法采用了增强滑动窗口方法的Transformer编码器架构来捕捉时间依赖性。该模型在九口井的生产数据上进行了训练和验证,并与RNN和LSTM模型进行了对比。TST-Refrac的平均RMSE为0.4475,显著优于RNN(1.1053)和LSTM(0.8806)。然而,这项研究的局限性包括样本量小(模型训练使用九口井,验证使用六口井)、地理范围有限,以及模型仅依赖产量时间序列,没有结合运营或压力相关特征,这可能限制其在不同储层条件下的普遍适用性和稳健性。

Huang等人[67]开发了一个时间片段动态注意力Transformer(TPDAT)模型,以增强复杂、噪声较大的油田环境中的井产量预测。他们的工作解决了传统深度学习模型的弱点:LSTM在长序列上的梯度消失问题、CNN的接收场有限问题,以及标准Transformer无法保持因果关系和局部时间特征的问题。使用北海的Volve油田数据集(2008-2016年),作者选择了三口生产井。输入变量包括井下和管柱压力、节流设置、井口压力、温度和水产量。该模型的性能与CNN、LSTM、时间卷积网络(TCN)和标准Transformer基线进行了对比,显示出显著改进。然而,尽管TPDAT表现出出色的准确性和泛化能力,但其复杂的模型架构以及对单一数据集(Volve油田)的有限测试限制了其在其他储层类型的泛化能力。此外,模型对密集超参数调整的依赖性以及缺乏物理意义上的可解释性,仍然是其在实时或物理指导的操作工作流中应用的挑战。

3.4.3. 图神经网络

图神经网络(GNN)是一类专门为建模具有内在关系和拓扑结构的系统而设计的深度学习架构[68]。与传统神经网络不同,GNN可以从图结构化数据中学习,其中节点代表实体,边编码它们的空间、物理或功能关系。Corradini等人[69]总结的最近研究表明,时空GNN通过联合捕捉多变量时间序列数据中的空间交互和时间演化,扩展了经典GNN的功能。这些模型结合了卷积、循环和基于注意力的模块,以学习空间和时间上的多个变量之间的依赖性,使其非常适合动态生产环境。在石油和天然气地面网络中,GNN可以建模井、流形、分离器和传感器之间的相互关联关系,其中节点代表系统组件,边捕获物理流线或操作依赖性。GNN通过结合过程拓扑和数据驱动的学习,可以准确预测不同操作条件下的产量、压力变化和设备性能。除了预测之外,GNN还能通过学习系统中的一个点的控制动作如何影响其他部分来支持网络级别的优化,实现实时优化、异常检测和故障定位。当集成在混合或基于物理的框架中时,GNN可以作为数字孪生的核心,增强场景分析、自适应控制和复杂地面网络的整体生产效率。

Lijie等人[70]提出了一个基于GNN的框架,用于识别石油和天然气管道系统中的事故链。所提出的GNN模型将管道组件(如阀门、传感器和部分)表示为节点,将其相互依赖关系表示为边,从而建模导致事故的因果路径。该框架结合了结构化数据(955条生产异常记录)和非结构化数据(257份详细事故报告)来构建语义和因果图。使用语义分割、依赖性解析和基于注意力的GNN等技术,模型从文本数据中提取关键元素并构建共现网络以推断事故链。这些链揭示了关键的风险传播模式,例如腐蚀、阀门故障或通信延迟如何可能引发火灾或爆炸事件。结果表明,GNN框架准确识别了高风险节点和因果序列,提高了预测准确性和可解释性,优于传统方法。它强调了腐蚀和人为错误作为连锁故障的主要贡献因素,为预防性维护、实时监控和管道系统的安全优化提供了基础。

3.4.4. 多智能体系统

多智能体系统(MAS)是由多个自主智能体组成的计算框架,这些智能体在共享环境中交互以实现共同目标[71]。每个智能体感知周围环境,解释信息,并选择行动以优化特定目标的性能。MAS架构实现了去中心化、自适应和协作控制,使其在复杂工业应用中非常有效,例如石油和天然气操作,其中决策涉及众多动态和相互依赖的变量。它们的分布式结构允许多个智能体并行操作,管理局部控制或优化任务,同时为总体系统目标做出贡献,这种方法非常适合具有变化条件、不断演变的现场动态和生产、维护和供应链管理之间竞争优先级的石油和天然气环境。为了提高石油产量并减少不必要的水和沙子产量,Engmo和Hallen[72]开发了一个用于生产控制和优化的MAS框架。他们使用Prometheus设计方法[73]和JACK智能代理环境[74],设计了一个分布式架构,包括负责井监测、处理厂监督和操作员协调的智能体。每个智能体分析实时传感器数据(如渗透率和水与沙子的比例),并自主调整控制策略。该系统的性能在Eclipse环境中构建的模拟油田模型中进行了测试。与手动控制相比,MAS实现了更高的石油产量和更快的响应时间,证明了在关键操作条件下的卓越适应性。基于此,Mikkelsen等人[75]引入了一个用于海上石油和天然气生产的多目标分层MAS。他们的系统分为三个层次:战略层、战术层和操作层,智能体在共享决策框架内协商目标。使用DONG Energy EP在北海运营的Siri油田的数据,每个智能体利用历史和实时生产数据来优化流量、压力约束和环境限制相关的参数。通过迭代协商,智能体协作平衡了相互竞争的目标,从而提高了运营效率,减少了环境影响,并提高了经济性能。在另一项贡献中,Dobrescu等人[76]提出了一个用于陆上石油生产系统的分布式MAS控制框架。该模型将传统控制单元转换为能够作为模块化服务执行控制功能的自主生产单元智能体。系统的分布式架构确保了动态负载平衡和可扩展性,使系统能够更好地适应变化的生产需求。尽管该框架通过模拟进行了验证,但作者强调了其在不确定和波动条件下管理陆上现场操作的潜在应用价值。

这些研究表明,多智能体系统为管理石油和天然气生产中复杂的、非线性的、时变过程提供了一种实用、去中心化的方法。通过促进自主决策、实时协作和自适应控制,MAS架构有助于优化生产性能、提高响应能力和增强陆上和海上环境中的操作可靠性。深度序列、基于注意力和基于图的架构在复杂瞬态预测和拓扑感知建模方面具有最大的潜力,因为它们可以表示长距离时间依赖性和多个资产之间的交互。在审查的研究中,循环模型和基于Transformer的模型通常比简单方法在多变量预测方面表现出更强的性能,而基于图的方法在概念上与现场采集系统和互连的生产网络非常匹配。它们的主要权衡是更高的数据和计算需求、更复杂的实现复杂性以及较低的面向操作员的可解释性。此外,大部分报告的性能仍特定于数据集,跨资产验证有限,大规模现场部署研究也相对较少,这使得普适性成为一个持续关注的问题。

3.5. 混合和基于物理的机器学习模型

3.5.1. 混合灰盒模型

混合(灰盒)建模结合了机械方程和机器学习校正,比任何单一方法都能更准确地捕捉复杂系统行为。一种常见的策略是残差学习,其中ML模型学习基于物理的模拟器预测与观测数据之间的差异。这种结构在VFM(变流测量)中特别有效,其中基于物理的流动模型提供基线预测,这些预测通过一个基于实时传感器输入训练的数据驱动组件进行动态修正。这种协同作用提高了准确性、鲁棒性和在不同流动条件下的泛化能力,同时减少了对大量标记数据集的依赖。在实际的表面网络设置中,通常使用机械模拟器或简化阶数的流动模型来表示主要的水力行为,而学习得到的残差模型则用于修正未建模的影响,如流体属性的变化、传感器偏差、流动状态转变或资产特定的不匹配。Shi等人[77]提出了一个混合物理指导的变分贝叶斯时空神经网络,该网络将物理参数(例如几何形状、释放率、传感器位置)与深度学习相结合,用于时空气体预测。该模型使用600个时间样本获得了0.99的R2值,证明了物理信息先验和数据驱动推理在捕捉现场动态行为方面的强大互补性。Souza等人[78]提出了一种混合建模方法,用于预测气体提升石油生产系统的非线性动态。他们的方法结合了一阶动态模型和可变增益来表示系统的基本响应,以及一个编码器-解码器GRU神经网络来模拟残差的非线性部分。利用来自气体提升井的模拟数据,他们在开环和闭环条件下评估了该方法,包括存在噪声和未测量扰动的情况。混合模型的归一化均方根误差低于5%,稳态残差在90%到100%之间,优于未经分解的直接GRU模型,后者的稳态残差仅为83%,训练误差高十倍。类似地,Dong等人[79]开发了一个混合神经网络模型,结合了全连接(密集)层和LSTM层来改进页岩气生产预测,解决了单步预测中的延迟问题,并使其能够应用于新井。他们使用了来自300多个页岩气井的日产量数据,涵盖了超过200,000天的生产时间,将气体流量、水流量、生产时间和手动控制的关闭期作为输入特征。结果表明,所提出的模型显著优于传统的LSTM和下降曲线分析模型。对于14天的预测窗口,平均累积误差仅为标准LSTM模型的40.26%。在100天的窗口内,该模型的误差仅为LSTMs的77.93%,而经典Arps DCA模型的29.71%。

3.5.2. 物理信息学习
石油和天然气系统中的现代生产优化越来越多地受到物理信息机器学习(PIML)的影响。这种方法将数据驱动的学习与基本物理原理结合起来。传统的ML方法在模式识别方面表现出色,但往往缺乏物理解释性,并且在训练范围之外表现不佳。同时,尽管纯粹基于物理的模型非常严谨,但在计算上可能成本高昂且受到简化假设的限制。PIML通过将领域知识直接嵌入学习过程中,填补了这一空白,从而产生了快速、可微分且物理一致的替代模型,结合了物理建模的鲁棒性和ML的适应性。这一范式的著名实现是Raissi等人[28]引入的物理信息神经网络(PINN)。PINN通过基于物理的惩罚项将控制方程(通常是偏微分方程(PDE)整合到神经网络的损失函数中,以强制执行守恒定律。对于表面网络应用,这些约束可能包括质量、动量和能量平衡,以及从井口测量值、分离器条件或管道操作限制中得出的边界和初始条件。通过这种方式,PINN不仅被训练来拟合观测数据,而且在测量数据稀疏、噪声较大或只部分可用时也能保持与多相流物理的一致性。通过利用自动微分来计算PDE残差,它们可以从稀疏或操作噪声数据中学习,同时保持物理一致性。这减少了对大型标记数据集的依赖,并降低了纯粹数据驱动模型中常见的不切实际预测的风险。在表面网络应用中,PINN可以准确捕捉多相管道中的压力和温度分布,为结合有限传感器数据和部分物理模型的混合建模提供了一个自然框架。通过保持质量、动量和能量守恒,它们提供了改进的外推能力、稳定性和可靠性,特别适合集成到实时生产监控、预测和优化的数字孪生框架中。Faria等人[80]开发了一个结合PINN和深度强化学习(DRL)的混合框架,用于优化气体提升井网络中的石油生产。他们利用PINN将控制物理方程整合到神经网络的损失函数中,以模拟每个井的非线性多相流动动态,从而减少了对大型操作数据集的依赖。PINN模型作为一个快速、物理一致的模拟环境,用于训练DRL代理,以优化气体注入率,从而实现经济性能。他们的案例研究涉及一个包含三个井的网络,过程数据来自之前验证的动态模型。结果表明,基于PINN的模拟器即使在噪声存在的情况下也能准确再现差分和代数过程状态的行为,而在此基础上训练的DRL代理在石油生产和策略性能方面与基于差分-代数方程模型的DRL代理相当,甚至表现更好。

在另一项工作中,Kittelsen等人[81]开发了一种改进的物理信息神经网络控制(PINC)框架,用于建模和控制高度非线性的系统,特别是气体提升油井。他们通过引入跳跃连接来防止梯度消失,并修改控制ODE中的问题项(例如对数和平方根项)来确保稳定训练,从而改进了原始的PINC方法。他们的分层架构结合了一个预测系统状态的PINC模块和一个估计代数变量(如井底压力)的次级神经网络。利用来自气体提升井的差分-代数模型的模拟数据,他们针对Runge-Kutta基准测试训练和验证了这些网络。改进的PINC将预测误差降低了67%,并将梯度幅度提高了四个数量级。同时,非线性模型预测控制测试证明了即使在噪声测量条件下也能准确和稳健地调节井底压力。

3.5.3. 神经运算符学习
神经运算符(NO)学习代表了物理信息建模的下一个重大进展,它超越了PINN的实例特定性质,学习了整个函数空间之间的映射关系。与仅近似离散解的传统神经网络不同,NO可以在不同的边界条件和参数下建模PDE族,而无需重新训练。这使得神经运算符特别适用于管道和表面网络系统中需要重复场景分析的情况,因为在这些系统中,操作条件、边界条件和控制设置会不断变化。在石油和天然气应用中,它们的实际价值在于从网络状态和操作输入快速学习压力、温度或流动响应的映射关系,从而加速优化和控制循环,否则这些循环将依赖于昂贵的瞬态模拟。这种能力还使它们具有分辨率不变性,意味着在粗糙数据上训练的模型通常可以在更细的空间或时间尺度上准确预测,这对于大型动态系统(如海上生产网络)来说尤其宝贵。在NO架构中,傅里叶神经运算符(FNO)已成为一种领先的方法。通过将积分核参数化为傅里叶空间并利用快速傅里叶变换(FFT)操作,FNO能够高效捕捉全局空间依赖性,比传统的数值求解器快几个数量级地计算湍流或多相流动。Ma等人[82]使用FNO高效模拟了异质储层中的多相(油-水)流动。他们为两相流动制定了控制偏微分方程,并使用FNO学习渗透率-孔隙度场与储层压力之间的映射关系,利用傅里叶变换中的光谱信息。他们的数据集包括1,000个合成的2D储层实现(241×241网格),使用高斯模拟器生成,结果与CMG IMEX模拟进行了比较。该模型实现了高精度(低MAE和RMSE),并展示了零样本超分辨率能力,无需重新训练即可预测高分辨率(1205×1205)的压力场。然而,由于井附近的压力梯度突然变化,精度有所下降,他们采用了一种结合低分辨率和高分辨率数据(MF20、MF50模型)的多保真度方法来缓解这一问题。这一改进进一步减少了预测误差,并保持了与模拟器输出的视觉一致性。在另一项工作中,Gong等人[83]开发了一种高效的模型,使用带有基于物理约束的FNO框架来模拟天然气管道中的瞬态过程。他们的方法称为FNO-BWRS,将Benedict-Webb-Rubin-Starling(BWRS)状态方程嵌入模型的损失函数中,以整合热力学原理并提高预测精度。该模型使用自开发的数值求解器模拟了100公里管道中的120小时流动,包含了水力、热和组分变量。结果表明,FNO-BWRS模型的均方根误差和平均绝对误差在10?3的数量级,R2 > 0.99,优于基线FNO和U-Net卷积模型。他们的模型还展示了强大的网格不变性,并实现了比传统数值求解器快得多的计算速度。

基于这一基础,物理信息神经运算符(PINO)将物理约束直接纳入运算符学习过程中,结合了FNO的泛化能力和PINN的物理一致性。这种集成提高了管道和生产网络中长期瞬态模拟的收敛性和准确性,同时所需的数据较少,展示了更强的泛化性能。另一个相关的发展是Deep Operator Network(DeepONet),它也通过完全解决迭代PDE来学习功能输入和输出之间的映射关系。DeepONet架构可以使用代表性的训练数据集模拟高保真度的多相流动模拟器,并可以泛化到未见过的边界或初始条件。在石油和天然气行业中,这些运算符学习框架对于表面网络建模和优化特别有价值,能够快速进行管道瞬态测试、水合物形成预测和气体提升或节流系统的自适应控制。通过直接学习流动和传输的控制运算符,NO、PINO和DeepONet为实时数字孪生提供了坚实的计算基础,结合了物理真实性、计算效率和可扩展性,适用于生产预测和优化。

混合灰箱模型、物理信息神经网络和神经运算符方法直接解决了纯粹数据驱动AI的一个核心弱点,即训练域之外的外推能力较弱。通过嵌入物理结构、守恒约束或模拟器知识,这些方法为与安全相关的石油和天然气应用提供了更可靠的途径。回顾的研究表明,这些方法可以提高鲁棒性,减少对完全标记数据集的依赖,并相对于高保真度第一原理模拟器加速场景评估。目前的局限性在于公式化、校准和损失平衡所需的更高努力,以及在多相和快速变化的操作条件下,现场规模验证仍然有限。总体而言,这些研究表明,物理信息模型在噪声测量和边界条件变化的情况下仍然可靠,但对于突然的流动状态转变、严重的液塞和持续的多相系统扰动,证据仍然有限。

3.6. 优化算法和生成式AI
优化仍是生产网络管理的核心,旨在平衡吞吐量最大化、成本效率和运营风险降低。进化算法,特别是遗传算法(GA)和粒子群优化(PSO),已被证明在解决非线性和多维问题(如石油和天然气系统中的问题)方面非常有效[84]。GA利用进化策略优化复杂的网络配置,如管道直径、压缩机位置和操作压力。它能够避开局部最小值,特别适用于大型非凸优化问题。它已成功应用于油田开发规划、生产调度、水库特征化和地震反演,展示了在整个上游价值链中的广泛应用[85]。在表面网络操作中,PSO可用于生产分配、实时节流设置优化和清管计划规划等任务。将GA或PSO与基于机器学习的替代模型结合的混合方法可以显著提高计算效率和收敛速度[86,87]。这些混合优化策略能够快速进行场景评估和自适应决策,支持复杂数据驱动生产网络的持续优化。

最近在生成式AI方面的进展也改变了优化格局。生成对抗网络(GANs)[88]和变分自编码器(VAEs)[89]可以通过生成合成流动场景来增强稀缺的现场数据,提高模型鲁棒性。此外,为工程场景微调的大型语言模型(LLMs)[90]越来越多地被用于自动化报告生成、运营总结、时间序列预测以及优化策略的推荐。这些方法共同支持数据增强、场景模拟和决策自动化,为智能、自我优化的生产系统铺平了道路。优化算法和生成式AI方法将AI/ML的作用从预测扩展到决策支持、场景生成和自动化运营辅助。进化优化器对于非线性和非凸生产问题特别有价值,尤其是当与替代模型结合使用时,而生成方法可以帮助解决数据稀缺问题并扩大场景覆盖范围。然而,它们在生产操作中的有效性在很大程度上取决于约束处理、操作保障和人与机器的协同工作。

3.7. 总结
本节全面概述了AI和ML在石油和天然气生产系统的表面网络建模、预测和优化中的应用。它强调了从基于传统的物理模拟器向能够学习复杂非线性动态并提供实时运营理解的数据驱动方法的转变。确定了压力、温度、流速、节流器设置和流体属性等关键数据源对于训练和验证AI/ML模型的重要性。该节回顾了一系列统计、机器学习和深度学习方法,包括回归、树集成、支持向量机以及神经网络架构(ANN、LSTM、CNN和Transformer),重点介绍了它们在生产预测、故障检测和异常分类中的作用。此外,还探讨了新兴范式,如多智能体系统、混合灰盒建模和基于物理的知识学习,这些方法将物理原理与机器学习结合起来,以提高模型准确性、可解释性和可扩展性。最近在神经运算符学习、进化优化算法(GA、PSO)和生成式AI方面的进展也被视为实现自适应、自我优化数字孪生的推动因素。

表3总结了AI/ML在石油和天然气生产领域的最新进展。序列模型如LSTM和混合方法在时间序列预测方面表现出色,而集成方法如XGBoost在分类方面表现出色。然而,小样本量、数据质量问题和缺乏现场验证等限制仍然普遍存在。未来的工作应重点改善数据管理、可转移性和可解释性,以实现更广泛的工业应用。

表3. 应用于表面网络生产系统的AI/ML建模方法概述

参考文献

类别 | 模型/算法 | 目标 | 数据集(类型/大小) | 关键特性 | 性能指标 | 应用准备度 | 限制
--- | --- | --- | --- | --- | --- | --- |
Jia & Zhang, 2016 [51] | 时间序列预测 | ANN(衰减曲线辅助) | 页岩生产预测 | 历史生产数据 | 衰减特征、时间序列 | R2 = 0.99867 | 基线生产预测 | 可能无法捕捉干预措施 |
Qiao et al., 2017 [35] | 核方法 | PSO–LS-SVM | 短期石油和天然气预测 | 现场、时间序列 | 清理过的时间序列、自动超参数 | 高收敛速度/精度 | 流量/压力预测用于分配 | 长期预测的可靠性下降 |
Panja et al., 2018 [36] | 替代模型与核方法 | RSM、LS-SVM、ANN | 碳氢化合物回收和GOR响应 | 合成、非时间序列 | 渗透率、GOR、压缩性、BHP等 | RSM和LS-SVM在石油回收中表现强劲 | 场景筛选、规划 | 模拟数据、物理约束有限 |
Liu et al., 2021 [26] | 集成方法 | ANN、LR、SVM、GPR、DTP | 管道缺陷预测 | 现场日志:1500个样本 | 井/管道日志属性 | ANN R2 ≈ 0.99(训练)/ 0.96(测试) | 预防性完整性干预 | 可能过拟合,需要可解释性 |
Yin et al., 2021 [44] | 故障分析 | MLP、RF、SVR | 管道故障分析 | 现场:149,940条记录、非时间序列 | 运营、安全、维护 | MLP和SVR具有竞争力 | 大规模可靠性监测 | 标签噪声、数据来源异构 |
Marins et al., 2021 [46] | 故障分类 | RF、ANN、LSTM、IndRNN | 生产中的故障分类 | 1,984个样本、时间序列 | 管道/环形空间压力和温度、事件状态 | ANN准确性约96% | 事件分类用于缓解 | 稀有事件的精度较低 |
Sami & Ibrahim, 2021 [53] | 回归 | ANN vs. RF、KNN | BHP预测 | 现场井、非时间序列 | 井参数、压力 | ANN测试R2 ≈ 0.93 | BHP作为节流器优化的代理指标 | 跨现场的泛化不确定性 |
Carvalho et al., 2021 [48] | KNN变体 | ONN、WNN | 流动不稳定性检测 | 3W井数据集、时间序列 | P、T、节流器设置 | ONN准确率约81% | 不稳定性警报用于保护 | 需要通过元启发式方法改进 |
Kumar & Hassanzadeh, 2021 [39] | 随机森林 | RF | 沉积层屏障性能 | 合成数据、时间序列 | 地层压缩性、热条件 | 高R2、低RMSE | 用于约束的情景筛选 | 合成数据 |
Santos et al., 2021 [41] | 异常检测 | RF | 井完整性/生产异常 | 时间序列井数据 | 气举、DSCP、流速 | 准确率约94% | 实时异常标记 | 事件类别不平衡、警报疲劳风险 |
Machado et al., 2022 [47] | 故障检测 | OCSVM、LSTM | 早期故障检测 | 1984个样本、时间序列 | P、T、DSCO | OCSVM准确率约91% | 无监督异常筛选 | 标签稀疏、调整敏感度 |
Qayyum Chohan et al., 2022 [54] | 过程建模 | ANN、LSB、Bagging | 石油产量和CO?生成 | 实验室:2,600个样本、非时间序列 | 地化学/处理变量 | R2 ≈ 99.6%(产量) | 实验室到现场的转移性有限 |
Ibrahim et al., 2022 [55] | 流量预测 | XGBoost、ANN、RNN | 石油、天然气和水流量预测 | 模拟:1968行、12个特征 | 3年内的工程特征 | R2:XGBoost ≈ 0.96,ANN ≈ 0.97 | 算法选择的基准 | 模拟器偏差,需要现场适应 |
Wang et al., 2022 [56] | 异常检测 | Deep-CNN + LSTM | 管道裂纹和异常检测 | 现场:90,000个样本、时间序列 | 时间生产信号 | 准确率约99.37% | 高召回率异常筛选 | 类别不平衡、可解释性 |
Yang et al., 2022 [57] | 短期预测 | LSTM + ARIMA | 页岩气生产和BHP预测 | 现场:3口井、时间序列 | 累计气体、P、井口条件 | R2 > 0.95 | 表面网络响应预测 | 小样本量、特定地层 |
Werneck et al., 2022 [62] | RNN堆栈与混合模型 | GRU、CNN、Seq2Seq、GRU–CNN | 30天流量和BHP预测 | 现场+合成数据、时间序列 | 生产者/注入器流量和压力 | 堆叠GRU和Seq2Seq最佳 | 需要异常去除和数据增强 |
Ma et al., 2023 [7] | 树集成 | RF、XGBoost、SVM、LGBM | 爆裂压力估计(腐蚀管道) | 现场:314个样本、非时间序列 | 几何形状、材料强度、腐蚀 | R2 ≈ 99%(训练)、98%(测试) | 优化中的约束处理 | 小样本量、领域转换风险 |
Fang et al., 2023 [43] | 梯度提升 | CatBoost vs. RFP | 管道腐蚀率预测 | 现场:3240个样本、非时间序列 | 气体组成、压力、速度 | 测试模型中最佳准确性 | 需要定期校准 |
Naserzadeh & Nohegar, 2023 [45] | SVR(元启发式) | SVR-GA-PSO | 碳钢腐蚀率预测 | 现场:340个样本、非时间序列 | 洞穴深度、暴露时间、化学浓度 | R2 ≈ 0.99,RMSE ≈ 0.0099 | 化学设定点优化 | 小数据集、过拟合风险 |
Antariksa et al., 2023 [58] | 井预测 | LSTM vs. RF | 气体生产预测 | 现场:11,497个样本、时间序列 | 井日志、岩石物理特征 | 准确率约94% | 井级流量预测 | 特征缩放和质量控制关键 |
Song et al., 2023 [59] | 生产力预测 | LGBM、XGBoost、LSTM | 海上生产力预测 | 现场:394口井、12个特征 | 渗透率、孔隙度和压力 | LGBM整体最佳 | 筛选和每井TS预测 | 高生产力井的过拟合风险 |
Martínez & Rocha, 2023 [61] | 多变量预测 | LSTM/GRU Seq2Seq | 生产和压力预测 | 合成和现场数据集、时间序列 | 日流量、井筒压力 | R2 ≈ 0.99(合成) | 通用预测引擎 | 实际现场准确性下降,缺乏物理依据 |
Du et al., 2024 [60] | 长期预测 | DATS(GRU + AR) | 石油生产预测 | 美国现场数据、时间序列 | 宏观指标+技术特征 | R2 ≈ 0.99874,MAE ≈ 0.00254 | 宏观层面规划 | 依赖宏观数据,在不稳定地区不太适用 |
Li et al., 2024 [66] | Transformer | TST-Refrac | 压裂后生产预测 | 现场:Block W、时间序列 | 生产率时间序列 | 平均RMSE ≈ 0.4475 | 专门的压裂后规划预测器 | 小样本量,缺乏运营特征 |
Huang et al., 2024 [67] | 变换器 | TPDAT | 井生产预测 | Field Volve:3口井、时间序列 | 井下/管道压力、节流器尺寸、井口压力和温度 | TPDAT性能优于其他模型 | 噪杂环境中的先进预测 |
E. Souza et al., 2024 [78] | 混合灰盒 | 一阶+GRU | 气举油井动态 | 模拟气举井、时间序列 | 基础模型+GRU残差 | 标准化RMSE < 5% | 仅限模拟,需要现场验证 |
Dong et al., 2025 [79] | 混合灰盒 | 密集+LSTM | 页岩气生产预测 | 现场:300口井、时间序列 | 气体/水流量、工程变量 | MAE 14天约40%的LSTM | 跨平台运营预测 | 需要手动规划变量 |

尽管大部分回顾的文献仍然基于模拟,但已有几项研究提供了基于现场或与运营相关的实际部署潜力证据。例如,基于Transformer的生产预测使用了来自三口生产井的井级压力、节流器和温度数据在Volve现场进行了评估[67],而相关的多变量预测研究也在真实现场数据和合成基准数据上测试了循环模型[61]。基于现场的预测也体现在Block W压裂后案例[66]以及300口页岩气井的混合预测中,这支持平台级别的运营使用而不仅仅是实验室规模的演示[79]。在生产和事件识别方面,Petrobras 3W基准被广泛用于根据实际生产变量分类不良的运营条件[41,42]。在控制和优化层面,Siri现场的分层多智能体研究展示了如何使用历史和实时生产信息实现AI辅助决策,以便与海上运营目标对齐[75]。总的来说,这些例子表明工业相关性正在增加,但也表明大多数当前实现仍然是特定于资产的,并且尚未完全经过现场范围的闭环验证。

从运营角度来看,回顾的研究还表明,AI/ML的价值取决于资产环境。在物流受限且响应时间至关重要的海上环境中,分层多智能体控制和边缘增强监控等方法特别有吸引力,因为它们支持更快的决策、减轻操作员负担,并改善了分布式资产之间的协调。在可扩展性和现场范围集成更为重要的陆上系统中,分布式控制框架有助于处理更大的运营足迹下的变量生产需求。这些好处对于成熟资产尤其相关,AI/ML可以帮助保持吞吐量、减少计划外停机时间,并在储层条件和网络约束变化的情况下提高运营效率。在回顾的文献中量化的收益包括更高的石油生产率、更快的响应时间和更好的运营效率,尽管直接的成本降低指标在不同研究中报告不一。

在整个回顾的文献中,没有一种AI/ML家族对所有表面网络任务都是统一最优的。相反,最合适的选择取决于预测性能、时间或拓扑保真度、数据可用性、可解释性、物理一致性和部署约束之间的平衡。虽然表3总结了代表性研究及其报告的结果,但由于回顾的工作在数据集、目标变量、预测范围和验证设置方面存在差异,直接 numerical 比较仍然困难。为了提供更标准化的比较基础,表4使用了与石油和天然气表面网络相关的共同维度,总结了本文中回顾的主要AI/ML家族。这一比较强调,模型选择应基于预期的运营用例和实施的实际情况限制,而不仅仅是预测性能。

表4. 主要AI/ML家族在石油和天然气表面网络中的比较权衡矩阵

模型家族 | 最适合的任务 | 主要优势 | 主要限制 |
--- | --- | --- | --- |
| 统计和经典ML | 软件感知、完整性筛选、短期预测、异常分类 | 数据效率高、训练/推理速度快、相对可解释 | 适用于短期瞬变现象,拓扑意识较弱,在分布变化下性能下降 | 低到中等 |
| 树集成(RF、XGBoost、LGBM) | 表格生产预测、分类、故障检测 | 强劲的基线性能,对混合表格特征具有鲁棒性,原生特征重要性度量 | 时间记忆有限,不考虑物理现象,不太适合动态网络交互 | 低到中等 |
| 前馈ANN | 稳态或弱动态生产预测 | 良好的非线性逼近,训练后计算效率高 | 没有原生时间或图结构,有限现场数据下的过拟合风险 | 中等 |
| 循环深度学习(RNN/LSTM/GRU/TCN) | 多变量时间序列预测、虚拟流量计量、瞬变预测 | 捕捉时间依赖性,强大的预测能力 | 更需要数据,更难以解释,跨资产的可转移性较低 | 中等到高 |
| 变量深度学习(RNN/LSTM/GRU/TCN) | 多变量时间序列预测、虚拟流量计量、瞬变预测 | 捕捉时间依赖性,强大的预测能力 | 更耗数据,更难以解释,跨资产的可转移性较低 | 中等到高 |
| 变量深度学习(RNN/LSTM/GRU/TCN) | 长期预测、多变量序列建模 | 复杂依赖下的强序列建模 | 处理长距离交互优于许多循环模型 | 计算成本高,调整复杂,可解释性有限 | 中等 |
| 变量深度学习(Transformer / 注意力模型) | 长期预测、多变量序列建模 | 在复杂依赖下的强序列建模 | 处理长距离交互优于许多循环模型 | 计算成本高,调整复杂,可解释性有限 | 中等到高 |
| 混合灰盒模型 | 在部分物理信息可用的情况下进行预测和控制 | 结合工厂知识和数据驱动的灵活性,比纯数据驱动模型具有更好的鲁棒性 | 需要仔细的架构设计和校准,依赖于物理模型质量 | 中等 |
| 基于物理的知识神经网络 | 状态估计、受限预测、物理一致的替代模型 | 提高物理合理性,更好的外推潜力,减少对完全标注数据的依赖 | 对损失平衡和公式选择敏感,大规模现场验证有限 | 中等 |
| 神经运算符(FNO、PINO、DeepONet) | 快速替代模拟、重复场景分析、操作员学习 | 对于复杂物理驱动映射具有有希望的速度和可扩展性 | 新兴的现场部署需求,实施和验证要求高 | 中等到高 |
| 优化/生成式AI层 | 场景生成、决策支持、替代辅助优化 | 适用于非线性搜索、规划和数据增强 | 需要护栏、约束执行和人为监督 | 变量 | 低到中等 |

4. 挑战和限制
尽管AI/ML在表面网络优化中的应用显示出有希望的结果,但在石油和天然气运营中的广泛采用受到几个关键挑战的制约。这些限制涉及可解释性、数据质量、计算可行性以及在不同这种不确定性导致了信任的缺失,因为工程师们自然不愿意依赖那些缺乏物理透明度的模型,尤其是在安全至关重要的场景中,这些决策直接影响到设备的完整性、环境保护和生产的连续性。因此,不确定性量化必须被视为一个核心的要求,而不仅仅是可选的改进措施。在实际的表面网络应用中,模型不仅应该提供点预测,还应该传达置信区间或概率估计,以区分常规操作条件和表示不佳或超出分布范围的情景。当AI的输出可能影响节流阀调节、路由决策、分离器加载或异常响应动作时,这一点尤为重要,因为过于自信但不正确的建议可能会造成生产损失和完整性风险。在这种情况下,具有不确定性意识的模型可以支持基于风险的筛选,当预测信心较低时,可以升级至人工操作,并采取基于物理或基于规则的控制系统。为了解决这个问题,正在开发诸如PINNs(物理信息网络)、混合AI-物理框架和可解释AI(XAI)等技术,以提高透明度和确保物理一致性。然而,尽管这些技术有潜力,但它们在工业中的广泛应用仍然有限。从这个意义上说,值得信赖的AI在表面网络操作中并不预期要取代工程判断,而是作为一个受限制且可解释的决策支持层,其建议仍然是可审计的、具有物理依据的,并且受到操作员的监督。

4.2. 数据质量和可用性
尽管在仪器和数字化方面取得了显著进展,但数据质量仍然是AI和ML在石油和天然气表面网络中部署的最关键限制之一。预测模型的性能、稳定性和泛化能力高度依赖于基础数据集的可靠性、完整性和代表性,然而几个持续存在的问题损害了数据的完整性:
- 噪声和传感器漂移:现场传感器经常遭受信号噪声、校准错误和长期漂移的影响。如果不对压力、温度或流量测量值进行适当的过滤或校正,这些变化可能会引入AI预测的不稳定性。例如,Werneck等人[62]明确应用了异常去除和数据增强方法来提高基于生产者和注入器数据的短期预测模型的鲁棒性,突出了数据清洗在现场导向应用中的实际重要性。
- 缺失和不完整的数据:传感器故障、通信中断和传输延迟经常会造成数据空白,特别是在清管、启动或关闭等关键瞬态操作期间。传统的插值技术可能无法捕捉到这些事件的非线性动态[91]。
- 不同的采样率:不同的仪器以不同的频率运行,这使得时间序列建模的数据同步和对齐变得复杂,减少了训练数据集的时间连贯性。
- 标签稀缺:监督学习模型依赖于标记数据,但对于高影响但罕见事件(如水合物形成、严重水塞或突然堵塞)的注释很少,限制了模型的准确性和事件检测能力。这一挑战在Santos等人[41]的生产保障研究中得到了体现,他们使用了Petrobras 3W基准[42]来分类不理想的操作条件,说明了标记良好的操作事件数据集的价值和稀缺性。
- 偏差和代表性:历史数据集通常主要由正常操作条件主导,较少反映异常和极端瞬态。这种不平衡可能会影响模型训练,并在非标准条件下降低预测性能。例如,Song等人[59]报告说,一些模型对高产井很敏感,并且表现出过拟合的倾向,突显了不具代表性的数据集如何扭曲模型的表现。
- 数据碎片化:操作数据经常分散在不同的部门、承包商或专有系统中,这阻碍了统一的全场模型创建,并限制了对多样化训练数据集的访问。

为了缓解这些挑战,需要强大的数据预处理流程,包括高级噪声过滤、间隙填充和插补算法、数据重采样以及异常检测。此外,可以探索半监督、无监督和迁移学习技术,以减少对标记数据的依赖,并提高AI/ML模型在动态表面网络环境中的适应能力。在新开发的油田或传感器有限的环境中,最稳定的选择通常是数据效率高的经典ML模型、混合灰箱框架和基于物理的信息方法,因为这些方法可以比纯粹依赖数据的深度学习模型更有效地利用结构化的少量数据集。

4.3. 计算资源
AI/ML模型,特别是深度学习架构,通常计算密集型,对于大规模、实时的部署在石油和天然气表面网络操作中提出了重大挑战。训练时间是一个重要限制,因为高保真的模型(如变压器、LSTM或DeepONets)需要大量的数据集和长时间的优化周期,这可能限制了它们在快节奏操作环境中的实用性。资源限制进一步加剧了这一问题,因为许多远程生产站点缺乏高性能计算(HPC)基础设施或可靠的云连接。此外,实时集成也带来了挑战,因为表面网络优化经常需要迅速的决策。然而,训练和推理中的计算延迟可能会降低响应速度。除了技术限制之外,能源使用和成本也越来越重要,因为训练大型AI模型需要大量的处理能力,从而加剧了可持续性和碳足迹的挑战。平衡模型复杂性和可行性对于提供可扩展、高效且环境可持续的AI/ML实现至关重要。

4.4. 网络安全
网络安全和操作完整性也是AI/ML启用表面网络的重要部署障碍。随着模型与SCADA系统、数字孪生体、边缘设备和云连接控制架构的集成,攻击面扩大到包括数据篡改、恶意传感器欺骗、未经授权的模型更新和受损的控制建议。在闭环环境中,这些风险尤为严重,因为损坏的输入或不安全的执行逻辑可能会影响节流阀设置、压缩机操作、路由决策或其他安全关键动作。因此,未来的部署策略必须包括安全的数据管道、访问控制、模型治理程序和故障安全的监督机制,以确保AI辅助操作既可靠又可防御。

4.5. 泛化能力
在石油和天然气行业中扩展AI/ML的一个重要挑战是泛化问题,即难以将在一个领域或资产上训练的模型应用于另一个具有不同地质、操作或设备特性的领域。目前大多数AI/ML实现都是特定于特定领域的,针对个别资产进行定制,因此在不同生产环境中的可重用性有限。这一局限性在相关文献中也很明显。例如,Li等人[66]仅基于九口井的生产数据训练了一个基于Transformer的预测器,并在另外六口井上进行了验证,同时仅依赖于生产率时间序列,这限制了其更广泛的转移性。同样,Huang等人[67]报告了使用来自三口生产井的数据在Volve油田上的强大预测性能,而Martínez和Rocha等人[61]展示了他们的Seq2Seq GRU/LSTM框架在合成基准数据上表现非常好,但在实际Volve数据上的准确性下降,因为操作复杂性更高且存在停产行为。随着操作条件的变化(如油田成熟、水切增加、气油比变化或新井的整合),流动动态也会变化,静态模型很快就会过时,除非它们不断重新训练。此外,训练数据集中很少包含未见的情景,例如在极端寒冷事件期间的水合物堵塞或意外的沙流入,这进一步降低了模型的鲁棒性。为了部分解决这些挑战,可以考虑采用迁移学习方法,即利用预训练模型然后进行特定于现场的微调,使模型能够在有限的额外数据下保留广泛学习的生产模式。为了进一步提高鲁棒性,结合数据驱动学习与基于物理建模的混合方法已经成为一种有前途的解决方案,通过将预测锚定在物理定律上并适应特定于现场的数据模式来提高泛化能力。克服这一泛化障碍仍然是开发可扩展的、跨资产AI/ML框架的关键研究重点,以支持强大的实时表面网络优化。

5. 未来方向
AI/ML在表面网络优化中的有效应用仍处于初期阶段,主要以众多试点项目为特征。然而,要从孤立的成功向主流应用过渡,行业必须采用创新策略来提高可扩展性、可靠性和可解释性。图8总结了推动该领域发展的主要战略方向,强调未来的进步将取决于将AI/ML与数字孪生体、自适应控制、基于物理的约束和即可部署的操作工作流程相结合。

5.1. 与数字孪生体的集成
数字孪生体是基于实时数据不断演变的物理系统的虚拟表示,正成为下一代石油和天然气操作的基础。当与AI/ML结合时,表面网络的数字孪生体发展成为动态的、活的模型,不仅能够复制当前的现场条件,还能预测未来的行为。在这个框架中,AI/ML模型作为快速和适应性强的替代品,能够进行快速的情景测试、风险评估和优化,其速度和可扩展性远远超过传统模拟器的能力。这些增强型孪生体的预测能力扩展到了预测流动不稳定性、水合物形成或设备故障,使操作员能够在出现中断之前采取主动措施。此外,通过生命周期适应,数字孪生体可以在网络演变过程中(无论是通过新的回接、水突破还是设备升级)通过自动化的AI驱动再训练和数据同化保持持续校准。最近对能源系统中数字孪生体的跨领域综述也强调了实际部署依赖于感知、数据基础设施、AI模型和云/边缘计算在整个资产生命周期中的分层集成,同时也面临着模型保真度、互操作性、标准化和网络安全的反复挑战[92]。
AI/ML与基于物理的建模的集成使得实时监控、诊断和决策成为可能,从而提高运营效率、可靠性和长期资产性能。在图8中,数字孪生体块被突出显示,表明它是AI/ML从孤立用例迈向集成系统的关键步骤,该系统连接了实时数据、物理模型和操作决策。

5.2. 实时自适应控制和闭环优化
石油和天然气操作中的传统优化工作流程通常依赖于批处理分析或定期更新,这限制了它们对快速变化的现场条件的响应能力。表面网络管理的未来在于实时自适应控制,其中AI和ML模型直接与控制系统交互,以在整个生产生命周期中进行连续的数据驱动调整。然而,这种闭环操作必须同时具备风险意识和不确定性意识。实际上,这意味着AI生成的控制动作应在实施之前通过操作约束、置信阈值、执行器限制和监督逻辑进行过滤。当不确定性较高时,系统应该建议采取保守的行动,或依赖于经过验证的基于物理的控制器,或需要操作员的确认,而不是自主行动。这种类型的保护性决策在多相表面网络中尤为重要,因为局部动作可能会在井、歧管和设施之间传播,并可能引发意外的压力、流动保障或完整性后果。

这一转变的关键促进因素包括:
- 动态流控制:强化学习和自适应优化算法可以实时自动调整节流阀设置、压缩机负载和清管计划,以稳定多相流动,防止水塞并最大化吞吐量。
- 异常检测和自动响应:集成到SCADA或分布式控制系统中的实时ML模型可以识别异常事件(如压力峰值、设备故障或严重水塞),并在需要人类干预之前触发自动校正动作。
- 边缘计算集成:在网络边缘部署轻量级ML模型,靠近传感器和执行器,可以最小化延迟并确保即使在连接有限的偏远海洋环境中也能快速、本地化地进行控制决策。
- 闭环框架:在闭环配置中,AI/ML模型不仅分析实时传感器数据,还生成优化或控制动作,这些动作会立即实施并通过新的反馈进行验证,使模型能够从它们的干预中不断学习。
- 模型漂移和重新训练:随着操作条件的变化(如储层压力下降、水突破或网络重新配置),AI模型可能会经历概念漂移,从而降低其预测准确性。使用更新后的现场数据进行连续重新训练对于保持模型的可靠性和适应性至关重要。
- 持续集成和持续部署(CI/CD):将CI/CD实践纳入ML流程可以增强可重复性、版本跟踪和自动重新训练,确保模型与当前操作现实保持一致,并对数据漂移具有抵抗力[93]。

通过从静态预测转向主动的、自适应的和自我改进的控制,AI/ML驱动的闭环框架承诺提供更安全、更高效和更自主的操作,从而改变表面网络的实时生产优化。

5.3. 混合模型
尽管数据驱动的模型提供了显著的计算优势,但它们缺乏物理基础仍然令工程师担忧,特别是在安全关键且高度动态的石油和天然气操作中。因此,表面网络优化的未来发展预计将专注于结合基于物理的原则与数据驱动学习的混合模型,以实现准确性和可解释性。PINNs代表了这类混合模型中的一个类别,其中流体流动的控制方程作为残差约束纳入学习过程中,确保预测结果与基本守恒定律保持一致,并减少物理上不可能的结果。更通用的PIML框架通过将物理结构、状态或操作符直接嵌入模型公式中来扩展这一理念,而不仅仅依赖于基于残差的约束。混合架构还通过将预测建立在已知的物理定律之上,同时适应操作数据中观察到的特定领域的异常情况,从而增强了不确定性量化。这使得混合模型在需要预测性能和可辩护的信心估计的风险敏感型决策支持中特别具有吸引力,这些在操作工作流中才能信赖。此外,它们的可扩展性使它们能够在不同资产之间进行迁移,因为基于物理的组件保持一致,而数据驱动的模块可以根据局部条件进行调整。未来表面网络建模和优化的趋势可能会受到混合AI-物理框架的影响,这些框架能够在复杂的生产平台中有效地平衡可解释性、预测准确性和适应性。

**结论**
本综述追溯了石油和天然气行业中表面网络建模的发展历程,从基于经验的相关性和机械模拟器到稳态和瞬态场求解器,最终到一类新的数据驱动的、混合的、基于物理信息的方法的兴起。以下是强调AI/ML在表面网络优化中机会的主要结论:
- AI/ML模型可以学习生产系统中传统基于物理的模拟器难以捕捉到的复杂非线性关系。它们可以推断未测量的状态,在不确定性下预测系统行为,并推荐最佳行动,从而增强和加速决策制定。
- 关键应用包括虚拟流量计量,其中AI/ML利用传感器数据和历史记录实现准确的流量估计。在瞬态预测中,序列模型(如LSTM、TCN、Transformer)可以预测流量、压力和温度的短期变化,从而实现主动操作。同样,对于非线性模型预测控制,AI/ML模型有助于实时优化节流设置、压缩机负荷和路由决策,提高吞吐量并减少停机时间。
- 先进的模型类型,如集成方法,结合了多个模型以提高预测的可靠性和稳健性。序列模型如LSTM、TCN和Transformer架构在捕捉生产数据的时间依赖性方面表现出色。图神经网络(GNN)可以建模表面网络中的拓扑关系,支持网络级别的优化和故障检测。PINNs和FNO/PINO将物理定律整合到ML模型中,确保预测结果在物理上合理,并实现快速且不受分辨率影响的模拟。
- 在部署和集成方面,AI/ML解决方案正被设计为可以在边缘设备、本地服务器和云平台上部署,通过CI/CD管道和漂移监测实现持续改进和可靠性。
- 混合和基于物理信息的方法结合了机械(基于物理的)和数据驱动(ML)组件,利用两者的优势来提高准确性、可解释性和泛化能力。而基于物理信息的学习(如PINNs)将控制方程直接嵌入训练过程中,从而减少对大型标注数据集的需求,并提高对新场景的外推能力。
- 对于实时优化和闭环控制,AI/ML使得闭环系统能够持续分析流式数据,检测异常,并自主调整控制动作以在动态条件下维持最佳运行状态。
- 考虑到数据驱动的数字孪生技术,整合AI/ML可以创建动态的、持续更新的虚拟表面网络模型,支持场景分析、风险评估和预测性维护。

要将这些进展转化为常规的工业实践,未来的工作应优先考虑四个领域。首先,该领域需要更大规模的经过现场验证的数据集、共享的基准协议和更一致的评估指标报告,以便进行可信的跨研究比较,并提供更强的现实世界性能证据。其次,需要更多关于考虑不确定性和风险意识的决策制定的研究,以便预测模型能够在罕见事件、变化的操作条件和不完整数据的情况下支持安全的闭环操作。第三,应进一步发展混合物理-数据驱动模型,以提高跨资产的迁移能力,同时保持可解释性和物理一致性。第四,实际部署研究应侧重于在边缘、本地和云环境中的可扩展集成,并通过持续监控、重新训练、网络安全和人类监督来支持。在这些领域的进展对于从有前景的试点应用过渡到可信的、全领域智能表面网络管理至关重要。更广泛地说,表面网络优化的未来将受到人工智能、基于物理的建模和先进自动化融合的影响,实现数字孪生、实时自适应控制以及越来越具有预测性和自动化的生产管理。总之,本综述表明,基于AI的、基于物理的智能不仅仅是现有方法的改进,而是通往更智能、更安全、更可持续的石油和天然气生产的关键途径。

**关于生成式AI和AI辅助技术的声明**
在准备这项工作时,作者使用了ChatGPT来提高语言和可读性。使用该服务后,作者根据需要审查和编辑了内容,并对出版物的内容负全部责任。

**作者贡献声明**
Ussama Ali:撰写——原始草稿、可视化、验证、软件、方法论、调查、形式分析、数据 curating、概念化。
Paul Naveen:撰写——原始草稿、可视化、验证、软件、方法论、调查、形式分析、数据 curating、概念化。
Emad W. Al-Shalabi:撰写——审阅与编辑、验证、监督、资源管理、项目协调、资金获取、形式分析、概念化。
Hamid Ait Abderrahmane:撰写——审阅与编辑、验证、监督、资源管理、项目协调、资金获取、形式分析、概念化。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号