《Chemometrics and Intelligent Laboratory Systems》:Accurate prediction of CO
2 frosting temperature in natural gas mixtures using explainable data-driven frameworks
编辑推荐:
二氧化碳结霜温度预测方法研究及机器学习模型优化应用
Mohamed Riad Youcefi|Saad Alatefi|Menad Nait Amar|Ahmad Alkouh
阿尔及利亚拉古阿特阿马尔·泰利吉大学技术学院过程工程系,BP37G,03000,拉古阿特
摘要
天然气在当今的全球能源体系中占据核心地位,是向低碳系统过渡的桥梁燃料。然而,在处理和运输过程中二氧化碳(CO2)的固化引发了重大的运营和安全问题。因此,准确预测天然气混合物中的CO2结霜温度(Tf)对于确保流动性和高效工艺设计至关重要。传统的估算方法存在局限性:实验技术虽然精确,但成本高昂且耗时较长;而热力学和经验方法在不同条件下的适用性和可靠性有限。为克服这些限制,本研究提出了一个集成且可解释的数据驱动框架,该框架采用先进的机器学习范式,在复杂运行条件下实现高精度的Tf预测。研究实施了三种模型,即分类提升(CatBoost)、表格先验数据拟合网络(TabPFN)和最小二乘支持向量机(LSSVM),并利用全面的实验数据库对它们在广泛运行条件下的CO2结霜温度预测能力进行了基准测试。在所应用的预测方案中,TabPFN模型表现出最佳性能,平均绝对百分比误差为0.13%,决定系数为0.9992。通过Shapley加性解释(SHAP)确保了模型的可解释性,提供了对特征影响的透明洞察,并增强了预测的物理可信度。此外,还使用杠杆方法评估了统计可靠性,确认了模型的稳健性。总体而言,该框架在一个统一平台上实现了高精度预测、可解释的人工智能和统计可靠性评估的紧密结合,为工业应用提供了实用可靠的工具。
引言
全球人口的持续增长和工业发展导致了对能源需求的不断增加。尽管可再生能源取得了进展,化石燃料仍然是全球能源供应的支柱,尤其是在发电、运输和重工业领域[[1], [2], [3]]。这种过度依赖带来了严重的负面影响:二氧化碳(CO2)排放量不断上升,成为温室气体积累和气候变化的最大贡献者[[4], [5], [6]]。迫切需要减少这些排放,给全球各地的工业和政府带来了巨大压力。诸如《巴黎协定》等倡议设定了到2050年实现净零碳排放的雄心勃勃的目标,从而要求快速开发具有成本效益和可扩展性的解决方案[[7], [8], [9], [10], [11], [12], [13]]。在考虑的策略中,碳捕获、利用和储存(CCUS)作为一种有前景的技术解决方案,可以有效减少CO2排放[[14], [15], [16], [17]]。作为过渡桥梁,天然气在能源领域发挥了重要作用。与煤炭和石油相比,天然气具有较低的碳强度,使其成为电力生产、家庭消费和工业过程中的首选[[18,19]]。其多功能性还扩展到了蓝氢的生成[[20]]。当前预测显示,到2030年,全球天然气需求每年将稳定增长近3%[[18,21]]。从成分上看,天然气主要由甲烷组成,还含有较重的碳氢化合物以及氮、硫化氢和二氧化碳等非碳氢化合物[[20,22]]。这种异质性带来了技术挑战,准确确定热力学性质对于设计和操作工业过程至关重要[[23]]。
在低温处理过程中,最关键的挑战之一是二氧化碳可以直接转化为固态,形成霜层。这种现象发生在涡轮膨胀机、脱甲烷器和低温管道等设备中,常常导致堵塞、压力积聚和严重的安全隐患[[24], [25], [26], [27], [28]]。因此,结霜温度(Tf,即蒸汽和固态CO2共存的平衡点)是天然气处理中的一个重要热力学参数[[24]]。然而,在不同运行范围内预测这一条件仍然复杂,需要精确的方法。
由于工业上的重要性,准确确定天然气中的CO2结霜温度受到了广泛关注,人们投入了大量努力来开发各种方法。文献中应用了实验技术和基于不同方法的各种计算方法。例如,Agrawal和Laverman[29]、Le和Trebble[30]、Zhang等人[31]以及Xiong等人[32]的研究提供了可靠的见解,但这些方法对于大规模工业应用来说成本高昂且耗时较长。半经验相关性和热力学模型提供了更快的替代方案,但在不同气体成分和运行条件下往往准确性有限。这些缺点凸显了需要结合准确性、速度和通用性的创新方法的必要性。
过去几十年,机器学习(ML)和人工智能(AI)彻底改变了能源行业[[33], [34], [35], [36], [37], [38]]。它们在天然气处理中的应用范围从水合物形成预测到热物理性质估计,始终在准确性和适应性方面优于传统模型[[23],[39],[40],[41],[42],[43]]。在CO2结霜温度方面,Alipanahi等人[24]、Altalbawy等人[44]和Abdelfattah等人[45]的最新研究表明了ML驱动方法的前景。尽管这些努力取得了有希望的结果,但也暴露了一些需要进一步探索的差距。首先,现有模型往往缺乏可解释性和透明度,只能提供准确的预测,而不能深入解释结果背后的驱动因素。这削弱了人们对模型输出的信任,尤其是在实际工业应用中。其次,可以通过加入物理一致性检查(如详细趋势分析)来增强验证方法。最后,针对表格数据优化或集成全局优化策略的新ML架构的探索在该领域仍然有限。
本研究通过实施一个专门用于估算天然气混合物中CO2结霜温度的集成机器学习框架,解决了这些差距。采用了三种严谨的算法:(i) 通过灰狼优化器优化的最小二乘支持向量机(LSSVM-GWO),将LSSVM与元启发式优化相结合;(ii) 分类提升(CatBoost),一种以高精度处理分类和数值特征而闻名的梯度提升决策树算法;以及(iii) 表格先验数据拟合网络(TabPFN),一种最近为表格预测任务引入的基于变压器的架构。研究编制了一个包含430个高质量实验测量的综合数据集,用于模型开发和验证。为了确保可靠性,不仅通过传统的统计指标评估了模型,还通过趋势分析确认了物理合理性,利用杠杆分析划定了适用范围,并通过可解释AI(XAI)技术(如SHAP)解释了特征重要性和模型行为。这种先进算法、严格验证和可解释性的结合确保了预测的准确性和透明度。
通过弥合准确性和可解释性之间的差距,本研究为天然气系统中CO2结霜现象的建模做出了新的贡献。除了提供高精度的预测外,集成工作流程还提供了关于影响Tf的潜在因素的实用见解,从而增强了工业实践中的信任度和适用性。这项工作的创新不仅在于采用了前沿的ML方法,还在于全面的验证框架,确保了预测在统计上的合理性和物理上的一致性。最终,这里提出的方法有望提高工艺安全性,降低运营风险,并为未来在天然气工程中应用AI驱动方法奠定基础。
表格先验数据拟合网络(TabPFN)
表格先验数据拟合网络(TabPFN)是一种新兴的监督式表格学习方法[[46,47]]。它通过结合变压器架构和元学习原理,在单次前向传递中执行推理,从而提供了一种新颖的方法。与传统需要针对每个新数据集进行训练或微调的监督模型不同,TabPFN利用从多种合成数据集预训练中获得的知识,高效地泛化到新任务。
方法论
在这项研究中,实施了三种先进的算法来估算天然气混合物中的CO2结霜温度(Tf),分别是TabPFN、LSSVM-GWO和CatBoost。本节详细介绍了所使用的数据、数据标准化、交叉验证程序、超参数调整和评估指标。
结果与讨论
本节展示了从三种实现的模型(TabPFN、LSSVM-GWO和CatBoost)评估中获得的结果。提供了统计和视觉比较,以便于解释模型的行为和泛化能力。我们还研究了最佳模型跟随实验数据中观察到的实际趋势的能力,使用SHAP分析进行解释,并将其与现有模型进行比较,同时检查其统计有效性。
结论
本研究开发了三种智能方法,用于估算天然气混合物中的CO
2结霜温度(T
f),分别是CatBoost、TabPFN和LSSVM。GWO算法被用来优化LSSVM模型的调整参数。用于开发这些模型的数据集来自各种已发表的研究报告。根据获得的结果,可以得出以下关键结论:
1.所应用的智能模型
Mohamed Riad Youcefi:撰写——原始草稿、可视化、软件开发、方法论设计、调查实施、数据分析、概念化、审稿与编辑。Saad Alatefi:撰写——审稿与编辑、验证、资源管理、项目协调、方法论设计、数据分析、概念化。Menad Nait Amar:撰写——审稿与编辑、验证、软件开发、方法论设计、数据分析、概念化。Ahmad Alkouh:
利益冲突声明
作者声明没有已知的财务利益冲突或个人关系可能影响本文所述的工作。