《International Journal of Hydrogen Energy》:Artificial intelligence-based ensemble learning for robust prediction of hydrogen in supercritical water gasification using experimental data
编辑推荐:
人工智能预测模型基于585个实验数据,评估超临界水气化(SCWG)过程中氢气产量及环境效益,随机森林(RF)模型表现最优(RMSE=1.98)。研究构建Web平台实现实时预测,并量化二氧化碳当量减少、碳封存潜力等指标。
作者:Yousaf Ayub、Md. Abdul Moktadir、Jingzheng Ren
研究机构:香港理工大学工业与系统工程系先进制造研究所,中国香港特别行政区
摘要
本文开发了一种基于人工智能的预测模型,用于估算通过超临界水气化(SCWG)工艺从污泥、木质纤维素生物质和石化废物中产生的氢气产量。该模型基于44项研究的实验数据集进行训练,这些数据集涵盖了87种不同的原料类型,共计585个实验结果。这些数据集包含了5,262个数据点,这些数据点由八个输入原料和工艺参数表征。评估了十三种机器学习模型,以确定最佳的氢气产量预测框架。其中,随机森林(RF)模型表现最为出色,均方误差(MSE)为6.44,平均绝对误差(MAE)为1.58,决定系数(R2)为0.88;LightGBM(LGB)算法排名第二,其MSE、MAE和R2分别为7.16、1.71和0.86。随后开发了一个基于Web的应用平台,可以实现氢气产量的实时预测,并能够确定三个关键的环境指标:总体二氧化碳当量减排量(SCWG与原料填埋相比)、碳封存潜力以及使用SCWG工艺产生的H?作为燃料的车辆二氧化碳排放减少量。该Web应用平台的稳健性也通过20次独立实验得到了验证,最终确认RF模型的性能,其均方根误差(RMSE)为1.98。这项研究为工业专家提供了一种实用工具,可以估算不同原料和反应器类型下的SCWG工艺氢气产量,同时提供了之前在这些预测框架中较少涉及的环境影响指标。
引言
尽管预计到2025-2030年,全球可再生能源的新增装机容量将达到4600吉瓦,相当于欧盟、中国和日本的电力总装机容量,但这种快速扩张尚未能够取代对化石燃料的广泛依赖[1]。对化石燃料的依赖继续破坏温室气体(GHG)平衡,导致严重的气候变化和广泛的环境退化。人为废物的不当管理进一步加剧了这些压力,增加了气候变化,并导致陆地、水和空气的污染[2]。主要废物类别,如生物质、石化产品、电子产品、金属、液体和污水,每种都需要特定的废物管理策略,以确保安全可持续的处置或在可能的情况下进行废物回收。研究人员已经研究了不同的热处理和生物方法来管理废物处置问题,同时满足能源需求[3,4]。然而,这些过程的技术经济和环境可持续性仍存在不确定性,因此需要不断努力开发更可持续的解决方案。因此,对非可再生能源资源的依赖以及不断增长的废物产量加剧了环境挑战,这需要创新和可持续的废物管理和能源解决方案。
超临界水气化(SCWG)是一种先进的热化学工艺,它可以在超临界水条件(温度>374°C和压力>22.1 MPa)下将高湿度有机废物(如生物质和污泥)转化为合成气[5]。该工艺通过生成主要由氢气、一氧化碳和二氧化碳组成的合成气,提供了一种可持续的废物管理和能源生产方法。然而,极端的温度和压力要求给工艺效率、安全性和经济可行性带来了重大挑战[6]。SCWG的产量高度依赖于温度、压力、停留时间等工艺参数,因此优化这些参数对于提高效率至关重要[7]。确定最佳SCWG参数的两种主要方法是实验研究和模拟建模。实验研究需要物理装置,而模拟建模则需要商业软件和计算资源,这两种方法都资源密集、耗时且需要技术专长。结合人工智能(AI)(如神经网络、机器学习(ML)等技术的综合方法,基于现有的实验数据集进行开发,提供了一种替代方案。对于工艺产量的预测,基于实验结果数据集训练的AI模型可以根据原料特性和工艺条件预测SCWG的性能,从而减少大量实验或计算建模的需求[8,9]。这种由AI驱动的方法提高了SCWG的优化能力,为可持续废物管理提供了成本效益高且时间效率高的解决方案。因此,将AI与实验研究相结合有助于提高SCWG的效率。
有许多研究应用神经网络和机器学习方法来预测热化学废物工艺中的氢气产量。Devasahayam和Albijanic(2024)采用基于树的监督学习模型对生物质和塑料废物共气化过程中的氢气产量进行预测,通过超参数调整获得了0.10–0.78的决定系数(R2)[10]。Ukwuoma等人(2024)比较了15种用于生物质气化的机器学习回归模型,R2值范围从0.002到0.996(K-最近邻算法,KNN),输入参数包括温度、橡胶籽壳、颗粒大小、HDPE颗粒大小和塑料混合物百分比[11]。Ayub等人(2023)使用基于卷积神经网络的模型对家禽粪便生物质气化进行了预测,获得了0.96的R2值,但仅限于单一原料[12]。Khandelwal等人(2025)评估了八种机器学习模型,包括ANN、随机森林(RF)、多线性回归、支持向量机(SVR)、极端梯度提升(XGB)、决策树、梯度提升回归(GBR)和高斯过程回归(GPR)用于SCWG氢气产量预测,其中GBR获得了最高的R2值0.995[13]。Zhao等人(2021)比较了RF、ANN、SVR和GPR在生物质废物SCWG中的应用,使用了八个输入参数(碳、氢、氧、灰分含量、生物质浓度、温度、压力和停留时间),RF获得了0.9782的R2值[14]。Liu等人(2022)利用实验数据集预测了煤炭通过SCWG工艺产生的气体产量,结果表明GBR是合适的模型,其R2值为0.92,均方相对误差(MRE)为17.92%[15]。Shenbagaraj等人(2021)预测了食品废物通过SCWG产生的合成气组成。在这项工作中,应用了一种基于前馈反向传播算法的人工神经网络(FFBPNN),获得了0.9942–0.9939的R2值[16]。有些研究报告的R2值接近理想值0.99,但这可能是过拟合的结果;一些模型的适用性通常仅限于特定原料类型(例如煤炭、食品废物、生物质等);还有一些研究仅限于特定的工艺配置(例如批次、连续工艺)或模型开发阶段。缺乏实时应用和实际验证引发了关于模型稳健性的担忧,特别是由于潜在的过拟合可能导致R2值接近理想值。因此,需要开发出能够在不同原料(如生物质、污泥和石化废物)下预测氢气产量的稳健AI模型,并通过全面的实验工作进行验证。
为了提高时间和成本效率,本研究开发了一种稳健的机器学习模型,以准确预测SCWG过程中的氢气产量。该模型旨在适用于不同的工艺设置和多种原料类型(如生物质、污泥和石化废物),并通过实验数据进行了验证。将通过使用多种原料和不同的工艺设置(连续、批次等)来评估模型的稳健性,以确保可靠的氢气产量预测。由于气化数据的非线性特性,选择合适的机器学习模型也具有挑战性。一些模型能够处理这种非线性特性,包括GBR、RF、ANN、KNN和XGB,这些模型已经证明了它们的有效性。GBR在处理生物质废物异构数据集方面表现出色,R2值为0.96[18]。RF具有强大的泛化能力和抗过拟合能力[14]。ANN能够捕捉复杂动态,并轻松处理塑料和橡胶废物之间的非线性复杂关系[19];KNN简单但能够准确处理生物质气化输入[11];支持向量机在数据分布不明确的情况下对有限的数据集有效[14];XGB由于其处理复杂模型的能力而表现出色[20]。因此,选择了这些机器学习模型用于预测模型开发。本研究还通过整合多种机器学习算法开发了堆叠模型,以增强SCWG中的氢气产量预测能力,利用它们的组合优势来提高准确性、稳健性和解决过拟合问题,以及处理生物质和污泥等不同原料的不确定性。
本机器学习建模的总体目标是开发一个稳健、可靠且更准确的H?预测模型,该模型纳入了环境指标,如净碳足迹减少量、相对于汽油的二氧化碳减少量以及树木封存因子,并提供了一个实用的AI预测工具,用于实时应用。研究差距的总结也在表1中给出,基于此制定了以下目标:
- •
开发稳健的机器学习和堆叠模型,以预测来自多种废物材料(包括木质纤维素生物质、石化产品和污泥)的SCWG氢气产量,确保高准确性、可靠性和实际适用性。
- •
评估环境指标,包括净碳足迹减少量、相对于汽油的二氧化碳减少量以及树木封存因子,以评估SCWG工艺的可持续性。
- •
构建一个开放访问的基于Web的平台,使用最优的AI模型进行实时氢气产量预测,以用于实际应用。
方法部分
方法论
方法论分为几个小节:第2.1节概述了研究框架,第2.2节介绍了数据收集和整理,第2.3节讨论了预测模型的开发和评估,第2.4节介绍了模型部署,第2.5节评估了环境指标,第2.6节介绍了通过Web应用程序进行的交叉验证。
结果与讨论
基于AI的H?预测模型是根据第2.3节讨论的方法论开发的,使用了补充信息S1中提供的数据集。模型开发使用Python实现,利用了补充信息S3中的代码片段中记录的库。模型性能在第3.1节通过关键绩效指标(KPI)的分析进行了评估。后续章节详细介绍了环境影响指标的评估(第3.2节)并描述了...
实际应用
这种稳健的SCWG氢气预测模型的开发对研究和工业都具有重大潜力。该模型是一种快速分析工具,使研究人员和工程师能够估算SCWG过程中的多种原料产量。该模型纳入了关键变量,包括原料类型和关键工艺参数,以生成稳健的H?估计值。其开发基于多种原料在不同操作条件下的实证数据,确保了...
结论
开发了一种基于AI的预测模型,用于预测SCWG过程中的氢气产量。使用包括MSE、MAE和R2在内的关键绩效指标(KPI)评估了十三种不同的AI模型。随机森林(RF)模型表现最佳,其MSE为6.44,MAE为1.58,R2为0.88;LightGBM排名第二,MSE为7.16,MAE为1.71,R2为0.86。结合这些最佳模型的堆叠集成模型也展示了强大的预测能力。对于最终部署,选择了RF、LGB、XGB和堆叠模型...
CRediT作者贡献声明
Yousaf Ayub:撰写 – 审稿与编辑、撰写 – 原始草稿、验证、软件开发、方法论研究、数据分析、概念化。
Md. Abdul Moktadir:撰写 – 审稿与编辑、验证、数据分析、概念化。
Jingzheng Ren:撰写 – 审稿与编辑、监督、方法论研究、资金获取、概念化。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
致谢
本文所述的工作主要得到了香港理工大学先进制造研究所(RIAM)的资助(项目编号:P0056082)。该工作还得到了香港特别行政区环境与保护基金(ECF)的资助(项目编号:P0047715,资助机构参考编号:ECF 81/2023,项目编号:K-ZB7V)以及香港特别行政区研究资助委员会的一般研究基金的资助。