《Chinese Journal of Chemical Engineering》:An interpretable ensemble learning framework based on Bayesian optimization for the optimal design of ammonia decomposition catalysts
编辑推荐:
绿色氨作为高效氢载体,其分解催化剂设计需突破高温、高能耗瓶颈。本研究构建包含催化剂本征特性、制备参数及反应条件的数据库,集成六种机器学习模型并利用贝叶斯优化自动调参,CatBoost模型测试R2达0.9188。通过Shapley值解释发现反应条件(温度、空速)贡献48.14%,催化剂特性贡献33.79%。结合参考向量引导的进化算法优化,开发出三组新型催化剂,氢时空产率提升显著,外推验证误差<5.06%。
赵 王 | 关 敏松 | 胡 俊 | 郭 秦文 | 张 大伟 | 杨 清春
合肥工业大学化学与化学工程学院,中国合肥 230009
摘要
绿色氨作为一种可行的氢载体,具有高能量密度、成熟的基础设施和成本效益。然而,氢的生产过程依赖于高效的催化剂。本研究旨在通过开发一种基于贝叶斯优化的可解释集成学习框架,来克服催化剂设计中的实验限制,以实现氨分解催化剂的多目标优化。构建了一个包含催化剂内在属性、制备参数和氨分解反应条件的数据集,以开发六种不同的集成学习模型。这些模型的超参数使用基于贝叶斯优化的Optuna方法自动且最优地配置。结果表明,这种超参数自动优化策略是有效的,因为六个模型的平均R2值相比优化前提高了0.086。特别是CatBoost模型表现最佳,其测试R2值超过0.9188。Shapley加性解释揭示了反应条件(贡献率为48.14%,其中温度和空间速度起主导作用)和催化剂内在特性(33.79%)对性能的调节机制。进一步进行的部分依赖性图分析阐明了这些关键参数对催化性能的影响。将最优模型与参考向量引导的进化算法结合使用,以在最大化氨分解催化剂时空产量的同时,最小化总金属含量。三种新优化的催化剂表现出更优越的性能,与现有催化剂相比,提供了更好的效率-成本平衡。使用未见数据的外部验证进一步证实了模型的稳健性,预测误差小于5.06%。
引言
全球气候变化和对能源需求的增加显著加速了对可再生能源的需求。作为一种环保且可持续的资源,绿色氢引起了全球的广泛关注。然而,由于其较低的体积能量密度和高风险,开发高效且便捷的运输载体仍然至关重要,这成为其大规模工业应用的主要瓶颈[1]。在这种情况下,在现场进行氨分解已成为解决氢储存和运输挑战的一个有前景的解决方案,对能源转型和环境可持续性具有重要意义[2]。
氨(NH?)含有高达17.6%的氢,是一种高效的氢载体。它具有多个优势,包括高能量密度、易于储存和运输、现有的基础设施以及碳中和潜力[3]。此外,从源头到储罐的氨成本(相当于每加仑汽油4.50美元)在可比燃料中最低,大约比甲醇低18%,比氢低约31%[4]。随着可再生能源发展的势头不断加强,这种解决方案的可行性变得越来越明显[5]。特别是“绿色氨”的概念吸引了大量关注,进一步突显了基于氨的氢运输在可持续能源未来的潜力[6]。
然而,尽管兴趣日益增长,现有研究深度与通过氨分解进行现场氢生产的实际应用之间仍存在显著差距[7]。首先,目前的氨分解反应需要在超过700°C的温度下进行才能实现完全转化。这是因为N-H键的断裂和氮的脱附活化能相对较高。尽管在400°C以上氨分解为氢在热力学上是有利的,但反应动力学仍然缓慢[8]。如此高的温度会降低现场氢生产的能源效率,并使其更加危险。其次,由于分解反应是吸热的,还需要大量的能量输入来维持反应条件[9]。因此,鉴于液态或固态氨的储存技术已经成熟,大规模利用氨作为氢载体的关键策略在于设计和制造高效的氨分解催化剂,以降低反应温度、提高氢生产效率并减少能源成本。
为了解决这些问题,一些研究人员从尺寸效应、碱度调整、金属与载体之间的相互作用以及合金效应的角度,基于实验方法和工具提出了氨分解的规划和优化设计[6]、[10]、[11]。这些实验方法为理解潜在机制提供了宝贵的见解,并在识别影响氨分解效率的关键因素方面被证明是有效的。然而,尽管取得了成功,但这些方法在可扩展性、高成本以及无法完全捕捉氨分解过程中涉及的多个变量之间的复杂非线性相互作用方面存在明显局限性[12]。此外,实验方法通常需要大量时间和资源来优化各种参数,使其不太适合快速和大规模的应用[13]。此外,催化剂的性能评估涉及多个方面。仅依赖实验方法很难同时优化它们,经常导致陷入局部最优解[14]。
为了克服这些挑战,越来越需要更先进的方法,如机器学习(ML)技术,这些技术在优化复杂过程方面显示出巨大潜力[15]、[16]。通过利用ML模型,研究人员可以分析大型数据集,识别隐藏的模式,并更有效地预测最佳操作条件[17]。机器学习能够处理大量的变量及其相互作用,从而开发出更准确、实时的优化策略,加速氨分解过程[18]。这种向数据驱动方法的转变代表了朝着改进基于氨的氢载体的可扩展性和效率迈出的关键一步。例如,Zahrt等人[17]利用机器学习成功实现了高度准确的对映选择性预测,并认为预测选择性催化剂的能力可能会彻底改变化学家选择和微调手性催化剂的方式,将方法从基于经验的方法转变为基于数学模型的方法。郭等人[19]开发了多个机器学习预测系统用于催化剂性能预测。通过三阶段建模比较,发现梯度提升回归模型(一种集成学习模型)在测试集上的表现最佳。同样,在分析和比较核学习算法、神经网络算法和集成学习算法对生物质热解催化剂性能的预测时,陈等人发现集成学习模型表现出最高的预测准确性[20]。在超临界水气化和光催化污染物降解过程中也观察到了类似的趋势,其中集成模型表现出最佳的预测性能[21]、[22]。
这些研究突显了集成学习在催化剂预测中的适用性和优越性。然而,它们尚未充分探索各种集成学习算法的细微差别及其在不同催化系统中的相对性能。此外,最佳模型的选择通常基于相对较小的特定数据集或某些催化系统,这可能无法很好地推广到其他复杂的催化过程,如氨分解。此外,各种集成学习模型的预测性能受其超参数配置的严重影响。然而,传统的超参数优化技术,如网格搜索和随机搜索,往往耗时且计算成本高昂,特别是应用于涉及大量变量的复杂催化系统时[23]。此外,这些方法并不总是能保证找到最优参数集,因为它们可能无法有效探索庞大的搜索空间[24]。鉴于这些传统方法的计算成本和潜在的低效率,越来越需要自动化的超参数调整策略。例如,贝叶斯优化通过使用概率模型指导搜索过程并自适应地关注超参数空间中最有希望的区域,提供了一种更有效的方法[25]。这种方法不仅减少了计算负担,还提高了找到最优模型参数的可能性[26]。此外,集成学习模型的一个重大挑战是缺乏可解释性[27]。虽然这些模型通常提供高预测准确性,但它们是以“黑箱”方式实现的,这使得难以理解其预测背后的原因[24]。在催化剂优化等科学应用中,理解模型预测背后的理由对于做出关于实验设计和优化的明智决策至关重要[14]。因此,将可解释性和自动化的超参数优化纳入集成学习算法中,对于提供更可靠和透明的催化剂优化方法至关重要,特别是在氨分解等复杂催化过程中。
为了解决这些问题,本研究旨在提出一种基于贝叶斯优化的可解释集成学习框架,用于氨分解催化剂的多目标优化设计。本研究的主要贡献包括:(a) 开发一种可解释的集成学习框架,结合贝叶斯优化技术,有效地搜索超参数空间并优化模型性能;(b) 评估各种集成学习算法的预测准确性、泛化能力和可解释性,以确定最有效的氨分解过程模型;(c) 应用可解释性方法来阐明模型的决策过程,量化输入特征的贡献和相互作用机制,从而增强对驱动催化剂性能的关键特征的理解;(d) 将首选的集成学习模型与多目标优化算法结合使用,通过平衡氢生产能力与成本考虑来优化和预测氨分解催化剂。通过结合贝叶斯优化的力量和可解释的集成模型,这项研究不仅将提高预测准确性,还将确保从模型中获得的见解具有可操作性和科学价值,适用于实际应用。
部分摘录
材料与方法
提出了一种基于贝叶斯优化的可解释集成学习框架,用于氨分解催化剂的多目标优化设计,如图1所示。首先,构建了一个氨分解催化剂的数据集,用于建模和优化催化剂性能。该数据集包括催化剂的内在参数、制备条件、反应条件以及氨分解催化剂的目标。
已建立的氨分解数据集的可视化与分析
箱形图直观地展示了每个特征参数的分布密度和异常值的特征。此外,通过四分位数范围和异常值分布,揭示了不同类别之间的统计显著分布差异,为后续的特征相关性分析提供了重要基础。因此,箱形图用于可视化已建立的氨分解数据集中的连续变量分布,
结论
本研究开发了一种基于贝叶斯优化的可解释集成学习框架,推进了氨分解催化剂的设计。该框架集成了六种集成学习算法,有效避免了单一模型的局限性。通过基于Optuna的自动化超参数优化策略,所有模型都表现出渐进式收敛,相应的损失函数值显著降低。特别是CatBoost模型,
CRediT作者贡献声明
赵 王:撰写——原始草稿、可视化、方法论、研究、数据管理。胡 俊:可视化、验证、数据管理。关 敏松:可视化、资源管理、研究、数据管理。杨 清春:撰写——审稿与编辑、监督、方法论、概念化。张 大伟:撰写——审稿与编辑、项目管理、形式分析。郭 秦文:撰写——原始草稿、验证
利益声明
? 作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
致谢
作者感谢安徽省自然科学基金(2508085MB029)、国家自然科学基金(22108052)以及合肥高端化学品和前沿新材料技术创新中心(HCHC202309)的财政支持。