《International Journal of Hydrogen Energy》:Exploring compositional-only descriptors in machine learning screening of hydrogen evolution reaction catalysts
编辑推荐:
氢能进化反应(HER)的催化剂筛选可通过元素组成特征构建高效机器学习模型实现,研究验证了价电子数、原子半径等基础化学参数的预测效力,并指出结合结构参数可提升精度。
Ibnu Jihad|M. Qamar|Fahhad H. Alharbi|Zain H. Yamani
沙特阿拉伯东部省达兰市法赫德国王石油与矿业大学物理系,邮编31261
摘要 氢演化反应(HER)在清洁能源转换中起着核心作用,因为它能够利用可再生能源生产绿色氢气。然而,从广泛的组成和结构参数中识别出特别合适的电催化剂受到计算资源的限制,尤其是通过密度泛函理论(DFT)计算吉布斯自由能。机器学习(ML)为识别最佳电催化剂提供了更快的途径。虽然大多数ML模型依赖于大量的描述符集或复杂的图网络,但在这里我们证明了仅使用少数元素组成描述符就足以捕捉氢吸附的关键物理过程,而氢吸附是HER的主要步骤。我们筛选了一个包含数十万个条目的数据集,严格排除了结构变化,以确保观察到的趋势仅由元素组成决定。各种回归算法表明,仅使用少数特征就能获得与具有更大特征空间的算法相当高的准确性。本文探讨了特征的重要性,并确定这些仅基于组成的特征包括价电子和库仑描述符。此外,对外部数据集的测试证实了这种方法的稳健性。尽管这些仅基于组成的描述符提供了可解释和通用的基础,但结合结构描述符对于提高ML模型的预测能力仍然至关重要。
引言 在能源转换和存储领域,通过水电解生产氢气已成为大规模应用的一个有吸引力和前景广阔的选择[1]。在电解过程中,氢演化反应(HER)是需要提高效率的催化过程之一[2]。为了寻找高效且经济的电催化剂,人们探索了一种理论预测方法,该方法利用HER催化剂活性与其热力学量——氢的吸附吉布斯自由能(Δ G H )之间的关系[3]。催化剂表面不同吸附位点的这一Δ G H 值可以使用密度泛函(DFT)方法计算[3]。然而,其高昂的计算成本限制了其在广泛材料空间中的预测应用[4]。在这种情况下,数据驱动的机器学习(ML)方法可以在加速催化剂发现方面发挥关键作用[5]。
在ML预测Δ G H 时,选择合适的描述符是一个核心问题。通常的做法是使用包含组成和结构信息的大型多维描述符集来实现高精度预测;然而,这样的模型往往可解释性或泛化能力有限。更重要的是,到目前为止,我们尚未系统评估仅元素组成 的作用——这种信息获取成本低且不需要额外的DFT计算——对HER性能的影响。此外,识别出最重要的元素描述符可以为催化剂设计提供物理指导,并使得ML模型更加直接、可解释和可迁移。
已有报道指出,ML可用于预测氢吸附能量和筛选HER催化剂,如表1所示。最近,Chanussot等人[11]和Tran等人[8]使用大型DFT数据集(OC20、OC22)开发了大规模图神经网络。尽管这种方法表现优异,但由于基于图的方法,在模型训练过程中计算要求较高且可解释性较差。其他研究,如Zhang等人[9]、Zhang等人[12]和Lee等人[10],虽然开发了基于描述符的相当准确的模型,但使用了大量(20到30个)结构和电子描述符,导致可解释性较弱。还有其他研究,如Wang等人[6]和Abed等人[7],通过结合数十个元素、结构和吸附衍生描述符来提高准确性,但这需要大量的输入数据。
Zheng等人[13]证明,元素描述符(原子半径、共价半径和离子半径;原子质量、电负性、第一电离能、最外层d电子数、族数)与DFT计算的结构描述符(晶格参数、d带中心、d轨道电子、Bader电荷、键长和摩尔比)相结合,可以对MXenes材料类产生合理的预测性能,尽管这种性能仅限于该材料类别。此外,Zhang等人[9]为金属合金家族开发了一个使用超过20个结构和电子描述符的ML模型。然而,该模型在非合金化学空间中的泛化能力有限,且由于描述符数量众多,也存在可解释性问题。基于这些报告,我们发现元素描述符的贡献可以作为一种有效且可迁移的预测方法,但需要进一步研究以确定哪些描述符最具影响力。
为了填补这一空白,我们基于物理指导的ML框架[14]确定了五个最具影响力的组成描述符用于预测氢吸附能量,并利用相关性分析进行了特征降维。在这里,我们提出:平均价电子数、平均原子序数、平均原子半径和平均最大氧化态作为最重要的仅基于组成的描述符。预测因子的选择基于统计相关性和物理指导原则。具体来说,库仑相互作用通过原子电荷和原子间距离控制氢的结合强度,这些因素体现在原子序数、氧化态和半径中。同时,价电子的作用——特别是s 和d 轨道——对催化活性至关重要,这一点得到了过渡金属催化的d 带理论的支持[15]、[16]。通过将特征空间限制在这些物理上有意义的描述符上,我们在保持跨不同化学和数据集的通用性的同时,分离出了元素层面的贡献。
方法论 在本节中,我们将讨论ML模型中使用的目标属性、ML性能指标、数据集筛选过程和特征选择程序。在本工作中,“描述符”一词指的是用于开发ML模型的有意义的物理量,而“特征”一词指的是输入到ML模型的任何数值,无论其具体含义如何。
回归模型 在本研究中,使用重采样方法评估了机器学习模型的性能。数据集被分为734行用于训练和验证,另外100行用于独立测试。在验证阶段,应用了5折交叉验证程序。为了减少特定测试集选择的偏差,该过程重复了900次,每次分割和测试迭代时都会随机打乱数据行。在每次运行中,使用了MATLAB [22]
结论 本研究开发了一个基于物理指导的机器学习框架,用于识别五个仅基于组成的描述符来预测氢吸附能量:平均价电子数、平均原子序数、平均原子半径和平均最大氧化态。尽管特征集较少,这些模型在测试集上仍能实现高精度,RMSE = 0.115 eV,MAE = 0.083 eV,R 2 = 0.908。经过充分的重排和迭代后,模型性能得到了提升。
CRediT作者贡献声明 Ibnu Jihad: 撰写——原始草稿,撰写——审阅与编辑,验证,软件开发,方法论研究,数据分析,概念化。M. Qamar: 撰写——审阅与编辑,监督,概念化。Fahhad H. Alharbi: 撰写——审阅与编辑,验证,方法论研究,数据分析,概念化。Zain H. Yamani: 撰写——审阅与编辑,验证,方法论研究,数据分析,概念化。
利益冲突声明 作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
致谢 作者感谢可再生能源技术孵化器(RETI)提供的研究支持,该孵化器由沙特阿拉伯国家工业发展与物流计划(NIDLP)资助,通过法赫德国王石油与矿业大学(KFUPM)的跨学科可再生能源与电力系统研究中心(IRC-REPS)实施,项目编号为CREP2522。本研究中描述的DFT计算使用了Mahameru高性能计算资源。