目前,电化学氮还原(eNRR)被认为是合成氨的绿色途径,可作为高温高压哈伯-博施工艺的替代方案。[1], [2], [3], [4] 然而,由于氢 evolution 反应(HERs)导致的低法拉第效率、高过电位以及氨产率不足,传统电催化剂仍存在局限性。[5], [6], [7], [8] 因此,设计或制备具有高稳定性和高效性的NRR催化剂非常必要。近年来,通过将单过渡金属(TM)原子固定在合适载体上的单原子催化剂(SACs)成为一类具有优异催化性能的新型催化剂。这得益于其丰富的未饱和配体活化中心,从而实现了高原子利用率和高催化效率。因此,SACs的催化活性引起了广泛关注。[9], [10] 由于金属原子与表面之间的复杂关系,精确构建具有优异活性和选择性强的SACs仍是一项挑战。
现代物理和化学理论的进步,特别是密度泛函理论(DFT)在算法、泛化和伪势迭代优化方面的突破,使得第一性原理计算达到了准实验精度,为材料逆向设计提供了前所未有的洞察。[10], [11], [12], [13] 基于此,基于多层级和多目标标准的筛选框架通过并行工作流程和自动化数据管道显著缩短了从结构设计到性能评估的周期。[14], [15], [16], [17] 这已成为构建催化材料数据库和发现高性能候选系统的核心工具。[18], [19], [20] 然而,“数据丰富但信息匮乏”的困境导致关键活性描述符被掩盖,使得基于大量计算数据提取影响催化剂效率的关键因素变得困难。
随着可解释机器学习(IML)框架的成熟,研究范式正从“黑箱预测”转向“物理感知”的因果推断。通过可微分符号回归、Shapley加性解释(SHAP)和对抗性解释网络(AXN)等策略,研究人员能够在非线性、高维特征空间中量化催化活性的来源,并建立了电子结构、表面配置和宏观属性之间的确定性映射。[21], [22], [23], [24], [25], [26] SHAP已成为解释催化和化学工程中复杂“黑箱”模型的关键工具,提供了一致且直观的特征归因。其在揭示金属表面吸附能的关键物理描述符和解析氨合成中的非线性复杂关系方面发挥了重要作用。[27], [28] 然而,现有的IML模型仍面临三个悖论:(i)模型复杂性与可解释性之间的负相关,导致最优预测因子往往难以提供物理上一致的解释;(ii)正负样本不平衡导致决策边界偏移,削弱了对罕见“高活性”区域的合理推断;(iii)描述符的多个协变量放大了特征归因。[29], [30], [31] 为此,最近的研究将极端梯度提升(XGBoost)和轻量级梯度提升机(LightGBM)嵌入到嵌套交叉验证和成本敏感学习的集成框架中,利用基于Focal Loss的加权目标函数和SMOTE-Tomek混合采样方法,在高度不平衡的数据集(即合格和不合格催化剂)上显著提高了AUPRC和几何平均召回率(GMR),在极端不平衡的数据集(即合格和不合格催化剂)上也取得了显著提升。同时,通过将SHAP交互值分解与符号回归相结合,实现了从模型到方程的“白箱”飞跃。[32], [33] 然而,如何在模型压缩、因果约束和不确定性量化之间实现帕累托最优仍是在可解释催化数据科学中的核心难题。因此,开发具有物理一致性、统计稳健性和计算可扩展性的IML流程,以从筛选结果中提取迁移构象-效率-机制(CEM)解释,成为克服“黑箱”限制、实现数据驱动的催化剂逆向设计的关键任务。
在本研究中,我们采用可解释机器学习辅助的方法,从基于砷烯的非金属配位环境(TM@As3-nXn-Arsenene,TM = V, Cr, Mn, Fe, Co, Ni, X = C, N, P, S)的单过渡金属原子催化剂中筛选和预测了NRR电催化剂。通过“四步”筛选方法,从204种候选催化剂中选出了31种有潜力的催化剂。基于SHAP分析的IML模型确定了两个关键特征。进一步的电子结构分析揭示了NRR催化效率背后的关键机制。最终,筛选出7种极限电位低于-0.4 V的催化剂,并验证了第5和第6周期过渡金属催化剂的催化效果,确定了第VIII族(Fe、Ru和Os)中的最优催化剂。