《Advanced Intelligent Discovery》:Data-Guided Photocatalysis: Supervised Machine Learning in Water Splitting and CO2 Conversion
编辑推荐:
这篇综述系统总结了监督机器学习在光催化领域的革命性应用,为水分解和二氧化碳还原等可持续太阳燃料生产提供了数据驱动的材料设计新范式。文章批判性地概述了常用ML技术(如ANN、SVM、RF),并聚焦于如何利用ML优化光催化剂性能(如光吸收、载流子动力学)和指导新材料开发。
引言
模仿自然光合作用,将太阳能转化为可储存和运输的化学燃料(即“太阳燃料”),是应对日益增长的能源需求和化石燃料依赖所导致的环境恶化的有前景策略。化学燃料因其极高的比能量(例如甲烷约为55 MJ kg?1,远高于现代电池的不足1 MJ kg?1)而备受关注。通过光催化系统将水、二氧化碳、氮气和阳光等丰富可持续资源转化为氢气(H2)和高能量密度碳基产品(如甲醇、一氧化碳、甲烷)的研究日益广泛。
传统的光催化剂开发高度依赖基于经验和试错的实验,这种方法既费力又低效,难以系统探索广阔的化学和结构空间。尽管密度泛函理论(DFT)等第一性原理方法为催化剂设计做出了贡献,但其自身也存在计算强度大、建模尺度受限等固有局限。在此背景下,机器学习(ML)作为一种变革性工具应运而生,它能够从材料科学快速增长的数据中揭示传统方法难以获取的复杂结构-性能关系,从而加速高性能、高耐久性光催化剂的筛选和理性设计。
在光催化研究中,ML的应用在过去五年内快速增长,相关出版物和引用量激增。鉴于这一领域的快速发展,本篇综述旨在填补空白,对应用于太阳驱动水分解和二氧化碳还原光催化剂设计的先进监督机器学习方法进行系统的批判性评估。
ML技术与工作流程
数据集准备与预处理
构建稳健的ML模型始于高质量的数据集。光催化研究的数据通常包括材料原始性质(如晶体结构、元素组成、表面积)、理论计算(如DFT)和实验条件。理想的模型应基于实验数据训练,以捕捉真实世界的材料特性。然而,材料合成的高成本和实验的耗时性常常导致数据稀缺。为此,特征工程成为一种常用策略,例如从DFT或时变DFT(TD-DFT)计算中提取描述符。
当数据集规模有限时,可以通过迁移学习进行数据增强,例如通过为每个分子生成多个随机化表示来扩展小型化学数据集。从现有出版物中手动提取数据也是一种方法,但需要耗费大量人力来验证特征兼容性。更可持续的策略是建立和维护社区驱动的开源数据库和工具包,例如包含超过20万种材料条目的Materials Project,以及用于催化剂设计的Open Catalyst Dataset (OC20/OC22)。
特征数量并非越多越好,过多的特征会增加模型复杂度和过拟合风险。特征选择方法(如过滤法、包装法和嵌入法)有助于创建精炼的特征空间。在光催化ML研究中,嵌入法(如LASSO、岭回归)以及树状模型(如决策树、随机森林)和梯度提升方法(如XGBoost、LightGBM)因其能直接在模型中进行特征选择而被广泛应用。此外,主成分分析(PCA)和均匀流形近似与投影(UMAP)等降维技术也可用于管理高维特征空间。
数据预处理同样关键,它涉及对来自不同源的数据进行归一化、标准化和编码,以确保ML算法能够有效处理。例如,将分类变量(如材料类型)通过独热编码转换为数值表示,或使用分子指纹技术将化合物转换为比特串。这些步骤有助于消除数据冗余和噪声,但需注意在典型的小型实验数据集中,过度处理可能丢失关键信息。
ML模型选择与优化
ML模型的选择取决于具体的任务、数据集以及可解释性与性能之间的权衡。
简单线性模型(如线性回归)因其高可解释性常被用作基准模型,但其预测能力有限且容易出现过拟合。正则化线性模型(如LASSO、岭回归)通过惩罚项收缩特征权重来缓解过拟合。
支持向量机(SVM)通过核技巧将数据投影到高维空间,能处理非线性可分问题,适用于高维特征数据集,但也存在对小型或噪声数据过拟合的风险。
树状算法(如决策树)及其集成方法(如随机森林RF、梯度提升树GB)在光催化研究中被广泛用于解决非线性问题。随机森林通过整合多个决策树的预测来提升性能并减少异常值影响,但可解释性有所降低。梯度提升树(如GB-DT)在预测芳香族有机分子的析氢反应(HER)活性方面表现出色。
神经网络(NN)及其衍生的深度学习模型位于复杂度的顶端,能够通过调整隐藏层架构来捕捉深层模式。例如,混合晶体图卷积神经网络(CGCNN)结合分子指纹和人工神经网络(ANN)被用于预测金属-氧化物-半导体催化剂的光催化降解速率。然而,神经网络常被视为“黑箱”模型,其决策过程难以追溯。
其他常用模型还包括K近邻(KNN)、高斯过程(GP)模型等。选择合适的模型需综合考虑数据特征、计算资源和具体任务,而非仅仅依据流行度。
一个标准的ML管道通常从数据准备开始,包括定义输入特征和目标变量,并将数据集分割为训练集和测试集。正确的分割对于确保模型泛化到未见过的数据至关重要,需要避免数据泄露。常见的分割比例有80:20、70:30等。对于不平衡数据集,可以使用合成少数类过采样技术(SMOTE)等方法进行平衡。
模型优化涉及超参数调优,常用方法包括网格搜索和随机搜索。
为避免过拟合,通常使用交叉验证(CV)在训练集内评估不同超参数组合的性能。
模型评估与可解释性
模型评估指标因任务类型而异。对于分类问题,常用准确率、F分数、AUC-ROC曲线下面积和马修斯相关系数(MCC)等指标。对于回归问题,则常用均方根误差(RMSE)、平均绝对误差(MAE)和决定系数(R2)来衡量预测值与实际值的偏差以及模型解释方差的比例。
在光催化研究中,随机森林、梯度提升、支持向量机和神经网络等模型在处理复杂非线性关系方面往往表现优异。为了深入理解这些“黑箱”模型的决策依据,可解释人工智能(XAI)技术,如局部可解释模型无关解释(LIME)和SHapley加性解释(SHAP),被用来分析特征的重要性和模型预测背后的原理。这些方法不依赖于模型内部机制,仅需模型的输入和输出,有助于评估模型行为、检测偏差并发现潜在盲点。
ML在光催化性质优化中的应用
光吸收性质
光催化剂的光吸收特性决定了其最大可实现的太阳能转换效率。由于紫外光仅占太阳光谱的5%,而可见光约占50%,开发具有扩展可见光吸收的光催化剂对于优化太阳能利用至关重要。电子能带结构(即导带CB和价带VB的位置)不仅决定了入射光子的吸收,还支配着电荷载流子产生的热力学驱动力。
研究人员已应用监督ML技术预测材料的光学带隙。例如,利用核岭回归(KRR)和人工神经网络(ANN)模型,基于氧化锌量子点的制备时间和温度等实验特征,成功预测了其带隙。在金属有机框架(MOFs)领域,一种新型的基于回归树的主动学习算法(RT-AL)被开发出来,用于预测MOFs的带隙和吸附特性。
对于二维范德华(vdW)异质结,研究者开发了vdW耦合卷积神经网络(VCCNN),该模型使用专为双层异质材料设计的描述符,并利用CNN建模异质结构内的层间相互作用,以直接预测各种二维异质结构的CB、VB和功函数。
通过筛选超过99,681个异质结构的数据集,该模型识别出约800个有潜力的II型vdW异质结候选材料,其中两种(WS2/Rh2Br6和 Al2S2/PtS2)经DFT确认具有合适的带边排列和优异的光吸收性能。
此外,也有研究尝试绕过紫外-可见吸收光谱,直接利用高通量仪器编译的大型材料数据集,通过变分自编码器(VAE)结合卷积神经网络和深度神经网络,直接从材料图像预测紫外-可见吸收光谱和带隙值。另一种方法是利用称为变换原子向量(TAV)的低维描述符来准确预测小规模但多样化数据集中的HSE带隙。在MOFs筛选方面,研究者利用量子MOF数据库,训练晶体图卷积神经网络预测超过2万种MOFs的带隙,并结合稳定性、孔径、电子和光学特性等标准,最终筛选出14种具有可见光驱动水分解潜力的MOFs。
电荷载流子动力学
光催化剂内部的电荷传输动力学对于其性能至关重要。有效的电荷分离是提高效率的主要挑战之一,因为光生电子和空穴之间的强库仑吸引力阻碍了自由载流子的形成,而且电荷复合的速度远快于表面发生的电荷传输和氧化还原反应。
范德华异质结通过垂直堆叠两种不同的二维材料,能提供有效的载流子分离。研究者应用支持向量机算法,基于267个DFT标记的双层数据,预测了1500个双层vdW异质结的层间距离,实现了0.83的优异R2分数,并将计算速度提升了近四个数量级。另一项研究基于成分特征和化学硬度构建了ML模型,用于筛选二维八面体材料(2DO)。通过SHAP分析发现,模型识别出的高稳定性2DO材料符合硬软酸碱(HSAB)原理,最终筛选出21种有潜力的2DO材料用于整体光催化水分解。
通过掺杂改变电子结构是增强半导体中电荷载流子迁移率的另一种有效策略。ML模型已被应用于调控金属氧化物中的掺杂以改善光电催化水分解性能。例如,对掺杂了17种不同元素的Fe2O3进行研究,发现Zr和Pt掺杂能提升其电荷分离与转移性能,但过高掺杂浓度会产生负面影响。SHAP分析指出,化学状态、离子半径和金属-氧(M—O)键形成焓是影响电荷分离与转移性能的最关键因素。这些从ML中推导出的掺杂剂选择准则也成功应用于CuO基光电极,验证了模型的普适性。另一项研究利用实时含时密度泛函理论(rt-TDDFT)在轨道层面评估了N掺杂ZnIn2S4中的载流子分离,证实N掺杂延长了载流子寿命并提高了分离效率。
ML在光催化水分解中的应用
光催化水分解是将太阳能转化为氢能的可持续途径。要驱动全解水反应,半导体必须能吸收能量超过其带隙的光子,并且其导带底需比H+/H2还原电位更负,价带顶需比H2O/O2氧化电位更正。
理解水分子在光催化剂表面的解离过程对于理性设计高效材料至关重要。研究者利用ML辅助的分子动力学模拟,通过深度神经网络模型预测原子能量,将模拟时间从纯DFT的40皮秒延长至2.5纳秒,从而深入揭示了水在原始锐钛矿{101}表面的主导吸附机制、界面质子转移动力学和羟基物种寿命。
早期研究尝试从文献中收集数据来建立光催化活性与材料特征间的关联,但往往因测试条件不一致而面临挑战。后续研究通过引入活性光子通量作为统一特征,结合助催化剂功函数、负载量、醇类类型和浓度等关键参数,成功构建了能稳健预测TiO2基材料析氢(HER)速率的模型,预测误差大幅降低,并通过贝叶斯优化指导实验,验证了模型的准确性。
ABO3型钙钛矿氧化物因其结构可调性和稳定性成为有前途的光催化剂,但其宽带隙限制了可见光利用。研究者开发了梯度提升回归和神经网络模型,用于预测未知钙钛矿的带隙和HER速率,并从超过3万种未知钙钛矿中筛选出14种带隙合适(2.2–2.4 eV)且具有高制氢潜力的氧化物候选材料。
共轭聚合物也是一类备受关注的光催化剂。研究者应用梯度提升回归模型筛选了6354种共轭共聚物,用于预测其析氢潜力。模型分析表明,高效光催化剂通常具有高电子亲和能、高电离势、较宽带隙以及在溶剂环境中良好的分散性等特性组合。
另一项研究则通过结合多维碎片描述符和梯度提升回归树模型,成功预测了有机共轭聚合物的HER性能,并借此发现了一种具有优异光催化活性的新型共聚物。
对于给体-受体异质结体系,研究者结合支持向量机和高通量实验,加速了三元有机异质结光催化剂(TOHP)的发现,从4320种可能组合中实验测试了736种,最终鉴定出十种性能优异的TOHP,其HER速率在模拟太阳光下超过500 mmol g?1h?1。
石墨相氮化碳(g-C3N4)是一种经济环保的光催化剂。研究者构建了一个ML框架,将掺杂g-C3N4的实验变量与HER速率联系起来。他们从文献中收集了767个数据条目,使用CatBoost和XGBoost等树状算法进行建模。模型不仅能够合理预测HER速率,还能量化各种合成条件、材料性质和反应参数对性能的影响。
结论与展望
监督机器学习正在深刻改变光催化剂的研究与开发范式。通过从高通量计算和实验数据中学习复杂的结构-性能关系,ML模型能够以前所未有的速度和精度预测材料特性(如带隙、载流子动力学)和催化性能(如水分解和CO2还原活性)。从基于描述符的回归模型到复杂的图神经网络,各种ML算法已被成功应用于筛选候选材料、优化合成条件并揭示潜在的作用机制。
然而,该领域仍面临诸多挑战。高质量、标准化的数据集仍然稀缺,数据的不一致性和异质性阻碍了通用模型的构建。ML模型,特别是深度神经网络,常被视为“黑箱”,其预测的物理化学机理不够透明,需要通过可解释人工智能(XAI)方法加强理解。此外,将ML预测可靠地转化为实际可合成、高性能的材料,仍需紧密的实验验证和迭代优化。
未来,随着更多高质量数据集的积累、算法可解释性的提升以及ML与自动化实验、机器人合成平台的深度融合,数据引导的光催化研究有望实现从材料发现到性能优化的全链条加速,为可持续能源转换提供更强大的解决方案。