《Journal of Chemical Information and Modeling》:Density Estimation Based on Mixtures of Gaussians for Perovskite Solar Cells Modeling
编辑推荐:
本综述创新性地采用高斯混合模型(Gaussian Mixture Model, GMM)这一生成式方法,突破传统判别式模型的局限,通过建模联合概率密度函数实现对钙钛矿太阳能电池(Perovskite Solar Cells, PSCs)合成参数-性能关系的多任务分析。研究在逆向设计任务中提出的"GMM辅助优化"方法,将RMSE从3.32显著降低至1.52,为材料科学领域的数据驱动发现提供了新颖且高效的解决方案。
引言
在过去的15年间,杂化钙钛矿材料因其优异的光电特性,在太阳能电池、发光二极管、激光器和X射线探测器等领域展现出巨大应用潜力。其中,钙钛矿太阳能电池(PSCs)的研究尤为活跃,目前单结电池的认证效率记录已达到27%。若能解决长期稳定性和可扩展性等关键挑战,钙钛矿太阳能电池有望成为光伏市场的重要竞争者,特别是在叠层电池构型中。
随着该领域的快速发展,应用机器学习(ML)方法建模和优化钙钛矿太阳能电池的研究兴趣日益增长。大多数研究采用判别式"黑箱"模型,试图从输入描述符X(如合成条件或元素组成)映射到期望输出Y(如带隙、器件效率或操作稳定性)。然而,本研究独辟蹊径,采用生成式方法,通过建模联合概率密度函数,为钙钛矿太阳能电池研究提供了全新的分析视角。
方法
数据来源与处理
本研究采用Perovskite Database Project(2022)提供的开放获取数据集,该数据集包含超过42,400个钙钛矿太阳能电池器件的信息,收集自同行评审的科学期刊,涵盖文章元数据、器件结构、钙钛矿组成、合成方法、合成参数和关键性能指标。
为提升数据质量,研究聚焦于使用DMF/DMSO溶剂混合物进行旋涂制备的钙钛矿电池,这是文献中报道最为充分的电池类型之一。除了钙钛矿组成(采用新引入的局部线性嵌入LLE向量表示)外,还考虑了以下连续合成变量:溶剂比例χsol.(表示为log10(DMF/DMSO))、第一退火阶段温度T1、热预算TB(定义为log10(∑ti·Ti))、电池有效面积A和钙钛矿带隙Eg。
经过严格的数据过滤(保留PCE>10%的器件,并排除含有缺失值或异常值的观测),最终获得包含5,441个观测值的数据集用于分析。
钙钛矿材料表示
为应用机器学习算法,需要将材料表示为固定长度的向量。标准钙钛矿为ABX3结构,每个位点可容纳不同离子或离子组合。研究采用ElemNet方法生成133维的稀疏向量,然后通过局部线性嵌入(LLE)降维至4个成分,不仅降低了维度,还获得了更接近正态分布的统计特性,更适合某些机器学习技术。这种低维表示有效捕捉了数据的真实结构,如MA或FA材料一致地聚集成独特的细长簇。
概率模型
高斯混合模型(GMM)是用于密度估计和聚类的参数化生成模型,特别适用于建模多峰分布。本研究中的GMM将概率密度函数表示为J个高斯分量的线性组合,通过期望最大化(EM)算法进行参数估计。该模型能够计算条件概率,这一特性在研究逆向合成建模中特别有价值。
结果
回归分析
为评估预测任务的有效性,研究采用均方根误差(RMSE)、平均绝对误差(MAE)和平均绝对百分比误差(MAPE)作为评估指标。数据集随机分为开发集(80%)和测试集(20%),在开发集上使用10折交叉验证进行训练和超参数调优。
研究采用1-标准误差(1-SE)规则选择最优组件数量,最终确定了5个正态全分布。GMM回归在测试集上表现良好(RMSE=2.52,MAE=2.05,MAPE=0.14),虽然略逊于XGBoost模型(RMSE=2.04,MAE=1.61,MAPE=0.12),但考虑到估计概率密度函数比标准回归任务更为复杂,这一结果仍然具有竞争力。特别值得注意的是,在高效率区间(PCE>17%),GMM回归在不同子集间表现出显著差异,其中一个子集的MAE和RMSE分别降至1.73和2.18,MAPE降至0.14。
簇发现
聚类分析揭示了钙钛矿太阳能电池合成过程的复杂性质。研究识别出五个主要簇,其中两个簇因对比鲜明的性能特征而尤为突出。性能最差的簇(红色)以高热预算、高带隙(Eg=1.81 eV)和高第一退火温度值(T1=139°C)为特征, consistently导致性能最差的器件。另一方面,性能次差的簇(橙色)以溶剂比χsol.的极端值为特征。最佳簇中心则以适中的热预算值、约1.56的带隙、约9.5的DMF/DMSO比例和约102°C的第一退火温度为特征。
这些发现不仅验证了GMM在发现数据隐藏结构方面的能力,还为理解合成参数与性能之间的关系提供了重要见解。
数据生成
研究评估了概率模型生成新样本的能力。良好的生成方法应保持原始数据的统计特性,因此研究比较了生成数据与原始数据的数据分布。通过使用同质性的能量距离检验,研究发现生成的数据分布与原始分布存在显著差异(p值=0.01)。
然而,GMM的关键优势在于其计算条件概率的能力,这在逆向设计中特别有用。研究以MAPbI3为例,展示了在目标PCE为14%和18%两种情况下,溶剂比和热预算变量的二维条件概率等高线图。这些条件图提供了关键见解:18%PCE的图显示,虽然适中的溶剂比是实现高性能的最可能路径,但在高DMF/DMSO比例区域存在次要但可行的区域,突出了问题的"多对一"性质。相反,14%PCE的图则作为警示,表明适中的溶剂比并不能保证成功,仍可能导致中等偏低的PCE。
逆向合成建模
研究提出了新颖的"GMM辅助优化"方法解决逆向合成设计问题。该方法将生成模型(GMM)与预测模型(XGBoost)耦合,首先使用GMM为特定案例创建合成参数的条件概率函数,从中采样三个初始猜测作为优化的种子点。
与传统的随机起始优化相比,GMM辅助优化方法表现出显著优势。GMM辅助优化的结果更紧密地遵循"完美重合"线,证明该方法能够一致地找到实现目标PCE或非常接近目标的材料配方。计算得到的RMSE值凸显了GMM辅助优化的卓越性能(1.52),与随机起始方法的3.32形成鲜明对比。
结果在13%至约17%的范围内显示出更强的一致性,但在18%以上,预测的PCE开始"饱和"并偏离目标线。这表明对于给定材料(MAPbI3),XGBoost模型已学习到无论合成条件如何,高于约18.5%的PCE在物理上是无法实现的,这并非优化器的失败,而是模型对材料物理极限的准确学习。
缺失数据建模
为评估提出的方法,研究从完整数据集开始,人为引入缺失值,使用K折交叉验证(K=5)评估不同缺失数据水平(5%、10%、15%、20%)下的MAPE指标。
研究比较了四种场景的性能:均值数据插补(GMM+均值)、中位数数据插补(GMM+中位数)、列表删除(GMM删除含有缺失项的观测)和使用ECM训练的GMM(MGMM)。结果显示,依赖列表删除的模型随着缺失率的增加性能明显下降,特别是在20%缺失数据时。通过丢弃不完整观测来减少有效样本量,显著影响了模型性能。相比之下,MGMM在所有指标和缺失率下保持相对稳定的误差水平,在较高缺失率情况下优于列表删除法。MGMM虽然没有获得最低误差,但保持了稳定性,且不依赖任意插补,可被视为现实世界中不完整数据场景的可扩展解决方案。
结论与未来工作
本研究成功证明,基于高斯混合模型(GMM)的统一概率框架是分析钙钛矿太阳能电池数据的实用且多功能工具。该框架在五个不同任务中的有效性得到验证:发现隐藏簇、执行回归、生成新候选者以及在缺失数据场景中模型学习。这证实了一个经过精心选择的单一模型可以作为实验数据集的全面、分析和多功能工具。
本研究最重要的贡献是提出了用于逆向合成设计的新颖"GMM辅助优化"方法。通过使用GMM的条件概率识别高潜力起始点,我们为局部、无导数优化器提供了智能"种子"。这项工作为加速数据驱动的高性能钙钛矿太阳能电池发现提供了一种新颖、稳健且高效的方法,并提供了一个可广泛应用于材料科学其他挑战的框架。
关于未来方向,研究提出两个关键建议。随着数据集规模的增加,生成组件应从GMM发展为深度学习方法,如表格扩散模型,以捕捉高维复杂性并生成种子候选。其次,从优化角度,用可微分代理模型(如神经网络)替代基于树的前向预测器(XGBoost)将更为有利,这将使得计算梯度(一阶和二阶导数)成为可能,进一步加速收敛并提高准确性。