钙钛矿太阳能电池(PSC)作为一种变革性的光伏技术已经崭露头角,单结电池的功率转换效率(PCE)达到了27.0%,全钙钛矿串联配置的效率甚至超过了30%[1]。尽管取得了这些显著成就,并且在基于机器学习的性能预测方面也取得了最新进展,但操作稳定性仍然是实现商业化的主要障碍[3]。传统的加速老化测试需要数月的监测,消耗大量材料,并且提供的机制洞察有限。由于组成、架构和制造协议的组合空间庞大,进行彻底的实验筛选是不切实际的。
机器学习已被广泛用于加速材料发现和工艺优化。最近的研究成功地利用神经网络和SHAP分析来优化特定的钙钛矿组成,例如基于Rb的系统,以提高光伏性能[4],[5]。然而,大多数数据驱动的研究主要集中在功率转换效率(PCE)上。由于缺乏标准化指标和历史数据集的异质性,预测长期稳定性仍然具有挑战性。
几个关键挑战阻碍了准确的稳定性预测:(1)数据质量不一致,实验室间存在显著差异以及测试条件不统一[6];(2)传统的T??指标受到烧录现象的影响,无法准确反映真实的退化过程[7];(3)缺乏环境应力标准化,无法有效整合不同条件下的稳定性数据;(4)模型可解释性分析不足,难以识别关键的稳定性决定因素并指导实验设计[8];(5)没有充分考虑设备结构差异,p-i-n和n-i-p结构之间的物理机制差异导致统一的建模性能较差。
机器学习为稳定性预测提供了高效的替代方案[9],使得无需进行大规模的实验就能快速进行计算筛选。早期的研究主要集中在传统的算法上,如支持向量机(SVM)、随机森林(RF)和决策树[10],[11]。随着研究的进展,梯度提升决策树(GBDT)的变体在处理复杂非线性关系方面表现出了更强的能力,包括极端梯度提升(XGBoost)[12]和轻量级梯度提升机(LightGBM)[13]。最近的应用包括使用XGBoost筛选功能性小分子[14]和利用LightGBM回归预测热力学相稳定性[15]。分类提升(CatBoost)特别有效,因为它具有处理分类特征的能力并且抗过拟合[16]。
一个关键的进步是开发了复杂的特征工程策略,结合了环境因素、材料属性(包括离子迁移[17])和制造工艺参数[18]。然而,大多数研究缺乏系统的特征重要性分析和机制解释[8]。可解释性挑战依然存在:虽然复杂的集成方法能够实现高预测准确性,但它们的“黑箱”性质阻碍了对潜在物理机制的理解。最近的工作探索了多种模型,包括ExtraTrees[19]、物理信息机器学习(PIML)[20]和神经网络方法[21],但针对钙钛矿稳定性预测的全面SHAP基可解释性分析仍然不够充分。
张等人最近的工作引入了TS80m指标——一个经过烧录校正的标准化稳定性指标,将数据归一化到参考条件(300 K、20%相对湿度、1太阳光强度)[22]。虽然TS80m在跨研究的统计比较中已被证明有效,但其在机器学习模型中作为定量预测目标的系统应用尚未得到探索。将TS80m从比较工具转变为预测框架,可以实现材料和架构的快速计算筛选,以优化稳定性。
基于SCAPS-1D等数值模拟在阐明基本设备物理特性和研究各种设备结构对光伏性能的影响方面发挥了重要作用[23],[24]。作为这些基于物理的方法的补充,我们的机器学习框架采用了数据驱动策略。通过汇总来自不同来源的历史实验数据,我们的模型捕捉到了实际制造变化中出现的统计趋势和复杂的退化模式。这种统计视角弥合了理论设备设计与在不同处理条件下观察到的经验稳定性结果之间的差距。
为了解决这些关键挑战,我们提出了一个具有广泛可解释性分析的CatBoost框架,代表了TS80m标准化指标在机器学习模型中用于定量稳定性预测的新应用。本研究比较了四种机器学习模型(随机森林、XGBoost、CatBoost和LightGBM),并进行了系统评估,发现CatBoost在处理分类特征和防止过拟合方面表现更优。在此基础上,我们为不同的设备结构(p-i-n、n-i-p、完整数据)开发了单独的建模方法,结合了贝叶斯优化和自适应参数选择策略。
本工作的主要贡献包括:(1)系统地应用TS80m标准化指标作为预测目标,将其从统计比较工具转变为预测建模框架;(2)全面的SHAP基可解释性分析,揭示了影响稳定性的决定因素的机制洞察;(3)确定影响稳定性性能的主导因素的层次化特征重要性排序;(4)为p-i-n和n-i-p架构优化了特定的建模策略;(5)建立了一个完整的可解释预测框架,为钙钛矿太阳能电池的优化提供了可行的指导。图1展示了钙钛矿太阳能电池稳定性预测的机器学习工作流程。