使用CatBoost结合贝叶斯优化和SHAP可解释性分析来预测钙钛矿太阳能电池的稳定性

《Journal of Alloys and Compounds》:Predicting Perovskite Solar Cell Stability Using CatBoost with Bayesian Optimization and SHAP Interpretability Analysis

【字体: 时间:2026年02月18日 来源:Journal of Alloys and Compounds 6.3

编辑推荐:

  钙钛矿太阳能电池稳定性预测采用CatBoost机器学习框架,结合结构分组与贝叶斯优化,创新性将标准化TS80m指标作为定量预测目标,通过SHAP分析揭示性能指标主导的分层稳定性机制,验证了设备质量决定稳定性的原则,显著优于传统算法,为理论设计到工程实现的转化提供可解释框架。

  
邱赵|何宇航|张素勋|张同宇|张莉|刘学勤
重庆理工大学物理与新能源学院,中国重庆401135

摘要

预测钙钛矿太阳能电池(PSC)的稳定性对于其商业化至关重要,但由于数据异质性,这一任务仍然具有挑战性。为了解决这个问题,我们开发了一个结合了设备结构分组和贝叶斯优化的CatBoost机器学习框架。值得注意的是,我们采用了TS80m标准化指标——将其从一个回顾性统计工具转变为一个定量预测目标——以整合不同环境条件下的稳定性数据。在独立测试集上的结果表明,我们的特定结构建模策略具有较高的预测准确性(n-i-p器件的R2=0.7877),优于传统算法。除了数值上的改进之外,SHAP可解释性分析揭示了一个以性能指标为主导的层次化稳定性机制,确立了“设备质量决定稳定性”的原则。本研究通过提供一个经过验证的、可解释的数据驱动框架,弥合了理论设备设计与实际寿命实现之间的差距,从而推动了该领域的发展。

引言

钙钛矿太阳能电池(PSC)作为一种变革性的光伏技术已经崭露头角,单结电池的功率转换效率(PCE)达到了27.0%,全钙钛矿串联配置的效率甚至超过了30%[1]。尽管取得了这些显著成就,并且在基于机器学习的性能预测方面也取得了最新进展,但操作稳定性仍然是实现商业化的主要障碍[3]。传统的加速老化测试需要数月的监测,消耗大量材料,并且提供的机制洞察有限。由于组成、架构和制造协议的组合空间庞大,进行彻底的实验筛选是不切实际的。
机器学习已被广泛用于加速材料发现和工艺优化。最近的研究成功地利用神经网络和SHAP分析来优化特定的钙钛矿组成,例如基于Rb的系统,以提高光伏性能[4],[5]。然而,大多数数据驱动的研究主要集中在功率转换效率(PCE)上。由于缺乏标准化指标和历史数据集的异质性,预测长期稳定性仍然具有挑战性。
几个关键挑战阻碍了准确的稳定性预测:(1)数据质量不一致,实验室间存在显著差异以及测试条件不统一[6];(2)传统的T??指标受到烧录现象的影响,无法准确反映真实的退化过程[7];(3)缺乏环境应力标准化,无法有效整合不同条件下的稳定性数据;(4)模型可解释性分析不足,难以识别关键的稳定性决定因素并指导实验设计[8];(5)没有充分考虑设备结构差异,p-i-n和n-i-p结构之间的物理机制差异导致统一的建模性能较差。
机器学习为稳定性预测提供了高效的替代方案[9],使得无需进行大规模的实验就能快速进行计算筛选。早期的研究主要集中在传统的算法上,如支持向量机(SVM)、随机森林(RF)和决策树[10],[11]。随着研究的进展,梯度提升决策树(GBDT)的变体在处理复杂非线性关系方面表现出了更强的能力,包括极端梯度提升(XGBoost)[12]和轻量级梯度提升机(LightGBM)[13]。最近的应用包括使用XGBoost筛选功能性小分子[14]和利用LightGBM回归预测热力学相稳定性[15]。分类提升(CatBoost)特别有效,因为它具有处理分类特征的能力并且抗过拟合[16]。
一个关键的进步是开发了复杂的特征工程策略,结合了环境因素、材料属性(包括离子迁移[17])和制造工艺参数[18]。然而,大多数研究缺乏系统的特征重要性分析和机制解释[8]。可解释性挑战依然存在:虽然复杂的集成方法能够实现高预测准确性,但它们的“黑箱”性质阻碍了对潜在物理机制的理解。最近的工作探索了多种模型,包括ExtraTrees[19]、物理信息机器学习(PIML)[20]和神经网络方法[21],但针对钙钛矿稳定性预测的全面SHAP基可解释性分析仍然不够充分。
张等人最近的工作引入了TS80m指标——一个经过烧录校正的标准化稳定性指标,将数据归一化到参考条件(300 K、20%相对湿度、1太阳光强度)[22]。虽然TS80m在跨研究的统计比较中已被证明有效,但其在机器学习模型中作为定量预测目标的系统应用尚未得到探索。将TS80m从比较工具转变为预测框架,可以实现材料和架构的快速计算筛选,以优化稳定性。
基于SCAPS-1D等数值模拟在阐明基本设备物理特性和研究各种设备结构对光伏性能的影响方面发挥了重要作用[23],[24]。作为这些基于物理的方法的补充,我们的机器学习框架采用了数据驱动策略。通过汇总来自不同来源的历史实验数据,我们的模型捕捉到了实际制造变化中出现的统计趋势和复杂的退化模式。这种统计视角弥合了理论设备设计与在不同处理条件下观察到的经验稳定性结果之间的差距。
为了解决这些关键挑战,我们提出了一个具有广泛可解释性分析的CatBoost框架,代表了TS80m标准化指标在机器学习模型中用于定量稳定性预测的新应用。本研究比较了四种机器学习模型(随机森林、XGBoost、CatBoost和LightGBM),并进行了系统评估,发现CatBoost在处理分类特征和防止过拟合方面表现更优。在此基础上,我们为不同的设备结构(p-i-n、n-i-p、完整数据)开发了单独的建模方法,结合了贝叶斯优化和自适应参数选择策略。
本工作的主要贡献包括:(1)系统地应用TS80m标准化指标作为预测目标,将其从统计比较工具转变为预测建模框架;(2)全面的SHAP基可解释性分析,揭示了影响稳定性的决定因素的机制洞察;(3)确定影响稳定性性能的主导因素的层次化特征重要性排序;(4)为p-i-n和n-i-p架构优化了特定的建模策略;(5)建立了一个完整的可解释预测框架,为钙钛矿太阳能电池的优化提供了可行的指导。图1展示了钙钛矿太阳能电池稳定性预测的机器学习工作流程。

方法论

我们遵循了材料属性预测的既定机器学习工作流程:数据处理、特征工程、特征选择、模型评估
以及模型应用。此外,为了提高模型的可解释性,引入了SHAP分析,如图1所示。

模型性能比较与选择

在相同的数据处理和特征工程基础上,评估了四种机器学习模型在回归和分类任务上的性能。表1展示了综合结果,图4可视化了多维性能比较。
回归任务性能:在预测连续TS80m值的回归任务中,CatBoost在所有指标上表现最佳,达到了R2=0.6529和MAPE=3.65%。XGBoost排名第二

结论

本研究开发了一个基于CatBoost模型的钙钛矿太阳能电池稳定性预测框架,能够精确预测ABX?型钙钛矿太阳能电池的长期稳定性。主要结论如下:
CatBoost模型在稳定性预测任务中表现出显著的优势,在完整数据上实现了R2=0.6529和MAPE=3.65%。与现有研究相比,该模型的R2从0.683提高到了0.788,实现了显著的改进

CRediT作者贡献声明

刘学勤:撰写——审阅与编辑、监督、资源管理、项目管理。张同宇:验证、形式分析、数据整理。张莉:验证、形式分析。何宇航:撰写——审阅与编辑、数据整理。张素勋:撰写——初稿、数据整理。邱赵:撰写——审阅与编辑、撰写——初稿、可视化、软件开发、方法论研究、数据整理、概念化。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号