利用机器学习在现有实验数据上加速钙钛矿太阳能电池性能预测

【字体: 时间:2026年02月11日 来源:Solar Energy Materials and Solar Cells 6.3

编辑推荐:

  提出基于机器学习的钙钛矿太阳能电池参数预测框架,整合503组实验数据,运用随机森林、梯度提升等四类集成算法,CatBoost在PCE预测中RMSE仅1.09%且相关系数达0.964,随机森林在Voc、Jsc、FF上表现优异,SHAP分析揭示关键特征为钙钛矿组成、载流子迁移率和界面带对齐,并通过12组独立样本验证模型可靠性。

  
Subham Subba | Suman Chatterjee
印度西孟加拉邦西里古里市北孟加拉大学物理系,邮编734013

摘要

本文提出了一种机器学习(ML)框架,用于确定钙钛矿太阳能电池的四个光伏参数:开路电压(V)、短路电流密度(J)、填充因子(FF)和功率转换效率(PCE)。首先,从不同的同行评审文献中手动汇编了503个实验数据条目,并将钙钛矿组成、各层的能级、带偏移、载流子迁移率以及结构类型等具有物理意义的描述符作为ML模型的输入。然后使用四种集成学习算法——随机森林(Random Forest)、梯度提升(Gradient Boosting)、极端梯度提升(Extreme Gradient Boosting)和CatBoost——通过5折交叉验证和保留的测试集进行训练和分析。结果表明,CatBoost在PCE预测方面具有最高的准确性(RMSE = 1.09%);而随机森林在开路电压(V)和短路电流密度(J)以及填充因子(FF)的预测方面表现最佳,其RMSE分别低至0.033 V、1.013 mA/cm2和0.031。基于SHAP的可解释性分析表明,钙钛矿的固有特性、载流子迁移率和界面带对齐对器件性能至关重要。此外,SHAP特征依赖性图还用于研究各个特征与预测结果之间的关联。最后,基于12个未包含在训练集或测试集中的独立样本进行的额外评估证实了模型的稳健性,其预测结果与报告的实验结果非常吻合。这些结果表明,除了准确的预测外,ML模型还能观察到复杂的微观特征,并将其与宏观器件操作联系起来,从而指导未来的实验以获得更好的结果。

引言

钙钛矿太阳能电池(PSCs)是一种新兴的技术,自首次应用以来,在短时间内其功率转换效率(PCE)已达到26.95%,成为最有前景的下一代光伏(PV)技术之一[1]、[2]。尽管取得了这些显著进展,但由于化学和结构设计的巨大空间,以及器件效率对组成和加工的微妙变化的敏感性,优化PSC性能仍然是一项具有挑战性的任务。此外,各种电荷传输层(CTLs)与ABX钙钛矿(PVK)吸收剂[3]之间的相互作用也增加了复杂性。虽然传统的试错方法在逐步改进方面有效,但它们耗时、资源消耗大,并且在许多情况下无法充分探索决定器件性能的多维参数空间。虽然物理模型也被应用于分析其他薄膜技术[4],但PSCs中的上述问题仍然存在。机器学习(ML)是一种非常有用的替代方法[5]。
从ML的角度来看,PSCs是一个完美的案例研究:它们在PVK层的A、B和X位置上具有组成自由度,并且具有器件级别的参数,如电荷传输迁移率和界面带对齐。这种丰富的可调性既为预测建模提供了机会,也带来了挑战。2019年,Li等人使用333个实验报告的样本预测了4个重要的光伏指标:开路电压(V)、短路电流密度(J)、填充因子(FF)和PCE[6]。他们使用了PVK组成描述符以及PVK层与CTLs之间的能级差。这种特征选择在物理上是直观的,因为器件效率受到吸收剂性质和界面能量排列的显著影响,这些因素使得电荷提取达到最优。在一篇较新的论文中,Zhao等人使用了组成信息以及吸收剂和CTLs的导带最小值(CBM)和价带最大值(VBM)[7]。通过他们的ML模型,使用349个样本,他们获得了令人印象深刻的PCE预测准确性。Liu等人在另一项工作中手动整理了248个数据点来训练ML算法以预测PSC性能[8]。他们的工作还纳入了ETL的电子迁移率和HTL的空穴迁移率作为输入特征,除了组成信息和界面能量偏移之外,因为这些特征独特地描述了ETL材料和HTL材料的电荷传输特性。在同一研究中,该团队还调整了他们的ML架构,以进行外部量子效率(EQE)预测,并通过SHapley Additive exPlanations(SHAP)分析进一步获得了更可解释的结果[9]。ML还在其他几项研究中使用替代输入特征来预测PSC性能[10]、[11]、[12]、[13]、[14]。
尽管之前的研究已经证明了ML在光伏领域的适用性,但仍存在一些局限性。现有的数据集通常规模有限,之前使用的特征集通常较窄,主要集中在基本的组成特征或单独的能级上,而忽略了载流子迁移率和结构依赖效应等特征。因此,预测性能也受到限制。此外,虽然一些模型具有较高的预测准确性,但它们的可解释性有限,难以得出有意义的物理洞察来指导器件优化。为了填补这些空白,我们在本工作中手动整理了来自各种文献来源的503条记录,并使用ML算法结合具有物理意义的描述符来预测相关的光伏属性。为了深入研究特征的重要性,我们使用了SHAP理论,该理论提供了模型预测背后的物理理解[15]。最后,将训练好的模型与训练集或测试集中未使用的12个独立PSC器件进行了比较,以验证其在纯新颖数据上的预测能力。

方法论

图1反映了我们工作的一般结构。本研究采用的工作流程包括四个重要步骤,以实现预测准确性和可解释性。(1)使用2015年后发表的同行评审报告中的出版物提取和整理了高质量的实验数据。同时进行了特征工程,以生成有用的描述符。(2)将整理好的数据训练在四种集成学习算法上。

性能预测

针对所有四个光伏性能指标,训练了四种集成学习模型——RF、GBR、XGB和CB-,共计得到了16个训练模型。为了简化表示,每个模型都用算法和所需指标的组合进行标记,例如,PCE表示用于PCE预测的RF模型,FF表示用于FF预测的GBR模型等。使用固定的随机状态将数据集D1分为85:15的训练集和测试集,以确保可重复性。

结论

在本研究中,我们提出了一种基于ML的完整方法,用于预测PSCs的最重要光伏参数,包括开路电压(V)、短路电流密度(J)、填充因子(FF)和功率转换效率(PCE)。我们使用了一个包含503个基于实验报告的数据点的经过高度筛选的数据库,并基于物理相关的特征(如PVK组成、CBO、VBO、能级和载流子迁移率)训练了ML模型。我们的模型具有出色的准确性,其中CatBoost在PCE预测方面表现最佳。

CRediT作者贡献声明

Subham Subba:撰写——原始草稿、软件开发、方法论设计、数据整理、概念构思。Suman Chatterjee:撰写——审稿与编辑、验证、监督、正式分析。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。

致谢

感谢大学拨款委员会(UGC)通过UGC-NET JRF(奖学金ID:221610056499)提供的财务支持。S.S.和S.C.也非常感谢北孟加拉大学物理系提供的支持和设施,这些对于完成这项工作至关重要。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号