《Cell Reports Physical Science》:Searching for high-performance thermoelectric materials via an advanced machine learning framework
编辑推荐:
本研究针对热电材料设计中数据质量、特征工程和模型泛化等关键挑战,提出了一种结合多步特征工程和TabPFN模型的数据驱动框架。通过对卤化物双钙钛矿的筛选,发现了Rb2CuSbCl6、Cs2AgAuCl6等高性能候选材料,其热电优值(ZT)在800 K时可达1.64,为热电材料的高效开发提供了新范式。
随着能源危机日益严峻和可持续发展需求增长,热电材料因其能够实现热能与电能的直接相互转换而备受关注。理想的热电材料需要同时具备高塞贝克系数(S)、高电导率(σ)和低热导率(κ),但这些参数之间存在着固有的权衡关系,这给高性能热电材料的设计带来了巨大挑战。
目前,热电材料的筛选主要依靠实验合成与性能表征、第一性原理计算以及数据驱动的机器学习三种策略。实验方法可靠但耗时耗力,第一性原理计算能够描述电子结构和输运性质但计算量大,而机器学习方法虽然能够利用不断扩展的材料数据库构建预测模型,但在数据质量、特征工程和模型泛化等方面仍面临诸多问题。
在这项发表于《Cell Reports Physical Science》的研究中,孙等人报道了一个先进的数据驱动、物理指导的机器学习框架,旨在加速高性能热电材料的发现。该研究通过系统的多步特征工程策略,结合改进的表格先验数据拟合网络(TabPFN)模型,实现了对热电优值(ZT)的精确预测,并成功筛选出具有应用潜力的卤化物双钙钛矿材料。
研究人员主要采用了以下几种关键技术方法:从Starrydata2数据库收集热电数据并进行预处理;通过组合基于成分的特征向量(CBFV)和Magpie描述符进行多步特征工程;使用TabPFN模型进行ZT预测,并与主流回归模型进行对比;通过Materials Project数据库筛选卤化物双钙钛矿材料;利用密度泛函理论(DFT)计算验证候选材料的电子结构和热电性能。
数据集
研究从Starrydata2数据库收集热电数据,经过系统的数据预处理后,构建了包含2,355种独特化合物的数据集。通过多步特征工程策略,最终筛选出19个关键特征描述符,包括温度(T)、d轨道价电子加权平均值等。数据集按70:30的比例划分为训练集和测试集,确保模型评估的可靠性。
ML模型的评估和验证
TabPFN模型在训练集上达到R2=0.95、MSE=0.006,在测试集上达到R2=0.93、MSE=0.009,显著优于Lasso、Ridge、CatBoost等主流回归模型。在ESTM数据集和手动整理的数据集上的外部验证进一步证明了模型的强泛化能力。SHAP分析显示温度、d轨道价电子加权平均值等特征对ZT预测贡献最大。
模型的可解释性分析
通过SHAP算法对模型进行可解释性分析,发现温度(T)、d轨道价电子加权平均值等特征是影响ZT预测的关键因素。不同材料体系中特征的贡献存在差异,反映了模型能够捕捉到材料特有的物理机制。
热电性能预测
从Materials Project数据库筛选出317种热力学稳定的卤化物双钙钛矿化合物,利用优化后的模型预测其在300-800 K温度范围内的ZT值。预测结果显示Rb2CuSbCl6、Cs2AgAuCl6和Rb2CuBiCl6具有优异的热电性能。
预测热电材料的DFT计算
电子结构
DFT计算表明三种候选材料均为间接带隙半导体,带隙值在0.65-0.93 eV之间,处于理想的热电材料带隙范围。态密度分析显示Rb2CuBiCl6在价带顶附近具有更陡峭的态密度增长,Cs2AgAuCl6在价带顶附近表现出明显的能带简并。
电输运性质
在800 K时,Cs2AgAuCl6在n型掺杂下ZTmax达到1.64,p型掺杂下为1.31;Rb2CuSbCl6在n型和p型掺杂下ZTmax分别为1.01和1.16;Rb2CuBiCl6的相应值分别为0.91和1.03。这些结果验证了模型预测的可靠性。
讨论
该研究通过数据驱动的方法成功解决了热电材料设计中的关键挑战,建立了高性能的ZT预测模型,并发现了具有应用前景的卤化物双钙钛矿热电材料。研究提出的多步特征工程策略和TabPFN模型为材料 informatics 提供了新思路,显著提高了热电材料发现的效率。
尽管该模型在预测性能方面表现出色,但仍存在一些局限性,如对复杂非线性行为的捕捉能力有限,以及TabPFN模型的计算成本较高等。未来的研究可以进一步整合更丰富的物理描述符,开发更先进的建模技术,以提升模型在复杂材料体系中的表现力。
该工作不仅为热电材料研究提供了实用的数据驱动框架,而且为其他功能材料的设计与开发提供了可借鉴的方法论。通过机器学习与第一性原理计算的有机结合,展现了计算材料学在加速新材料发现方面的巨大潜力。