《Desalination》:Bridging the gap between empirical and rational design: machine learning framework for lithium ion-sieve performance prediction
编辑推荐:
锂离子筛吸附性能预测与特征解析:本研究整合130篇文献中的948组实验数据,构建基于机器学习的大规模数据驱动框架。通过创新连续配比描述符替代传统离散编码,建立涵盖材料组成、合成工艺和吸附条件的15维特征体系。对比12种经典算法后,构建XGBoost、LightGBM和CatBoost的Stacking集成模型,实现测试集R2=0.911,外部验证MAE=2.400 mg·g?1的预测性能。SHAP可解释性分析量化了pH、溶液浓度等关键参数的贡献模式,揭示多参数耦合作用机制,为实验室到工业化的性能跃升提供数据驱动的理性设计路径。
崔振杰|庞胜|任新颖|郭建伟|岳红|王东|王志
中国科学院过程工程研究所,国家战略性金属资源绿色回收工程研究中心,北京,100190,中国
摘要
随着全球新能源产业的快速发展,盐湖锂提取已成为满足锂资源需求的关键技术途径,其中锂离子筛(LIS)材料作为核心吸附剂发挥着重要作用。然而,高性能锂离子筛材料的发展受到复杂非线性多参数耦合效应的制约,传统的试错方法导致研发周期长且成本高昂。本研究整合了948个实验数据点(涵盖130项独立研究),构建了一个大规模的数据驱动框架,系统地应用机器学习来预测锂的吸附性能并解释特征与性能之间的关系。通过引入创新的连续化学计量描述符替代传统的独热编码,建立了一个包含15个工程特征(涵盖材料组成、合成工艺和吸附条件三个维度)的定量系统。通过对12种传统算法的系统性比较和评估,创新性地构建了一个堆叠集成框架,整合了三种表现最佳的模型(XGBoost、LightGBM和CatBoost),在随机分割并去除异常值的测试集上取得了R2=0.911、RMSE=4.107 mg·g?1的竞争性能,外部验证的平均MAE低至2.400 mg·g?1,证明了该模型在跨研究筛选中的实用性。SHAP可解释性分析量化了特征对吸附性能的贡献模式,为从经验探索到理性、基于决策的材料设计提供了数据驱动和统计依据。
引言
锂是现代能源转型中的关键战略资源,在锂离子电池、储能系统和电动汽车中发挥着不可替代的作用[1]、[2]、[3]。随着全球新能源产业的快速发展和碳中和目标的推进,锂的需求正在急剧增长,预计到2050年全球锂需求将达到511万吨[4]。按照目前的消费速度,陆地锂储量预计将在2080年耗尽。此外,尽管传统硬岩采矿技术成熟,但存在严重的环境污染、高能耗和资源品位下降的问题[5]。虽然锂离子电池回收可以部分缓解供应压力,但仍受限于不完善的回收系统和经济可行性不足[6]。相比之下,盐湖卤水作为锂资源的重要载体,占全球锂储量的70%以上,并且在提取过程中能耗低、环境友好,成为保障锂供应的关键解决方案[7]。
盐湖锂提取技术主要包括沉淀法、溶剂萃取法、吸附法和电化学法[8]、[9]。沉淀法操作简单,但镁锂分离效率低;溶剂萃取法不适用于高Mg/Li比的卤水,且存在有机溶剂污染风险;电化学法能耗高且电极稳定性问题突出[10]、[11]、[12]。吸附法因其高选择性、操作灵活性和环境友好性而成为优选方法,锂离子筛(LIS)材料因其独特的记忆效应和离子筛选能力成为研究热点[13]、[14]。LIS材料通常以锰基尖晶石型化合物(如Li?.?Mn?.?O?)为代表,通过酸处理形成Li?空位,对锂离子具有高选择性,即使在高Mg/Li比(Mg/Li > 40)的复杂卤水中也能保持优异的吸附性能[15]。近年来,对LIS材料进行了大量研究,包括元素掺杂改性、表面功能化处理(氧化、螯合)和复合材料构建(磁性改性、多孔支撑体负载)以增强吸附容量、循环稳定性和抗酸溶解性[16]、[17]、[18]。在工业应用方面,中国的青海盐湖作为全球重要的锂资源基地,已经实现了工业规模的吸附方法示范。目前,工业化应用主要采用铝基吸附剂,其吸附容量通常在3至11 mg·g?1之间[19]、[20]、[21]。与实验室报道的高性能材料(吸附容量可达20–40 mg/g)相比,仍存在显著性能差距[22]。由于多个参数对LIS吸附行为的强非线性耦合效应(包括材料组成(前驱体比例、掺杂元素类型和含量)、合成工艺(煅烧温度、时间、锂进料比例)和吸附条件(pH值、溶液浓度、温度、时间),弥合这一差距面临困难。由于LIS材料类型的多样性、改性方法的复杂性、漫长的实验周期(通常需要几周才能完成一个合成-表征-测试周期)、化学试剂的高成本和能耗,传统的单因素变量或正交实验设计方法难以有效识别最佳参数组合,使得从实验室到工业化的性能提升更加具有挑战性[23]。因此,迫切需要开发有效的方法来指导吸附剂的合理设计和操作参数配置的优化,从而显著减少迭代试错方法带来的时间和经济成本限制,促进高性能LIS材料的工业化。
机器学习(ML)作为一种数据驱动的建模工具,在材料科学领域展示了强大的预测和优化能力[24]、[25]。通过从历史实验数据中学习潜在的结构-性能关系,机器学习模型可以快速预测新材料或过程的性能,指导实验设计并加速材料开发[26]、[27]。近年来,机器学习在催化剂设计、电池材料筛选和吸附剂优化等方面取得了许多成功应用[28]。例如,机器学习方法已被用于预测MOF材料的气体吸附性能、钙钛矿太阳能电池的效率以及锂离子电池电极材料的循环寿命[29]、[30]、[31]。此外,可解释的机器学习方法(如SHAP、LIME)的出现进一步弥合了黑箱模型和机制理解之间的差距,使研究人员不仅能获得准确的预测结果,还能深入理解特征对目标性能的贡献模式[32]。SHAP(Shapley Additive Explanations)值基于博弈论的Shapley值原理,通过计算每个特征在所有可能特征组合中的边际贡献,为模型可解释性提供了统一框架,并已在材料科学中得到广泛应用。尽管机器学习在材料科学中得到广泛应用,但预测LIS吸附性能的研究仍处于初级阶段,面临许多挑战。首先,现有研究主要集中在单一材料系统或特定吸附条件上,缺乏跨材料类型和工艺条件的系统数据整合,导致模型泛化能力不足。其次,文献数据分散且格式不一致,缺少关键参数(如比表面积、孔径分布和其他微观结构信息)或定义不明确(如吸附容量是基于总电极质量还是活性物质质量),增加了数据预处理的难度[33]。第三,LIS材料的复杂化学组成(多元素掺杂、非化学计量比)使得传统的独热编码无法有效表示元素比率的连续变化,限制了模型学习组成-性能关系的能力。最后,现有数据集规模较小(通常<500个样本),不足以支持深度学习等复杂模型的训练,且缺乏系统的算法比较和模型优化研究[34]。
尽管机器学习已广泛应用于吸附和分离材料,但大多数现有研究主要集中在特定材料系统的性能预测或算法比较上。相比之下,本研究旨在解决盐湖卤水条件下的锂离子筛问题,其中强烈的多参数耦合和实验异质性对模型泛化提出了重大挑战。更重要的是,本研究将机器学习不仅仅视为一种预测工具,而是一个面向设计的框架,有助于从经验试错实验向理性材料和过程设计的转变。为应对这些挑战,我们系统整合了130项独立研究中的948个实验数据点,构建了迄今为止最大的锂离子筛性能数据库之一。提出连续化学计量描述符(如PreMn、PreTi)替代传统的独热编码,有效捕捉连续的元素比率变化。通过对12种机器学习算法的系统性基准测试,开发了一个结合XGBoost、LightGBM和CatBoost的堆叠集成框架,实现了具有竞争力的吸附容量预测。SHAP可解释性分析定量揭示了关键参数(pH值、溶液浓度、煅烧时间)的贡献模式,并确定了统计相关的工艺条件,为材料设计和工艺优化提供了数据驱动的指导。在此背景下,“理性设计”是指基于数据的实验决策合理化,利用从大规模数据集中提取的统计稳健模式来优先考虑关键控制变量、识别有利的操作条件并降低实验探索的维度。这种方法结合了经验知识和机制直觉,但不替代专门的物理化学或第一性原理研究,而是提供了一个补充框架,可以指导假设生成和实验设计,同时明确指出需要进一步机制研究的领域。总体而言,本研究提供了一个通用且可解释的机器学习框架,支持从经验试错探索向更理性的锂离子筛设计和优化的转变,并为高性能吸附剂的未来发展和实际应用提供了数据驱动的基础。
数据收集
数据的来源、质量和数量从根本上决定了机器学习(ML)模型的预测性能。为了构建一个统计上稳健的LIS吸附性能数据库,本研究系统地检索和筛选了过去二十年发表的同行评审文献。
数据分布特征分析
为了全面分析机器学习模型构建的基础,首先对所有收集的数据点进行了系统的描述性统计分析。分析了所有输入特征和目标变量的最小值、最大值、平均值、偏度和峰度。通过这一分析,初步了解了原始数据分布的情况,为后续的详细分析奠定了基础。
结论
本研究通过整合大规模文献数据、创新的特征工程和可解释的机器学习,建立了一个数据驱动的锂离子筛吸附性能预测框架。连续化学计量描述符的引入比传统的离散编码策略更有效地捕捉了组成变化。通过对12种传统机器学习算法的系统性基准测试,开发了一个堆叠集成框架。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
致谢
本工作得到了国家自然科学基金(重点项目,资助编号:92575206)和中国科学院基础研究青年科学家项目(资助编号:YSBR-044)的支持。