从预测到设计:一种基于XGBoost和遗传算法的框架,用于高效离子液体的设计,应用于二氧化碳捕获混合物中

《Separation and Purification Technology》:From prediction to design: An XGBoost-genetic algorithm framework for high-performance ionic liquids design in CO 2 capture blends

【字体: 时间:2026年02月10日 来源:Separation and Purification Technology 9

编辑推荐:

  本研究提出一种基于XGBoost机器学习模型与遗传算法(GA)的混合框架,用于逆向设计高效CO?吸收的MDEA-IL混合溶剂。通过整合867组实验数据,验证了分子片段贡献方法与RDKit描述符在预测CO?吸收能力时的等效性,并利用SHAP分析揭示压力和CH?基团对吸收性能的关键影响。成功逆向设计了以[Im13]+[Ac]?为配体的离子液体,其在不同压力下CO?负载量达1.1048–1.1212 mol/mol,显著优于现有基准体系。该框架为多组分混合溶剂的智能化设计提供了新方法。

  
贵阳叶|周宏丽|徐永文|李正瑞|秦腾贤|黄娇颖|支阳|王俊尧
广东工业大学材料与能源学院,广州510006,中国

摘要

胺离子液体(Amine-IL)混合物结合了烷醇胺的高二氧化碳(CO2)吸收能力和离子液体的稳定性,从而实现了高效的二氧化碳捕获并降低了能源消耗。在这项研究中,我们开发了一个逆向设计框架,该框架整合了机器学习和遗传算法(GA),用于高性能离子液体的智能设计。该框架使用XGBoost模型预测CO2吸收能力,利用SHAP分析阐明结构-性质关系,并通过GA优化分子结构以最大化CO2负载量。对12种MDEA-IL混合物(867个实验数据点)的系统性评估表明,组贡献方法和RDKit描述符在预测CO2吸收能力方面具有相似的准确性,从而验证了所选分子片段的合理性。SHAP分析确定压力是最具影响力的参数,并强调了CH2基团对CO2负载量的积极贡献。在模拟的烟气条件下,该框架成功设计出了新型离子液体,其中一种由[Im13]+和[Ac]?组成的混合物在所有压力范围内均实现了最佳的CO2负载量(1.1048–1.1212?mol/mol),优于现有的基准系统。

引言

全球人口和工业活动的快速增长显著增加了二氧化碳(CO2)的排放量。根据国际能源署(IEA)2025年的报告,2024年全球与能源相关的CO2排放量达到了378亿吨,比2023年增长了0.8%,而大气中的CO2浓度上升至422.5?ppm,远超工业化前的280?ppm [1]。这些排放导致了全球气温上升和极端天气事件频发,使得减少CO2排放成为当务之急。在这种背景下,碳捕获、利用和储存(CCUS)被广泛认为是实现净零排放的关键途径,尤其是在难以减排的行业中[2]。为了将全球温度升幅限制在1.5?°C以内[3],这一点尤为重要。然而,CCUS的实际应用仍然面临挑战。尽管该技术具有显著的减排潜力,但其高能耗和高成本问题阻碍了大规模部署[4]。提高捕获效率、降低能耗以及降低成本,特别是在开发低成本、高效率的捕获溶剂方面,仍是该领域的研究重点[5]。
在现有的碳捕获技术中,基于化学吸收的CO2捕获技术已成为工业应用中的领先解决方案[6]、[7]。然而,传统的化学吸收剂通常具有高挥发性和腐蚀性,这限制了它们的大规模应用[8]。为了解决这些问题,离子液体(ILs)作为一种新型绿色溶剂受到了越来越多的关注。ILs具有几乎零挥发性、低能耗和可调的化学稳定性,同时其分子结构可以合理设计以增强CO2吸收能力[9]、[10]。尽管ILs具有巨大潜力,但由于高昂的成本和复杂的合成路线,其在CO2捕获中的广泛应用仍然受到限制。在这种情况下,将烷醇胺与ILs混合的混合系统应运而生,这种混合系统利用了两种组分的互补优势:烷醇胺(如MDEA、MEA和DEA)提供了高CO2吸收能力,而ILs则减轻了高挥发性和腐蚀性的缺点,同时保持了低能耗和高化学稳定性的优点,因此具有相当大的应用潜力[11]。
目前,实验测量和热力学建模仍是获取可靠热物理性质数据的主要方法。实验技术提供了对溶剂设计至关重要的精确定量信息[12]、[13]、[14]、[15]。然而,这些方法需要在不同的温度和压力下进行广泛的测试,这会带来大量的时间和经济成本。此外,在处理复杂的溶剂系统时,尤其是在大规模筛选过程中,这些方法的局限性尤为明显。热力学建模通过数学框架模拟热物理性质,但通常具有有限的通用性[16]、[17]、[18]。将这些模型适应新的数据集通常需要大量的重新校准,从而限制了它们的灵活性,尤其是在多组分系统(如混合溶剂)中[19]。因此,迫切需要开发先进的模型,以准确预测各种操作条件下的混合系统的热物理性质,从而减少实验成本和时间。
与此同时,在化学信息学领域,机器学习(ML)作为一种强大的工具,可用于估计化合物的关键物理性质。通过分析大量的实验数据,ML建模可以自动识别分子结构与物理性质之间的非线性关系,克服了传统方法在处理复杂系统和非线性相关性方面的局限性。这种方法能够高效处理高维、多组分数据,并快速准确地预测溶剂性能,而无需依赖传统热力学模型所需的广泛实验校准。因此,它为新型溶剂的设计和筛选提供了有效途径[20]。在各种ML方法中,集成学习(EL)展示了显著的潜力。这些模型的集成显著提高了预测准确性,使其在预测基于烷醇胺和离子液体的溶液的物理性质方面得到了广泛应用。
表1总结了EL算法的应用情况,列出了预测的热物理性质、溶液类型和数据集大小。在烷醇胺系统中,黄等人[21]开发了一个结合随机森林(RF)和Wasserstein生成对抗网络(WGAN)的混合机器学习框架,用于预测胺溶剂的CO2负载能力和溶液密度,减少了过拟合并提高了预测准确性(R2?>?0.95,MAE降低了8%–49.5%)。刘等人[22]开发了一个基于XGBoost和RF的EL框架,利用102个分子描述符和环境变量预测23种胺溶剂的CO2溶解度,XGBoost的R2值为0.983,RF的R2值为0.971。在离子液体系统中,杨等人[23]引入了一个使用组贡献和分子结构描述符的模型来预测CO2吸收能力,实现了高准确性(R2?=?0.9897,MAE?=?0.0111)。Nakhaei-Kohani等人[24]分析了160种IL的10,341个数据点,并比较了LightGBM、XGBoost和CatBoost的性能,结果显示XGBoost具有最高的准确性,而LightGBM在大数据集上具有更好的计算效率。Makarov等人[25]开发了一个集成机器学习模型,使用RFR/ECFP和TransCNF来预测DES和IL中的CO2吸收。该模型在包含238种IL的14,012个数据点的训练集上实现了R2为0.981和RMSE为0.097。这些研究强调了不同ML算法在预测准确性上的差异,强调了选择合适算法的重要性。然而,这些方法通常缺乏可解释性,限制了它们在指导CO2负载量预测方面的实际应用。
为了提高模型的可解释性,研究人员转向了SHAP(Shapley加性解释)分析,该方法量化了每个特征对预测结果的贡献。刘等人[26]开发了一个结合实验数据、分子结构和理论计算的EL学习框架,用于预测水溶液中的CO2吸收能力。SHAP分析显示,温度、浓度和CO2分压等参数对模型预测的影响最大,贡献了51.8%。在另一项研究中,黄等人[27]提出了一个结合分子动力学模拟和ML的框架,用于预测胺溶剂的粘度和CO2吸收率。SHAP分析表明,甲基桥和环烷基子结构可以降低粘度并增强吸收能力,而环烯基子结构则有负面影响。因此,SHAP提供了从“黑箱”预测到潜在物理机制的透明联系,为胺溶剂的分子设计提供了结构和功能指导。
ML不仅广泛应用于预测CO2吸收能力,还在离子液体(ILs)的设计和优化方面展示了巨大潜力,特别是通过将GC方法与ML相结合。GC方法分解分子结构并量化官能团的贡献,为预测提供了可解释的见解,而ML则弥补了GC在捕捉非线性关系方面的局限性。秦等人[28]将人工神经网络-组贡献模型与混合整数非线性规划(MINLP)相结合,优化了R-32/R-125的分离,展示了ML在IL设计中的价值。Mohammed等人[29]开发了一个基于深度学习的GC框架,用于筛选17种高性能IL,确定了最佳组合,突出了氰基官能团、咪唑鎓阳离子中的烷基链长度以及支链铵基IL结构对IL性质的影响。这些研究主要集中在烷醇胺系统和纯IL上,而ML在烷醇胺-IL混合体系中的应用相对较少。
因此,我们提出了一个创新的计算框架,该框架将XGBoost与遗传算法(GA)相结合,用于逆向设计MDEA-IL混合体系中最佳的离子液体组成,以最大化CO2负载量。该模型基于从文献中整理的867个实验点构建的自构建数据库进行训练。为了验证模型的性能,我们在MDEA-IL混合物背景下将XGBoost与LightGBM进行了比较,并使用SHAP分析来解释实验条件和官能团对CO2负载量预测的影响。通过将表现最佳的XGBoost模型与GA相结合,我们成功逆向设计出了适用于燃煤发电后烟气条件的最佳IL分子结构,显著提高了CO2捕获性能。所提出的框架不仅为IL的合理设计和筛选提供了有效工具,还推动了CO2捕获过程的优化,并促进了ML在热物理性质预测中的更广泛应用。

研究框架

本研究介绍了一个计算框架,该框架结合了EL模型和GA,用于准确预测MDEA-IL混合溶剂中的CO2吸收能力,并实现高性能离子液体的逆向设计。如图1所示,该框架基于一个包含本研究中涉及的十二种MDEA-IL混合系统的精心策划的数据库构建。输入特征包括操作条件,如CMDEACILTPCO2,以及从

基于GC方法和RDKit描述符的ML模型性能评估

本研究比较了基于组贡献方法和RDKit描述符的XGBoost和LightGBM模型在预测CO2吸收能力方面的性能,重点关注三个关键指标:预测准确性(R2)、误差分布对称性(MAE/RMSE)以及模型在插值和外推方面的性能(训练集和测试集之间的一致性),详见表6。
如图5和图6所示,组贡献方法和RDKit描述符都表现出

结论

本研究开发了一个创新的计算框架,将XGBoost机器学习模型与遗传算法(GA)相结合。首次将ML-GA逆向设计框架应用于优化MDEA-IL水三元混合物中的CO2捕获,实现了从CO2吸收能力的预测到最佳IL结构的主动设计的可解释逆向分子设计。主要发现和结论如下:
与常用的RDKit

致谢

感谢广东省自然科学基金(授权号:2024A1515012661)、广州市基础与应用基础研究基金(授权号:2023A04J16132024A04J3828)的财政支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号