基于图的分子嵌入与机器学习方法,用于精确预测胺溶液中二氧化碳(CO?)的吸收情况

《Separation and Purification Technology》:Graph-based molecular embedding and machine learning for accurate prediction of CO 2 absorption in amine solutions

【字体: 时间:2026年02月27日 来源:Separation and Purification Technology 9

编辑推荐:

  CO?负载预测、分子结构嵌入、XGBoost模型、结构化评估、胺溶剂筛选

  
王立东|艾子迈提江·艾尔肯|戴秦|赵宏凯|吴景凯|刘向伟|王亚楠|张天奇|李强伟|于光飞
华北电力大学环境科学与工程学院资源与环境系统优化教育部重点实验室,北京102206,中国

摘要

准确预测CO2的负载能力对于筛选和设计高效的胺基溶剂用于碳捕获至关重要。尽管机器学习模型显示出巨大的潜力,但许多现有方法严重依赖于传统的反应条件和分子描述符,这限制了它们捕捉吸收关键结构决定因素的能力。本研究整合了六种分子结构嵌入方法(包括分子指纹和基于图的方法),并与XGBoost结合,以预测19种胺溶液的CO2负载能力。除了随机数据分割外,还应用了一种基于结构的划分策略来严格评估对结构新颖胺的泛化能力。N-gram图嵌入结合XGBoost取得了优异的性能,在随机分割下的测试R2值为0.976,在基于结构的分割下为0.769,优于其他嵌入方法和基线模型。可解释性分析表明,该模型能够识别出具有化学意义的子结构,如胺类型和空间位阻基团,这与已知的吸收机制一致。此外,该模型还展示了对外部测试分子DMAEE的外推能力,该分子包含训练集中不存在的醚官能团。这项工作强调了整合精选的结构嵌入可以有效捕捉可转移的结构模式,为加速下一代胺溶剂的发现提供了一个更可靠和可解释的框架。

引言

大气中CO2浓度的上升被广泛认为是全球气候变化的主要驱动因素,对全球生态系统和人类社会构成了重大威胁[1]、[2]、[3]、[4]。最新数据表明,与能源相关的全球CO2排放量持续上升,2024年达到了创纪录的37.8 Gt,大气中的CO2水平攀升至422.5 ppm[5]。面对这一挑战,碳捕获、利用和储存(CCUS)已成为减少CO2排放的关键技术途径[6]、[7]、[8]。在各种CCUS技术中,基于胺的化学吸收作为一种领先的燃烧后捕获(PCC)方法而脱颖而出,因其高吸收能力、操作灵活性以及大规模部署的技术成熟度而受到认可[9]、[10]、[11]。
由于基于胺的捕获过程的效率和经济效益从根本上取决于溶剂的CO2负载能力,因此准确预测这一属性对于溶剂筛选、过程设计和优化至关重要[12]、[13]。传统的获取此类数据的方法严重依赖于实验测量,这些测量通常资源密集且耗时[14]。虽然热力学模型提供了一种补充方法,但它们通常是特定于系统的,需要大量的参数化,并且在超出校准条件的情况下外推能力有限[5]。
近年来,机器学习(ML)作为一种强大且经济有效的方法,受到了广泛关注,用于预测化合物的关键属性[15]、[16]、[17]。越来越多的研究成功应用了ML算法,例如随机森林(RF)、分类提升(CatBoost)和极端梯度提升(XGBoost),来预测基于胺的系统中的CO2负载能力[5]、[13]、[18]。例如,Mohammadi等人使用了四种提升算法,以三种常见的反应条件(温度、CO2分压和胺浓度)作为输入特征,来预测水溶性哌嗪(PZ)溶液中CO2的溶解度[18]。他们的CatBoost模型展示了最高的准确性(R2 = 0.9953),显示出对单一胺溶剂的出色预测性能。在另一项研究中,Huang等人也采用了这些反应条件作为输入变量,并提出了一个结合RF与Wasserstein生成对抗网络和梯度惩罚(RF-WGAN-GP)的混合ML框架[5]。他们的模型预测了三种不同胺(MEA、DEA和MDEA)在CO2吸收前后的CO2负载能力和溶液密度,在测试集上的R2 > 0.95,并将平均绝对误差(MAE)降低了8-49.5%,优于传统的AdaBoost模型。在更广泛的筛选工作中,Liu等人通过RDKit化学信息学包结合了102个分子描述符,扩展了输入特征[13]。使用RF和XGBoost,他们预测了多种水溶性胺溶液中的CO2溶解度,并获得了0.971的R2。总体而言,这些研究为在该领域应用ML算法提供了重要的基础。
尽管取得了这些进展,我们观察到现有的预测模型通常依赖于两种类型的输入,包括反应条件(例如温度、CO2分压、胺浓度)和传统的预计算分子描述符(例如来自RDKit的描述符)。尽管这些分子描述符可以提供有关特定物理化学性质的信息性和可解释性的见解,但它们往往是高度工程化的,可能无法完全捕捉有机分子中固有的复杂子结构和拓扑特征,而这些特征从根本上决定了化学行为。为了解决这一限制,分子结构嵌入和深度学习架构已成为强大的替代方案。值得注意的是,Zhang等人和Wahyudi等人的最新研究成功使用了图神经网络(GNN)架构来捕捉复杂的分子特征,为该领域的表示学习树立了新的基准[19]、[20]。同时,如分子指纹(例如MACCS、ECFP)和基于图的嵌入(例如N-gram图)等结构嵌入提供了更数据驱动和表达性更强的分子结构表征[21]、[22]、[23]。与那些依赖预定义规则的方法不同,这些技术直接从分子图中派生出表示,从而捕捉到使用传统描述符难以表达的潜在但关键的结构特征[24]。
除了选择分子表示的输入特征外,模型开发中的另一个重要考虑因素是对其真实泛化能力的严格评估,特别是预测化学新颖化合物属性的能力。虽然许多现有研究报告了高预测准确性(例如R2 > 0.97)并声称具有强大的泛化能力,但这些结论通常是基于数据集的随机分割得出的。尽管这种方法在训练数据覆盖的化学空间内展示了良好的插值性能,但它可能无法充分评估模型对包含训练集中不存在的官能团或分子骨架的胺结构的泛化能力[25]、[26]。然而,这种外推能力对于有效的胺溶剂发现至关重要。为了解决这一关键差距,Liu等人和Wahyudi等人强调了严格非随机分割策略的必要性,证明了标准随机分割不足以评估模型的真实泛化能力[14]、[20]。因此,一种更严格且具有化学意义的评估方法,该方法最小化训练集和测试集之间的结构相似性,已成为评估模型鲁棒性的关键。
受到最近分子表示技术进步的启发,以及对于严格评估的迫切需求,本研究系统地研究了将六种分子结构嵌入(包括分子指纹(MACCS、ECFP、RDKFP)和基于图的方法(N-gram图、GCN、DMPNN)整合到XGBoost模型中,以预测多种胺溶液的CO2负载能力。与最近GNN研究[19]、[20]所展示的端到端深度学习方法不同,我们提出了一种互补的混合策略,利用图嵌入作为集成学习的特征提取器。这种方法旨在结合图方法的拓扑表示能力、树基模型的计算效率和对较小数据集的鲁棒性以及增强的可解释性。超越传统的反应条件和RDKit衍生的分子描述符,我们在随机和基于结构的数据分割策略下严格评估了这些嵌入增强模型。基于Liu等人和Wahyudi等人[14]、[20]倡导的严格验证标准,我们实施了一个有针对性的“压力测试”划分,有意在训练阶段排除了特定的胺结构。这种设计旨在评估对结构新颖胺的泛化能力,提供了对模型鲁棒性的更具有化学意义的测试。此外,我们进行了全面的可解释性分析,以揭示CO2吸收的关键操作和结构特征,并使用一个在训练期间未见过的官能团的外部胺分子进一步验证了模型的外推能力。这项工作不仅提供了多种分子表示方法的比较评估,还为评估模型泛化能力建立了一个结构感知的评估框架,从而为胺溶剂筛选和设计提供了更可靠和可转移的机器学习工具。

数据收集与编译

我们通过对基于胺的CO2吸收的全面文献回顾开始了这项研究,涵盖了多种胺类型。在基于数据完整性和可用性的严格筛选后,我们选择了19种具有代表性结构的常用胺作为数据集。其中包括一级胺、二级胺、三级胺、空间位阻胺和二胺,共包含1559个高质量的数据点。尽管胺类型的数量较为集中,但这

初步数据集分析

首先对来自已发表研究的数据进行了描述性分析,包括作为输入特征的反应条件(温度、CO2分压和胺浓度)和作为目标变量的CO2负载能力。这项初步分析特别关注这些实验得出的参数,因为它们构成了基于胺的CO2捕获研究中直接测量的核心参数集,提供了对该领域的基础理解

结论

大气中CO2水平的上升突显了高效碳捕获技术的需求,基于胺的吸收作为一种领先的燃烧后捕获选项而脱颖而出。准确预测CO2的负载能力对于溶剂筛选和过程优化至关重要。然而,现有模型仍然主要依赖于传统的分子描述符,这些描述符可能会忽略控制吸收的重要结构因素。此外,模型的泛化能力通常是通过

CRediT作者贡献声明

王立东:撰写——原始草稿,项目管理,资金获取,概念化。艾子迈提江·艾尔肯:撰写——原始草稿,可视化,调查。戴秦:撰写——审阅与编辑,资金获取。赵宏凯:调查。吴景凯:调查。刘向伟:调查。王亚楠:可视化。张天奇:方法论。李强伟:数据管理。于光飞:撰写——审阅与编辑,资金获取,概念化。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。

致谢

本工作得到了国家自然科学基金(编号52500124和52200126)、北京自然科学基金(编号8254059)和中国国家杰出青年学者基金(编号52325004)的财政支持。本工作还得到了华北电力大学高性能计算平台的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号