二维相互作用参数直方图作为一种简单且多功能的纳米多孔材料表示方法用于吸附性能的机器学习预测

《Molecular Systems Design & Engineering》:Two-dimensional interaction parameter histograms as a simple and versatile nanoporous material representation for machine learning prediction of adsorption properties

【字体: 时间:2026年06月07日 来源:Molecular Systems Design & Engineering 3.2

编辑推荐:

  机器学习(Machine-learning, ML)吸附模型对于通过计算筛选纳米多孔材料(如金属有机框架(metal–organic frameworks, MOFs))至关重要。基于物理的MOF表示为这些ML模型的训练提供了优势,例如与人工训练数据集的兼容性

  
机器学习(Machine-learning, ML)吸附模型对于通过计算筛选纳米多孔材料(如金属有机框架(metal–organic frameworks, MOFs))至关重要。基于物理的MOF表示为这些ML模型的训练提供了优势,例如与人工训练数据集的兼容性、模型在MOF之外的适用性,以及对数据中与化学相关的不准确性的鲁棒性。然而,新兴的基于物理的MOF表示往往需要专门的专业知识才能创建,并且/或者容易出现训练可扩展性问题。在此,研究人员展示了二维相互作用参数直方图(two-dimensional, interaction-parameter histograms, 2D-IPHs)作为基于物理的MOF表示,其简单、可扩展且对吸附学习信息丰富。2D-IPHs的构建仅需要吸附位点与其最近的孔壁原子之间的距离统计,以及其相互作用参数。展示了可扩展性,2D-IPHs促进了使用一个包含数百万点、多分子的人工数据集,生成一个能够预测未见过的、小尺寸、非极性、近球形的真实分子的吸附等温线的模型(对于H2、CH4、C2H8、N2、Ar、Xe和Kr,R2 = 0.97–0.99)。展示了信息丰富性,2D-IPHs促进了从数千点、单分子数据集的训练,生成的模型用于:i) 小尺寸、高四极矩和非球形分子的完整吸附等温线预测(对于CO2和C3H8,R2 = 0.98),以及ii) 对吸附对色散和静电相互作用依赖程度各异的小分子进行亨利常数(Henry's constant)预测(对于CO2、H2O、NH3和N2,R2 = 0.76–0.90)。此外,使用2D-IPHs的训练往往对训练数据集修剪具有鲁棒性,至少在遇到明显的数据稀缺场景之前是如此。即便如此,在数据稀缺场景下,使用2D-IPHs结合诸如单特征堆叠(single feature stacking, SFS)和迁移学习(transfer learning, TL)等技术,可使模型精度得到显著(即使不是完全的)恢复。本工作还讨论了关于SFS和TL的细微差别,以及本文所训练模型的实际筛选性能。
### 研究背景与问题

纳米多孔材料(如金属有机框架(metal–organic frameworks, MOFs))在吸附控制方面具有巨大潜力,可推动多项工程应用。然而,MOF的设计空间涵盖数万亿种材料变体,通过实验探索所有可能性是不切实际的,因此需要计算预测吸附性能。机器学习(Machine-learning, ML)吸附模型对于快速筛选候选材料至关重要,但训练ML模型面临诸多挑战,例如训练数据生成昂贵、模型泛化能力有限等。基于物理的材料表示方法(physics-based representations)能够缓解这些问题,其优势包括与人工训练数据集兼容、模型可应用于不同材料子类,以及对数据中化学-吸附关系缺陷具有鲁棒性。然而,现有的基于物理的表示方法要么需要专门知识才能创建,要么存在训练可扩展性问题。为此,研究人员提出二维相互作用参数直方图(two-dimensional interaction-parameter histograms, 2D-IPHs)作为一种简单、可扩展且信息丰富的基于物理的MOF表示方法,旨在促进ML模型的数据高效训练,从而支持材料筛选和数据驱动的分子设计规则推导。该论文发表在《Molecular Systems Design》上。

### 主要关键技术方法

研究人员使用了以下关键技术方法:1. 采用MOFMinE数据库的1,036,252个MOF结构(由ToBaCCo-3.0构建),并经过UFF4MOF力场优化;2. 构建2D-IPHs:在MOF晶胞内生成均匀网格(间距1 ?),对每个格点计算其到最近MOF原子的距离(d)以及非键相互作用参数(Lennard-Jones参数ε、σ和Coulomb部分电荷q),统计这些参数与距离的二维分布,形成三个直方图(ε-d、σ-d、q-d),展平并连接成最终表示向量;3. 使用巨正则蒙特卡洛(Grand Canonical Monte Carlo, GCMC)模拟和Widom插入法分别计算吸附负载量和亨利常数(Henry's constant, KH);4. 采用多层感知机(Multilayer Perceptron, MLP)架构进行ML模型训练,结合Keras Tuner贝叶斯优化超参数;5. 应用单特征堆叠(Single Feature Stacking, SFS)和归纳式迁移学习(Inductive Transfer Learning, TL)策略提升数据有限时的模型性能。

### 研究结果

**3.1 通用吸附模型(General adsorption model)**

利用Anderson等人包含约500万点的GCMC数据集训练通用ML模型,该模型完全依赖基于物理的MOF表示(2D-IPHs,方差阈值0.032,降至44维特征)和吸附质表示。模型对未见于训练集的真实小分子(CH4、C2H6、N2、H2、Ar、Xe、Kr)进行零样本预测,R2值均高于0.97,平均绝对误差(MAE)约为GCMC平均负载量的6–8%(H2为22%)。在高压(100 bar)下对H2和CH4的顶部候选MOF识别中,ML模型与GCMC的顶部-100集重叠率达到97%以上。吸附质表示空间的主成分分析(Principal Component Analysis, PCA)表明,真实分子位于炼金吸附质(alchemical adsorbates)所张成的空间内,从而实现了插值式预测。

**3.2 单特征堆叠(Single-feature stacking, SFS)**

针对超出通用模型范围的C3H8和CO2,研究人员训练了专门模型。将通用模型的预测值作为附加输入特征,与2D-IPHs结合进行SFS。实验表明,在不同数据可用性(10–100%训练数据)下,SFS模型在R2和MAE上均优于从零训练的模型(scratch model),尤其在数据有限时(10%数据,即1,235个数据点),SFS模型的MAE改善14–35%。在1 bar下对CO2和C3H8的顶部MOF筛选性能评估中,SFS模型始终识别出更多真实高性能MOF,对于C3H8,SFS在顶部-100、顶部-50、顶部-20中分别比scratch模型多识别约52%、122%和214%的MOF。

**3.3 亨利常数预测(Henry's constant prediction)**

使用完整展平的2D-IPHs(4,440维)训练MLP模型(三个隐藏层,每层128节点),预测N2、CO2、H2O和NH3的log10(KH)。模型性能:N2的R2=0.90(MAE=0.08),CO2、H2O、NH3的R2在0.76–0.82之间。趋势表明,静电作用占主导的分子(H2O、NH3)预测难度更大。与文献对比,2D-IPH模型的CO2和N2预测均方根误差(RMSE)分别为0.53和0.12,优于或持平于现有方法。在实际筛选性能上,ML模型识别的top-800 MOF中包含71–88%的真实top-800 MOF,体现了良好的排序保真度。

**3.4 迁移学习(Transfer learning, TL)**

研究人员进行了归纳式迁移学习,将预测N2、CO2、H2O或NH3的log(KH)的源模型(source model)冻结一层,迁移至目标任务(target task)。结果显示,在数据充足时TL收益有限;但在数据稀缺(例如1–3%数据)时,选择合适的源任务可显著提升目标模型性能。例如,以NH3为源任务预测H2O时,即使在1%数据(约318个MOF)下,TL模型的R2仍保持在0.77,而scratch模型仅0.57。源任务的信息丰富性(如NH3吸附复杂,迫使模型提取更多直方图信息)和任务相似性(静电驱动吸附的分子间迁移更有效)是关键因素。在顶部-MOF识别测试中,TL模型在3%数据下仍能保持较好的识别成功率(top-800达62–78%),优于scratch模型。

### 总结与结论

研究人员展示了二维相互作用参数直方图(2D-IPHs)作为一种简单、低成本、基于物理的MOF表示方法,用于吸附学习。2D-IPHs捕获了由静电和色散相互作用势特征表征的吸附位点分布。基于物理的MOF表示提供了实现跨材料可迁移吸附模型的途径,可利用炼金数据集,并对用于生成数据的分子模拟模型中的不准确性具有更强的鲁棒性。在各种预测任务中,2D-IPHs一致地使模型能够准确地学习吸附特性,并获得与分层筛选相关的排序保真度。例如,2D-IPHs促进了多未见真实小分子(非极性、近球形)的完整吸附等温线预测模型;对于该模型范围之外的吸附质,2D-IPHs通过单特征堆叠支持高效的新模型特化;此外,2D-IPHs促进了跨越色散和静电主导吸附的分子亨利常数预测,同时在训练数据严重受限时也显示出对归纳式迁移学习的促进作用。

综合来看,这些结果表明2D-IPHs具有极具吸引力的特性:i) 可扩展性,如其应用于大型MOF晶胞和数百万点数据集所示;ii) 适用性,覆盖从稀薄区到孔隙饱和区的吸附范围,如对亨利常数和完整吸附等温线的预测所示;iii) 与数据高效训练策略(此处评估了单特征堆叠和迁移学习场景)的有效性;以及iv) 简单性,这可能会增加2D-IPHs对更广泛吸附社区(包括实验科学家)的吸引力。因此,研究人员预计该表示方法对于开发基于吸附的计算材料发现流程将很有价值,不仅适用于MOF,也适用于其他纳米多孔材料。此外,在保持相同构建思路的前提下,研究人员设想可以对2D-IPHs进行改进,例如引入参数梯度统计,类似于已用于提高能量直方图表示信息丰富度的能量梯度统计。

**结论部分翻译**:在此,研究人员展示了二维相互作用参数直方图(2D-IPHs)提供了一种简单、低成本、基于物理的MOF表示方法,用于吸附学习。这些2D-IPHs捕获了由静电和色散相互作用势特征表征的吸附位点分布。基于物理的MOF表示提供了一条途径,可构建跨材料可迁移、能利用炼金数据集、且对用于生成数据的分子模拟模型不准确性更具鲁棒性的吸附模型。在各种预测任务中,2D-IPHs一致地使模型能够准确学习吸附特性,并获得与分层筛选相关的排序保真度。例如,2D-IPHs促进了多未见真实小分子(非极性、近球形)的完整吸附等温线预测模型;然后,对于超出上述模型范围的吸附质,2D-IPHs通过单特征堆叠支持高效的新模型特化。此外,2D-IPHs促进了跨越色散和静电主导吸附的分子亨利常数预测,同时在训练数据严重受限时也显示出对归纳式迁移学习的促进作用。综合来看,这些结果表明2D-IPHs具有极具吸引力的特性,如可扩展性、跨吸附区间的适用性、与数据高效训练策略的有效性,以及简单性,这可能会增加其更广泛应用的吸引力。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号