基于物理信息机器学习的“永久化学品”降解特性高通量筛选新策略

《Advanced Science》:ML Workflows for Screening Degradation-Relevant Properties of Forever Chemicals

【字体: 时间:2026年02月02日 来源:Advanced Science 14.1

编辑推荐:

  本文针对全氟和多氟烷基物质(PFAS)环境持久性难题,开发了两种物理信息驱动的机器学习工作流:通过三维空间电子密度关联与高斯过程回归(GPR)预测全局性质(极化率、热力学稳定性),结合图论特征与随机森林(RF)精准预测局部C─F键解离能(BDE)。模型实现了极化率(R2≈0.92)、焓值(R2≈0.97)及BDE(R2≈0.87)的高精度预测,为PFAS降解策略的理性设计与优先级筛选提供了关键计算工具。

  
研究背景与挑战
全氟和多氟烷基物质(PFAS)因碳-氟键(C─F)的高强度(BDE ~530 kJ/mol)而具有极强环境持久性,其降解策略开发面临化学空间庞大、传统实验与模拟方法成本高的瓶颈。
数据集构建与特征工程原理
研究整合了文献、DFT计算及公共数据库数据,构建包含短链(C4)至长链(C30)PFAS的多样化数据集。基于“全局性质需空间特征,局部性质需拓扑特征”的物理原则,开发双工作流:
  1. 1.
    全局性质工作流:将分子三维结构离散化为体素网格,计算电离能、电负性等原子属性的空间自相关函数,通过主成分分析(PCA)降维后输入GPR模型。
  2. 2.
    局部性质工作流:以目标C─F键为中心,统计同心球层内原子类型(如F1、O2)的数量,生成图论特征向量,输入RF模型。
模型性能与验证
  • 全局性质预测:GPR模型对极化率的预测R2达0.92(MAE=9.20 Bohr3),对焓值的预测R2达0.97(MAE=76.44 kJ/mol)。模型不确定性量化显示,高方差区域对应训练数据稀疏的分子(如长链醚类PFAS),为主动学习提供指引。
  • 局部性质预测:RF模型在PFAS半经验BDE数据上实现R2=0.87(MAE=1.61 kcal/mol),且零样本迁移至非PFAS分子仍保持R2=0.95。SHAP分析证实球层0的氟原子数(F1)对BDE预测贡献最大(42%),符合局部化学环境主导键能的物理规律。
机理解读与修复应用
  • 结构-性质关联:醚键插入破坏全氟烷基链周期性,导致热力学不稳定(ΔH>0)和高极化率;羧酸头基通过共振稳定效应降低α-C─F键BDE(如PFOA的BDE较PFOS低5–12 kJ/mol)。
  • 修复策略筛选:联合极化率(吸附潜力)与最小BDE(降解难度)构建分级筛选标准,例如优先选择高极化率(>150 Bohr3)且低BDE(<110 kcal/mol)的分子进行吸附-还原联合处理。
局限与展望
当前模型对环状、两性离子及超长链(C15+)PFAS覆盖率不足,且未显式包含溶剂化效应。未来将通过主动学习扩展数据集,并耦合过渡态理论预测动力学参数,推动可降解氟化表面活性剂的逆向设计。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号