红外光谱描述符:催化反应产率预测的新范式与实验空间重构

【字体: 时间:2026年02月14日 来源:Molecular Informatics 3.1

编辑推荐:

  本文聚焦红外(IR)光谱描述符在催化反应产率预测中的突破性应用,通过wavenumber-based IR descriptors(如WaveIR017)精准捕获配体结构-电子特性,显著优于传统分子描述符(OHE/Mordred/MACCS等),为反应空间优化提供兼具高精度与化学可解释性的新工具。

  
红外光谱描述符在催化反应产率预测中的创新应用
基于红外(IR)光谱的分子描述符设计正成为催化反应产率预测领域的新突破点。传统分子描述符如Mordred、MACCS keys、Morgan指纹等,虽广泛应用于机器学习(ML)模型,却难以精准捕获配体结构-电子特性的协同效应。本文通过系统研究证实,wavenumber-based IR descriptors(如WaveIR017)在Pd催化芳基化与Suzuki-Miyaura偶联(SMC)反应中,显著提升产率预测精度,为实验空间重构提供新范式。
描述符设计策略与光谱特征提取
研究采用密度泛函理论(DFT)计算获取配体IR光谱,聚焦0-4000 cm-1与0-1700 cm-1两个关键区域。通过k-means聚类构建两类描述符:Intensity-based IR descriptor(IntIR)提取谱峰强度特征,Wavenumber-based IR descriptor(WaveIR)则基于波数信息编码分子振动模式。实验表明,WaveIR在保留化学可解释性的同时,具备更优的计算稳定性。
数据集构建与模型验证
研究选用两个典型催化反应数据集:Shields等报道的直接Pd催化芳基化反应(12种配体×4种碱×4种溶剂)与Perera等的SMC反应数据。采用Leave-One-Group-Out(LOGO)交叉验证评估模型泛化能力,对比OHE、Mordred、MACCS、Morgan指纹、RDKit及DFT描述符性能。结果显示,WaveIR017在Pd催化芳基化中取得最佳效果(R2=0.49,MAE=13.35,ρ=0.71),WaveIR040在SMC中表现最优(R2=0.54,MAE=12.26,ρ=0.72)。
指纹区描述符的显著优势
限制波数范围至0-1700 cm-1(指纹区)的WaveIR017描述符,在Pd催化反应中预测精度提升23%。该区域富含分子结构特征,有效规避1700-4000 cm-1功能基团区引入的噪声。相较之下,IntIR因强度计算对电子分布敏感,预测稳定性不足。这一发现为IR光谱在ML应用中的参数选择提供重要依据。
预测误差与实验变异性关联
分析显示,实验产率标准差(STD)与预测平均绝对误差(MAE)呈显著正相关(Pearson r=0.796-0.854),表明实验数据波动是模型误差主要来源。值得注意的是,MAE与Spearman秩相关系数(ρ)无显著关联,证明即使绝对误差较大,WaveIR仍能保持条件排序准确性,对实验设计具有实用价值。
结论与展望
wavenumber-based IR descriptors通过同时编码电子与结构特征,在小样本数据集(如高通量实验HTE)中展现优异泛化性能。指纹区描述符在提升预测精度的同时,增强模型化学可解释性。未来研究可结合溶剂/碱基等参数的高级描述符设计,进一步推动反应空间优化范式革新。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号