用于铱催化甲醇羰基化的数据高效且可解释的机器学习方法：基于钌的运行条件优化及适用于实际工艺的指导建议

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Chinese Journal of Chemical Engineering》：Data-efficient and interpretable machine learning for iridium-catalyzed methanol carbonylation: Ru-enabled operating windows and process-ready guidance

【字体：大中小】 时间：2026年02月27日 来源：Chinese Journal of Chemical Engineering 3.7

编辑推荐：

　　本研究针对甲酸羰基化中铱基催化剂的优化难题，整合文献与专利数据构建分层模型，结合Mixup数据增强和贝叶斯优化，分别采用支持向量回归（SVR）和循环神经网络（RNN）建立高精度预测模型。通过SHAP分析和Kendall相关系数揭示铑共催化作用机制：铑的引入使即时水浓度成为主导因素，通过调节酸/碘活性及甲基碘再生，增强铱的有效周转率。据此提出铑含体系操作窗口优化策略，铑无体系则侧重初始乙酸/甲基碘浓度调控，为连续化生产提供可解释的智能决策支持。

周晓坤|杨涛|秦尧|李月|魏琪月|谢金辉|吴彦勋|刘玉昌|魏增喜|赵双良

中国广西大学化学与化学工程学院绿色化学新材料大学工程研究中心，南宁530004

摘要

甲醇羰基化是生产乙酸的主要方法，但由于数据集有限且不均匀，均匀铱基体系的配方筛选和过程控制受到阻碍。我们整理了文献和专利记录，并基于钌共催化剂的存在构建了分层模型，结合数据增强和贝叶斯模型选择，实现了高精度、可解释的形成速率预测器。多尺度分析（包括等级相关性和SHAP分析）表明，添加钌（Ru）改变了速率控制：原位水含量成为主要驱动因素，因为它影响了酸度/碘化物活性和甲基碘（MeI）的再生。因此，铱（Ir）的边际效应增加，而初始乙酸（AcOH）/MeI的独立影响减弱，这是由于溶剂和MeI池的迅速建立。根据这些发现，我们为含Ru的系统定义了操作窗口，优先考虑原位浓度管理，将H₂O保持在相对较低但非零的水平，并将MeOAc维持在MeOAc富集区域，此时SHAP曲线开始变平，表明收益递减。在此基础上，通过小幅调整Ir负载和压力来提高每个Ir的有效转化率，而不破坏已建立的原位平衡。

引言

乙酸（CH₃COOH）是现代工业中产量最大、应用最广泛的碱性化学品之一[1]、[2]、[3]。目前，甲醇羰基化路线是主要的生产技术，占全球产量的85%以上[4]。基于铑的催化体系在这一过程中得到了广泛应用[5]、[6]。然而，这些催化剂价格昂贵，并且在操作过程中容易因沉淀而失活，导致巨大的经济损失[7]、[8]。近年来，基于铱的催化剂在较低成本下表现出优异的催化性能，因此成为基于铑的体系的可行替代品[9]、[10]。

在工业实践中，基于铱的甲醇羰基化系统由三个主要组成部分构成。(i) 催化活性中心是一种与碘化物配位的铱复合物，它介导了甲基化、CO插入和产物形成还原消除等关键步骤[11]。(ii) 碘循环主要由甲基碘（MeI）和氢碘化物/碘化物（HI/I^-）组成，提供甲基化剂并帮助保持铱物种的活性形式[12]。(iii> 溶剂介质和促进剂：反应在低水条件下进行，可选择性添加少量钌（Ru）作为共催化剂以提高转化率[13]。

就性能而言，催化活性主要受铱负载量、MeI浓度、CO分压和碘化物的有效活性控制；少量水有助于将乙酰碘水解为乙酸[4]。选择性由催化剂的配位环境决定：配体的电子和空间特性调节I^-/MeI/CO的结合/释放以及金属中心的空位可用性，从而影响氧化加成、CO插入和还原消除的相对容易程度，进而决定主反应或副反应的优先级[11]、[12]。催化剂的稳定性和物种形态则需要适当的水和碘平衡：水平不足会促进铱物种的聚集和失活，而过多的水则会导致腐蚀并增加副反应[14]。

然而，均匀铱基体系的配方筛选和过程优化仍受到三个相互关联的瓶颈的制约：(i) 对关键活性物种的结构-活性关系及其失活途径理解不完全，再加上数据稀少且高度不均匀[15]；(ii) 依赖经验性的试错方法和低通量实验，优化单一配方可能需要数千次实验，耗时多年且成本高昂[16]、[17]、[18]；(iii) 活性、选择性和稳定性之间存在内在权衡，这阻碍了多目标优化和跨操作窗口的稳健性。在共催化剂、溶剂、碘化物、水和酯类强烈耦合的复杂催化剂配方中，这些挑战尤为突出。

近年来，催化剂配方的发现正从经验驱动的方法转向结合高通量实验、计算化学和数据驱动建模的综合范式。自动化和微通道平台显著提高了数据采集的效率[19]、[20]；密度泛函理论（DFT）和分子模拟继续深化了对电子结构、过渡态和溶剂效应的机制理解[21]；机器学习和材料基因组学方法为从组成和结构到性能的快速预测建模和过程控制策略的逆向设计提供了途径[22]。然而，对于数据获取成本高、数量有限且分布不均的催化系统，在小样本限制下构建高精度、可解释的模型仍然是实际应用中的核心挑战[23]、[24]。

为了解决这一挑战，机器学习社区提出了转移学习、半监督学习和数据增强等策略，以提高模型的泛化和稳健性[25]、[26]、[27]。其中，Mixup通过线性插值特征和标签来生成合成样本——有效地在真实样本“之间”创建示例。这增加了可学习决策边界的密度，同时不改变整体数据分布，从而减轻了对特异性噪声和偶然伪影的过拟合[28]。Mixup在多个领域展示了强大的性能：Smucny等人[29]将其应用于基于fMRI的精神疾病治疗反应预测，将准确率从76.5%提高到80.1%，同时减少了过拟合并提高了泛化能力；Dong等人[30]提出了一种基于Mixup的源代码分类方法，准确率提高了6.24%，稳健性提高了26.06%；Wang等人[31]将其纳入手指静脉识别系统，达到了99.51%的检测准确率。

我们从文献和专利中整理了380个基于铱的甲醇羰基化条目，并根据是否存在钌共催化剂（Ru）将其分层：144个含有Ru，236个不含Ru。针对乙酸形成速率，我们为这两个子集构建了并行预测和解释工作流程。通过系统比较六种候选算法（结合Mixup增强和贝叶斯优化，并通过交叉验证的R²/MAE和稳健性进行基准测试），确定了最佳配置：对于含Ru的子集使用支持向量回归（SVR），对于不含Ru的子集使用循环神经网络（RNN）。然后我们使用Kendall等级相关性和SHAP分析量化了主要效应和相互作用，以测试引入Ru后决定速率的因素是否重新排序，并阐明潜在的机制变化。基于上述结果，我们为含Ru和不含Ru的两种情况提供了过程调整建议，以支持连续生产设施在更广泛操作条件下的稳定运行和配方优化。

数据集和特征设计

本研究整理了来自开放文献和专利的380个基于铱的羰基化记录，其中144个含有Ru，236个不含Ru。预测目标是乙酸形成速率（mol·L^-1·h^-1）。为了与机制和过程表征保持一致，我们分别对两个子集进行建模，使用相同的输入特征集，同时区分Ru的存在与否：压力、AcOH、MeI、MeOAc(1)、H₂O(1)、Ir（仅含Ru的子集还包括Ru）

结论

基于380个铱催化的甲醇羰基化记录，我们构建了考虑是否存在Ru共催化剂的分层模型。在Mixup增强和贝叶斯优化的综合框架下，我们建立了一个高精度、可解释且实际可应用的乙酸形成速率预测器。支持向量回归（SVR）对于含Ru的子集表现最佳（R² = 0.985，MAE = 0.363），而循环神经网络（RNN）则适用于不含Ru的子集

CRediT作者贡献声明

刘玉昌：方法论。魏琪月：概念化。谢金辉：研究。吴彦勋：形式分析。周晓坤：撰写——初稿。魏增喜：撰写——审阅与编辑。赵双良：撰写——审阅与编辑。李月：数据管理。秦尧：数据管理。杨涛：概念化

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

赵S.和魏Z.感谢广西科学技术重大项目（AA23062019、AA23073019、AA23062020）的支持。本工作还得到了国家自然科学基金（22308063、22178072）的支持。魏Z.还感谢广西石油化工资源加工与过程强化技术重点实验室院长项目（2023Z007）的支持。本工作还得到了广西高层次人才项目的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

数据集和特征设计

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行