利用强化学习实现乳液聚合过程中非线性聚合物摩尔质量分布的在线控制

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computers & Chemical Engineering》：Towards online control of molar mass distributions of non-linear polymers in emulsion polymerization using reinforcement learning

【字体：大中小】 时间：2026年02月23日 来源：Computers & Chemical Engineering 3.9

编辑推荐：

　　乳液聚合中基于强化学习的摩尔质量分布实时控制策略研究，通过代理神经网络模型降低计算成本，实现半批量反应器中温度、单体及引发剂投料率的动态优化，验证了强化学习在复杂非线性系统控制中的有效性。

Kiarash Farajzadehahary|Shaghayegh Hamzehlou|Nicholas Ballard|José M. Asua

POLYMAT，巴斯克大学（UPV/EHU），Joxe Mari Korta中心，Tolosa大街72号，20018 Donostia-San Sebastián，西班牙

摘要

将机器学习应用于聚合物反应工程中，可以优化和控制那些使用传统方法难以控制的复杂反应过程。本研究探讨了其用于辅助控制通过乳液聚合合成的非线性聚合物的分子量分布（MMD）的方法。MMD是影响粘合剂和涂料等行业中聚合物性能的关键因素，但由于在线测量技术的限制以及反应动力学模型的高复杂性和计算成本，控制和非线性聚合物的MMD颇具挑战性。本文使用了一个模拟的反应器系统，通过强化学习（RL）来学习控制策略。该控制策略可用于实时决策和在线控制MMD，通过选择关键参数（如反应器温度以及单体和引发剂的进料速率）。本研究的一个重要进展是采用了基于神经网络的替代模型，该模型显著缩短了训练时间，并提供了预测能力，使操作员能够实时评估不同的控制策略并预测过程结果。

引言

乳液聚合是生产水基聚合物分散体的主要技术，这些分散体广泛应用于涂料、粘合剂以及塑料的改性剂等领域（Aguirre等人，2023年）。在这些材料的性能特征中，分子量分布（MMD）在决定最终产品的机械和流变性能方面起着关键作用，直接影响其在苛刻应用中的性能（Echevarría等人，1998年；Ballard，2024年）。

乳液聚合的性质涉及多个相和复杂的化学动力学，因此在实现一致的产品质量方面存在重大挑战，尤其是在工业规模上。由于该过程容易产生批次间不可重复性，通常需要先进的控制策略来确保高质量材料的一致生产。此外，市场对更高效、更环保的材料生产提出了越来越高的要求（Asua，2023年）。

传统的乳液聚合控制方法主要关注易于测量的参数，如单体转化率和共聚物组成，采用实时监测技术（Alb，2013年；Alb和Reed，2008年），例如量热法（de Buruaga等人，1997年；Gugliotta等人，1995年；BenAmor等人，2002年；Guinot等人，2000年）和光谱方法（Santos等人，2005年；van den Brink等人，2001年；Reis等人，2007年；Elizalde等人，2004年；Reis等人，2004年）。然而，由于缺乏可靠的在线传感器，控制像MMD这样的复杂特性仍然具有挑战性（Asua，2023年）。虽然凝胶渗透色谱法可以为可溶性聚合物提供分子量信息（Alb和Reed，2009年），但许多乳液聚合物（尤其是丙烯酸酯）的非线性和交联性质使得分析变得复杂。尽管不对称流场流分馏等先进技术对复杂聚合物显示出潜力，但其较长的分析时间使其不适用于实时控制（Barquero等人，2021年）。最近引入了一种基于每个粒子平均自由基数（n?）的新软传感器方法，该方法可以确定粒子间的自由基分布和相应的聚合物链长度，从而可能实现实时MMD估计（Farajzadehahary等人，2024年）。然而，基于这种软传感器实现有效的控制系统仍然是一个未解决的挑战，需要创新的方法来在线控制乳液聚合中的MMD。

除了获取在线数据的难度外，乳液聚合的第一性原理模型的计算负担也为部署先进控制策略增加了障碍。尽管在化学工程中已经建立了在线解决动态优化问题的优化方法，但将其应用于复杂的聚合过程的第一性原理模型却存在问题。例如，关于分子量控制（Anjou等人，2003年）和粒子形态控制（Faust等人，2021年）的研究表明，优化过程中所需的重复模型评估会导致计算时间过长，使得实时实施变得不切实际。

鉴于这些限制，应用机器学习技术，特别是强化学习（RL），为克服传统控制方法的局限性提供了另一种途径（Gow等人，2022年；Farajzadehahary等人，2025年）。在这种方法中，控制器（称为代理）通过与模拟反应器环境的反复交互来学习将反应器状态映射到最优控制动作的策略。一旦训练完成，该控制策略就可以实时使用，因为确定每个控制动作只需要通过神经网络一次，而这只需要几秒钟的时间。这种方法在化学过程控制中受到了越来越多的关注，因为它能够处理在线环境中通常难以用更传统的优化方法处理的复杂非线性动态。

在化学过程控制领域，RL在为批次和半批次反应器中的聚合过程学习控制策略方面取得了显著成功（Zhu等人，2021年；Singh和Kodamana，2020年；Sass等人，2022年）。例如，深度RL已被应用于设计原子转移自由基聚合（ATRP）过程以实现目标MMD。这种方法学习了一种控制策略，通过自主选择在整个聚合过程中添加化学试剂的动作，将MMD调整到不同的形状，包括具有不同方差的高斯分布和双峰分布（Li等人，2018年）。RL还被应用于半批次聚合，使用深度确定性策略梯度（DDPG）算法来学习控制策略，通过调整单体和引发剂的进料速率来控制重量平均分子量，从而提高了传统控制方法的适应性（Ma等人，2019年）。这些应用突显了RL在处理化学过程中典型的复杂动态系统方面的适应性和潜力。

基于这一潜力，我们之前的工作展示了使用RL学习乳液聚合中粒子形态控制和优化的控制策略的可行性（Ballard等人，2024年）。通过计算机模拟研究，表明基于现有的动力学模型，RL可以学习一种策略，有效地导航复杂的形态演变过程，优化过程条件以实现所需的粒子结构。这种在控制形态方面的成功表明，RL在解决MMD控制的复杂性方面也可能同样有效。然而，我们最初的RL形态控制方法面临几个重大缺点：首先，训练过程计算量大，每种目标形态都需要一轮耗时的训练；其次，尽管控制策略建议了合理的控制动作，但控制器的黑箱性质使得无法预测聚合的最终结果。特别是在过程扰动的情况下，这一点在工厂规模的过程控制中可能会特别成问题，因为工厂操作员需要能够评估所提出的控制策略。

本文探讨了使用RL学习半批次乳液聚合中MMD优化和在线控制的控制策略的潜力。与之前的工作相比，一个重要的进步是将规划形式集成到ML架构中，使用了Sutton提出的Dyna方法（Sutton，1991年）。为此，基于神经网络的替代模型（此处称为仿真器）在计算成本高昂的第一性原理动力学模型生成的数据上进行了训练。一旦训练完成，仿真器能够以显著降低的计算成本再现动力学模型的输出。这提高了我们RL方法的效率和适用性，并允许快速为新MMD目标进行训练。此外，策略模型与仿真器的结合可以提供带有不确定性量化的MMD即时预测，从而实现控制策略的实时评估。

本文的结构如下：第2节介绍了作为RL交互环境的MMD动力学模型，并详细介绍了RL方法，重点介绍了软代理-评论家（SAC）方法及其实现。第3节展示了结果，包括在给定MMD下反应的优化、在过程扰动下的反应在线控制以及MMD估计的软传感器的开发。第4节介绍了Dyna方法，展示了神经网络替代模型如何减少训练时间同时保持准确性，使得工业应用成为可能。最后，展示了预测能力，为操作员提供了预测洞察力和不确定性量化，以增强过程管理。

节选内容

动力学模型

本研究中使用的数学动力学模型基于之前开发的用于模拟丁基丙烯酸酯（BA）种子半批次乳液聚合的框架（Farajzadehahary等人，2024年）。动力学方案包括了关键反应，如引发、链转移至单体、分子内和分子间转移至聚合物，以及最终的通过 disproportionation 和 combination 的终止反应，反映了复杂性

为给定MMD优化反应

在建立了数学框架和RL方法后，本节展示了应用SAC算法学习丁基丙烯酸酯半批次乳液聚合中MMD控制和优化的策略的结果。以参考过程中的目标MMD（见图S1）为依据，SAC算法被用来训练一个策略网络，以优化种子选择以及单体进料速率、引发剂进料速率和温度的配置

通过ANN仿真器加速训练

在聚合过程的RL中，训练的时间消耗是一个主要挑战，特别是当依赖详细的动力学模型时。每次与模拟反应器的动力学模型交互都需要大量时间，这使得训练RL代理在数千次交互中变得计算成本高昂且耗时。为了解决这个问题，实现了一种Dyna方法，这是一种在强化学习中常用的加速方法

结论

本研究展示了应用机器学习技术，特别是RL，来学习乳液聚合过程中非线性聚合物的MMD控制策略。最初的RL实现使用了在线环境中的SAC算法，其中代理通过与模拟反应器的交互来学习控制策略。虽然这种方法有效地匹配了目标MMD，但它计算要求高，需要大量时间进行模拟

CRediT作者贡献声明

Kiarash Farajzadehahary：撰写——原始草稿、软件、方法论。Shaghayegh Hamzehlou：撰写——审稿与编辑、方法论。Nicholas Ballard：撰写——审稿与编辑、监督、研究、概念化。José M. Asua：撰写——审稿与编辑、监督、概念化。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号