《Digital Chemical Engineering》:Bayesian Transfer Learning with Monte Carlo Markov Chains for Kinetic Modelling of Pilot Plant and Industrial Data
编辑推荐:
本文针对化工过程中不同规模数据集(如中试装置与工业装置)因各自覆盖设计空间不同而导致单一数据集难以稳健估算所有模型参数的问题,研究人员提出了一种结合贝叶斯传递学习和马尔可夫链蒙特卡洛方法的动力学模型参数拟合新策略。该方法利用贝叶斯定理和先验分布整合不同数据源信息,有效减少了参数过拟合,并通过加氢脱氮过程的案例研究,证明其能获得比传统两阶段直接搜索方法更稳健的模型,为处理复杂、异质数据源的模型开发提供了高效工具。
在化工过程工程领域,开发精准且稳健的动力学模型对于反应器的模拟、设计、优化与控制至关重要。然而,对于石油炼制、生物制药或生物基材料处理等复杂系统,这一过程挑战重重。模型往往因缺乏详细的反应网络知识而高度简化或集总,包含大量需估算的经验参数。理想状况下,我们希望通过有限的实验(如昂贵的工业中试或工业装置运行数据)就能构建出强大的模型。现实却很骨感:实验室、中试装置和工业装置的数据通常覆盖了设计空间的不同区域。例如,精心设计的中试实验能系统性地研究温度、压力等操作条件的影响,但对原料特性的覆盖有限;相反,工业数据虽然原料变化丰富,但由于生产追求稳定运行点,操作条件的变异度很小,难以准确估算反应级数、活化能等动力学参数。如果简单地将这些异质数据集合并训练模型,又会因为数据量级、测量噪音、催化剂失活等因素差异而问题重重,特别是容易导致某些参数过拟合,使模型在实际应用中的外推能力变差。
为解决这一难题,发表在《Digital Chemical Engineering》上的这项研究引入了一种创新的建模框架。研究人员巧妙地将贝叶斯统计学中的传递学习概念与马尔可夫链蒙特卡洛算法相结合,旨在融合不同来源数据集的长处,同时规避其各自的短板,从而获得更为稳健的动力学模型参数估计。
为了验证这一方法,研究人员聚焦于炼油工业中一个关键的加氢处理过程——加氢脱氮。氮化物是后续加氢裂化催化剂的有毒抑制剂,因此准确预测HDN反应器的出口氮含量(氮泄漏)对全流程优化至关重要。研究的核心是一个描述HDN动力学的n阶可逆反应集总模型,其反应速率方程包含了前向反应速率常数、活化能、反应级数、压力影响指数、热力学限制项以及依赖于原料树脂、氮、硫含量的经验校正因子。针对工业装置长期运行中存在的催化剂失活问题,研究还建立了一个关联失活速率与温度、原料康氏残炭、沥青质含量、氢分压等操作条件的失活模型。评价模型性能时,他们采用了更贴合工业操作实际的ΔT指标,即模拟氮泄漏值与观测值匹配所需的温度调整量。
关键技术方法
研究采用了一套混合计算架构来高效实施所提出的方法。核心的动力学模型、失活模型及ΔT计算以Fortran语言实现并编译为共享库,以确保数值求解常微分方程的计算效率。参数识别与贝叶斯传递学习的核心算法——马尔可夫链蒙特卡洛则使用Python编程实现,研究人员自行编写了算法代码以完全掌控细节。通过Python调用Fortran编译库的方式,兼顾了计算性能与开发的灵活性。研究使用了两个异构数据集:一个包含117个数据点、覆盖20种不同原料、旨在充分激发动力学参数的中试装置数据集;另一个来自19套工业加氢处理装置的28个运行周期,包含8612个有效数据点,提供了丰富的原料特性变化信息,但操作条件变化有限。研究对比了提出的贝叶斯传递学习方法与一种传统的两阶段直接搜索方法。
研究结果
1. 参数识别策略
研究比较了三种参数识别策略:简单合并数据集、传统的两阶段直接搜索法(先在中试数据上拟合动力学和原料参数,再在工业数据上固定动力学参数、仅拟合原料和失活参数),以及本文提出的贝叶斯传递学习方法。贝叶斯方法的核心在于,先利用MCMC算法从中试数据集(源数据)中获取模型参数的先验概率分布,然后在拟合工业数据集(目标数据)时,将此先验分布作为贝叶斯定理中的先验项引入,与目标数据的似然函数共同决定后验分布。这样,参数在偏离先验值时,会受到“惩罚”,从而约束了在目标数据中可辨识性差的参数(如活化能)发生过拟合。
2. 参数分布行为
通过分析不同参数在后验分布中的演变,研究清晰地展示了方法的有效性。对于在中试数据中可辨识性良好、但在工业数据中易过拟合的动力学参数(如活化能Ea),其后验分布被先验分布强烈约束,分布范围变窄且均值接近先验期望值。这表明算法成功阻止了这些参数为适应工业数据噪声而发生不合理的大幅度偏移。相反,对于在中试数据中由于原料样本少而可辨识性差的原料经验参数(如加权平均沸点WABP项的指数ν),其后验分布则能够基于工业数据提供的丰富原料信息,显著地偏离先验分布(其先验本身呈多峰分布,表明中试数据的不确定性),并收敛到一个明确的单峰分布,从而获得了更好的确定。
3. 模型性能比较
通过对比两种方法在源数据(中试)和目标数据(工业)上的预测误差(以ΔT的均方根误差RMSE衡量),贝叶斯传递学习方法的优势得以量化。传统的两阶段直接搜索法在第二步用工业数据重新拟合原料参数后,虽然工业数据上的RMSE为5.58°C,与贝叶斯方法的5.23°C相近,但其对中试数据集的预测能力出现了严重退化(RMSE从初始的2.27°C恶化到4.78°C)。这证实了固定部分参数的做法会因模型结构不匹配而导致信息丢失和过拟合风险。而贝叶斯传递学习方法则能在显著提升对工业数据拟合能力(RMSE 5.23°C)的同时,较好地保持对中试数据的预测精度(RMSE 2.94°C),实现了在两个数据集上的稳健表现。
研究结论与意义
本研究表明,基于贝叶斯传递学习和马尔可夫链蒙特卡洛的参数拟合方法,能够有效整合来自不同规模和来源的异构数据集(中试与工业),构建出更加稳健的动力学模型。该方法通过引入源数据提供的参数先验分布,作为一种概率约束,巧妙地平衡了不同数据集的信息:它约束了在目标数据中可辨识性差但物理意义明确的参数(如动力学参数),防止其过拟合;同时允许在目标数据中信息充分的参数(如原料经验参数)根据新数据更新。与需要先验专家知识来手动选择固定参数的传统两阶段法相比,这种数据驱动的方法更具系统性,并能通过交叉验证自动确定先验权重。尽管MCMC算法的计算成本高于传统的直接搜索法,但其在提升模型稳健性和提供参数不确定性量化方面的优势,使其在处理数据稀缺或异质性的复杂过程建模中具有重要价值。这项研究不仅为加氢脱氮等炼油过程的精确建模提供了新工具,其方法论亦可推广至其他需要融合多尺度、多源数据的化工过程建模、乃至更广泛的基于物理机理与数据驱动的混合建模领域。