通过自助重采样(bootstrap resampling)对偏最小二乘模型(partial least-squares model)进行适配

《Computers & Chemical Engineering》:Partial least-squares model adaptation by bootstrap resampling

【字体: 时间:2026年03月01日 来源:Computers & Chemical Engineering 3.9

编辑推荐:

  软传感器在生物制造中用于通过易测变量预测难测质量属性,常用PLS回归模型。然而模型易受过程条件突变影响,传统自适应方法存在数据不平衡和遗忘有用信息问题。本文提出基于自助法(bootstrap resampling)的模型自适应策略,利用已知突发变化的先验知识,通过有噪声的重复抽样平衡新旧数据,在三个案例(数值模拟、IndPenSim仿真、工业生物制造)中验证了该方法在过渡期更快适应、预测性能更优的特性。

  
埃利亚·阿内塞-费芬(Elia Arnese-Feffin)| 琼伍克·柳(Jinwook Rhyu)| 本杰明·T·史密斯(Benjamin T. Smith)| 克里斯·D·卡斯特罗(Chris D. Castro)| 杰奎琳·M·沃尔弗鲁姆(Jacqueline M. Wolfrum)| 斯泰西·L·斯普林斯(Stacy L. Springs)| 罗杰·A·哈特(Roger A. Hart)| 汤姆·米斯特雷塔(Tom Mistretta)| 理查德·D·布拉茨(Richard D. Braatz)
美国麻省理工学院化学工程系,77 Massachusetts Avenue,剑桥,MA 02139

摘要

软传感器在生物制造中发挥着关键作用,其典型应用是通过工厂仪器中易于测量的变量来估计产品质量属性。为此,广泛使用了数据驱动模型,如偏最小二乘回归(Partial Least-Squares regression)。然而,当工艺条件发生变化时,即使操作员有意进行了调整,这些模型的预测性能也可能下降。模型适应策略可以保持模型的更新,但在工艺发生突然变化时,它们的效果往往不佳。在这项研究中,我们提出了一种新的模型适应方法,该方法利用自举重采样(bootstrap resampling)来理解工艺中的有意突变。通过利用这种知识,可以更有效地使用现有数据。我们在三个案例研究中展示了我们的方法:一个数值示例、一个模拟的青霉素生产过程以及一个工业生物制造过程。与现有的适应策略相比,我们的方法在旧工艺条件和新工艺条件之间的过渡期间实现了更快的适应速度和更好的预测性能。因此,该方法使从业者能够快速恢复软传感器的预测能力,从而明显改善工艺操作和产品质量。

引言

确保生物制造过程中的产品质量是保证生物制药产品安全性和有效性的基础。这是通过持续监测生产过程中的关键工艺参数(Critical Process Parameters, CCPs)和关键质量属性(Critical Quality Attributes, CQAs)来实现的,即产品质量属性和工艺变量。CCPs通常以高采样率在线测量,从而保证适当的分辨率以进行工艺监控和及时故障检测。然而,通常会记录数十个甚至数百个工艺变量,这给传统的单变量监控方法带来了挑战(Reis和Gins,2017)。另一方面,CQAs的数量较少,但往往涉及耗时且昂贵的测量程序,因此可用的观测数据较少(O’Flaherty等人,2020)。这使得在线质量监控变得困难。
数据驱动和机器学习模型可以帮助应对上述挑战。这些模型利用生产过程中收集的数据,在在线CQA预测(Hong等人,2023;Mohr等人,2024)和工艺监控(ündey等人,2004)中证明了其价值。潜在变量方法,如主成分分析(Principal Component Analysis, PCA)(Wold等人,1987;Wise和Gallagher,1996),通过利用工艺变量之间的相关性来降低数据的维度,同时仍保持全面的多变量监控方法,提供合适的监控统计量(Chiang等人,2001)。软传感器(Kadlec等人,2009;Zhu等人,2020)可以通过基于易于测量的工艺变量提供难以测量的CQAs的实时预测来辅助质量监控。在生物制造的背景下,偏最小二乘(Partial Least-Squares, PLS)回归(Geladi和Kowalski,1986;Wold等人,2001)被广泛使用,可以实现CQAs的预测和多变量工艺监控。
PLS模型可以基于历史生产数据开发。然而,模型仅捕获了工艺的“快照”,即手头数据集中的信息。当工艺发生变化时,例如下游处理中的膜污染缓慢或上游处理中培养基成分的变化,预测和监控性能可能会下降(Lima等人,2022)。工艺规模的变化(例如,批次生物反应器中培养体积的变化)可能对模型性能特别有害,因为这会导致混合模式、气液质量传递以及最终生物行为的复杂变化。这些是生物制造过程放大中的众所周知的挑战(Facco等人,2020)。
模型适应方法(Kadlec等人,2011)提供了一种处理工艺变化的方法。传统策略,如移动窗口(moving-window)和指数遗忘(exponential-forgetting),可以与PLS建模结合,设计递归算法进行模型更新(Dayal和MacGregor,1997;Qin,1998)。这些方法易于实现,并且不依赖于影响工艺的变化类型,因此是模型适应的吸引人解决方案。然而,它们对不同类型的变化(例如缓慢漂移或突然变化)的性能有所不同。在数据发生突变的情况下,由于“旧”数据和“新”数据条件之间的强烈不平衡,传统模型适应方法通常在变化后无法立即表现良好(Chu等人,2021)。实际上,新数据可能成为数据集中的异常值,而数据集仍主要由旧数据主导。当模型内存中还保留了一些旧观测值时,也会出现类似问题,因此适应通常只有在所有旧观测值都被遗忘后才能完成。最后,在工艺稳定运行、没有变化发生时,必须注意避免忘记过去数据中存储的宝贵信息。
传统适应方法的一个关键点是,它们通常不对工艺变化的性质或其时间位置做出任何假设,即它们是适应策略(Gama等人,2014)。实际上,即使没有工艺变化,也可以执行这些方法。另一方面,一些工艺变化是事先已知的或可以轻易检测到的,例如,生物反应器的培养体积可以根据产品需求的变化而增加或减少。这种有价值的信息,即工艺中存在明确定义的变化,应该在有信息的适应策略中加以利用。这种策略是所谓迁移学习范式的核心(Chu等人,2021;Briceno-Mena等人,2023)。
在这项研究中,我们提出了一种针对已知工艺突变的适应策略。我们的方法结合了PLS建模和自举重采样(Efron,1979;Efron和Tibshirani,1993)来加速模型适应。具体来说,我们使用自举方法人工扩展包含变化后新条件的数据集,从而避免上述数据不平衡问题。我们通过从新数据中带替换地进行采样以获得合理的观测数量,然后通过添加高斯噪声来破坏每个观测值,该噪声的均值为零,协方差与旧数据中的噪声一致(使用仅基于旧数据的PLS模型估计),以获得真实的扩展数据集。此外,我们进行多次自举重采样以获得多个扩展数据集,校准多个PLS模型,从而获得多个CQA的估计值。通过这种方式,我们获得了CQAs的稳健估计值以及预测不确定性的量化。
本文的其余部分组织如下。我们在第2节介绍与本工作相关的数学方法,并在第3节概述所提出的方法。在第4节中,我们在三个案例研究中展示了所提出的方法:一个简单的数值案例研究、一个基于IndPenSim模型的模拟生物反应器案例研究(Goldrick等人,2015),以及一个工业生物制造过程。最后,在第5节中得出本研究的结论。

章节摘录

数学方法

在本节中,我们介绍了本研究中使用的数学方法,即PLS回归和模型适应策略。所提出的模型适应方法在第3节中介绍。

通过自举重采样进行模型适应

在前一节中,我们提到移动窗口和指数遗忘策略是模型不可知的,即它们独立于所使用的数据驱动模型,因为它们在数据层面操作。这些传统的适应策略也不依赖于影响工艺和数据的变化类型(实际上,即使完全没有变化,也可以运行)。虽然这对实现的简单性来说是一个吸引人的特点,但这也带来了风险

案例研究

在本节中,我们在三个案例研究中展示了所提出的方法。我们首先考虑一个简单的数值案例研究。然后使用IndPenSim模型(Goldrick等人,2015)来模拟一个工艺放大场景。最后,我们将所提出的方法应用于一个工业生物制造过程(Hong等人,2023;Mohr等人,2024)。前两个案例研究是在MatLab R2024a中使用PLS Model Inversion Package代码(Arnese-Feffin等人,2025)和一些额外工具开发的

结论

在这项研究中,我们提出了一种新的模型适应策略,用于应对数据中的突变。利用突变存在的知识来指导所提出的方法,从而以最佳方式使用现有数据。具体来说,我们利用自举理念在突变后立即平衡数据集,以克服数据集中强烈不平衡导致的模型预测性能下降。我们通过从

CRediT作者贡献声明

埃利亚·阿内塞-费芬(Elia Arnese-Feffin):撰写 – 审阅与编辑,撰写 – 原稿,可视化,验证,软件,方法论,调查,形式分析,数据整理,概念化。琼伍克·柳(Jinwook Rhyu):撰写 – 审阅与编辑,撰写 – 原稿,可视化,验证,软件,方法论,调查,形式分析,数据整理,概念化。本杰明·T·史密斯(Benjamin T. Smith):撰写 – 审阅与编辑,撰写 – 原稿,验证,数据整理,概念化。克里斯(Chris)

利益冲突声明

作者声明以下财务利益/个人关系可能被视为潜在的利益冲突:作者声明他们没有已知的财务利益或个人关系可能会影响本文报告的工作。

致谢

这项研究得到了美国食品药品监督管理局在FDA BAA-22-00123项目下的支持,奖励编号为75F40122C00200。本文中的任何观点、发现、结论或建议均为作者所持,并不一定反映财务赞助方的观点。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号