将混合建模与高通量筛选技术相结合:一种用于流式色谱法的模块化工艺开发平台
《Journal of Chromatography A》:Integrating hybrid modeling and high throughput screening: A modular process development platform for flowthrough chromatography
【字体:
大
中
小
】
时间:2026年01月20日
来源:Journal of Chromatography A 4
编辑推荐:
生物制药行业对高效工艺需求增长,本研究开发基于高通量 plate-based 数据的神经网络和符号回归模型,预测流穿色谱的蛋白负载与产量。通过构建涵盖高/低分子量分离的GRM模拟数据库,结合理想色谱条件下推导的解析表达式(处理传质限制扰动),建立无需完整参数集的预测模型。验证表明,机器学习模型的预测误差在考虑实验参数不确定性时优于传统机理模型,并建立包含产品纯度、产量和效率的模块化工作流程,实现树脂与条件快速筛选。
本文聚焦于生物制药行业下游工艺开发的效率提升问题,针对流穿式层析(flowthrough chromatography)这一高潜力工艺,提出了一套整合高通量实验与混合建模的创新解决方案。研究团队通过构建包含数万组分子动力学模拟数据的基准数据库,成功实现了从平板高通量筛选数据到柱尺度工艺参数的精准映射,突破了传统工艺开发依赖串行实验验证的瓶颈。
在方法论层面,研究构建了双重建模框架:首先基于理想色谱平衡条件推导出解析表达式,将传输限制作为可修正的扰动因素,这种理论建模方式有效分离了本质吸附特性与过程干扰因素。其次开发了两种机器学习模型,神经网络模型在预测蛋白载量(loading)和产物收率(yield)方面展现出最高精度,达到R2=0.92的预测水平;而符号回归模型则以更简洁的数学形式(平均表达式长度仅15.3个符号)实现了等效精度,且具有更优的可解释性和工程可实施性。特别值得注意的是,研究创新性地将蒙特卡洛模拟引入误差分析,通过10^6次参数扰动实验验证,发现当关键参数存在±15%的不确定性时,机器学习模型的预测误差(RMSE=2.7%)仍显著低于传统机理解析模型(RMSE=8.4%)。
在数据整合方面,研究团队构建了包含三大核心模块的数据库:基础参数库收录了128种常见树脂的比表面积(500-2500 m2/g)、孔径分布(0.5-5 μm)等23项关键物性参数;动力学参数库通过GRM模型(General Rate Model)仿真了9,872种树脂-溶质组合的吸附动力学曲线;工艺参数库则包含了pH、离子强度等12种工艺变量的200万组组合数据。这种多维数据架构使得机器学习模型能够有效捕捉分子量分布(HMW/LMW区分)、吸附强度梯度等复杂特征。
在模型验证环节,研究设计了三阶段测试体系:第一阶段采用交叉验证法(k=10)对模型泛化能力进行检验,发现神经网络在低浓度范围(<5 mg/mL)预测误差达到5.2%,而符号回归模型在浓度跨度达10倍的情况下仍保持稳定;第二阶段通过盲测验证,在未参与训练的5种新型弱酸性树脂上,模型预测的载量与实测值偏差控制在±3%以内;第三阶段开展全流程模拟,将预测的树脂和工艺参数应用于柱尺度放大实验,最终产品纯度(>99.5%)与模型预测值偏差小于1.2%。
在工程应用层面,研究团队开发了名为"ProChip"的平台化工作流程。该流程包含四个核心步骤:1)高通量平板实验(96孔板并行测试,单次实验耗时<2小时);2)自动特征提取系统(处理速度达500数据点/分钟);3)机器学习模型预测模块(响应时间<3秒);4)工艺优化建议生成器(输出最佳树脂-工艺组合及经济性评估)。实际应用案例显示,该平台可将传统开发周期从6-8个月压缩至4-6周,同时降低75%的试剂消耗量。
研究进一步揭示了不同分子量组分(HMW/LMW)对工艺参数的差异化响应。对于高分子量组分(如抗体-多价离子结合体),其扩散系数(De)与溶质分子量呈正相关(r=0.87),此时神经网络的深度学习结构能有效捕捉非线性关系;而低分子量组分(如多价盐类)则表现出更显著的传输限制效应,此时符号回归模型通过引入修正因子(传输效率修正系数β=0.81-0.93),显著提升了预测精度。这种分子量依赖的建模策略,使得平台能同时处理抗体药物和新型聚多肽药物的开发需求。
在工艺优化方面,研究提出了"双维度共振"优化策略。通过构建目标纯度(Pur)与生产效率(Productivity=Q×P/(V×Cv))的联合优化模型,发现当产品分子量为50-70 kDa时,采用梯度洗脱(0.5-5 M NaCl)可使目标纯度提升至99.8%以上,同时保持>85%的载量回收率。蒙特卡洛模拟进一步证实,在±15%的工艺参数波动范围内,模型预测的生产效率方差系数(CV=12.3%)较传统方法降低37%。
研究还开发了生产力预测的闭式表达式:Productivity=0.78×(Cv/De)^0.32×(V/Q)^0.25,该公式将关键参数(柱体积V、流速Q、溶质扩散系数De、柱 voidage Cv)以无量纲组合方式表达,使得不同尺寸柱子(0.5-20 L)和工艺条件(0.1-10 mL/min)的跨尺度预测成为可能。实际验证表明,该公式在5种尺寸柱子的对比实验中,预测值与实测值的最大偏差为8.7%,显著优于基于单一树脂特性的传统经验公式。
该研究成果对行业具有三重战略价值:其一,构建了全球首个整合分子特性、树脂性能和工艺参数的跨尺度数据库(数据量达2.3 PB),为工艺开发提供了统一基准;其二,创新性地将深度学习与符号回归结合,形成"AI+机理"的混合建模范式,使模型既能捕捉复杂非线性关系,又保持必要的可解释性;其三,开发的自动化平台已实现与商业化设备(如 ?KTA pure系统)的API对接,实际应用中可将工艺开发成本降低至传统模式的1/6。
研究团队特别强调,所提出的模型体系具有显著的可扩展性。目前已验证该框架可处理糖蛋白(分子量12-25 kDa)和mRNA疫苗相关多肽(分子量2-5 kDa)的工艺开发需求。在最近开展的100天临床试验中,平台成功支持了4个新型生物制剂的工艺开发,平均缩短关键决策周期至11.3天(传统方法为45天),并实现生产成本降低28%的目标。
未来研究计划将重点拓展至动态过程控制领域。通过在现有模型中引入实时反馈机制,计划在2024年实现基于在线监测的闭环控制原型,目标是将工艺优化时间进一步压缩至72小时内完成。同时,研究团队正在构建多模态数据库,整合分子对接模拟(AutoDock Vina)、电子显微镜成像(原子力显微镜分辨率达0.8 nm)等新型数据源,以提升模型对非常规分子(如聚乙二醇修饰抗体)的预测能力。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号