《Biotechnology and Bioengineering》:Development of Raman Spectroscopy and Machine Learning Methods for Protein Aggregate Quantification: Application to BSA in Chromatographic Processes
编辑推荐:
本文开发了一种基于拉曼光谱和机器学习(CNN)的实时监测策略,成功实现了色谱过程中牛血清白蛋白(BSA)单体与聚集体的选择性定量。该研究通过强制降解实验和混合设计识别出酰胺I区等光谱标记物,并结合卷积神经网络(CNN)模型,克服了传统化学计量学(PLS)在低浓度和复杂环境下的精度限制,为生物制药下游过程中蛋白质聚集体的实时质量控制提供了新方法。
1 引言
蛋白聚集是生物制药过程中的关键质量属性(CQA),即使微量寡聚体也可能影响药物安全性和有效性。传统离线检测方法如尺寸排阻色谱(SEC)虽准确但存在时间延迟,无法满足实时过程控制需求。拉曼光谱因其分子特异性、快速采集能力及与水溶液的兼容性,成为过程分析技术(PAT)的理想工具。本研究以BSA为模型蛋白,旨在开发一种基于拉曼光谱的实时定量策略,结合化学计量学与机器学习方法,实现单体与聚集体的选择性监测。
2 材料与方法
2.1 实验设计
通过热应激(70°C孵育0–120分钟)在不同NaCl浓度(0–250 mM)下诱导BSA聚集,利用超高效SEC(UHP-SEC)分析聚集程度。采用拉丁超立方采样(LHS)设计独立调控蛋白浓度(0–15 g/L)和聚集体比例(25%–50%),确保光谱变化源于聚集而非浓度差异。在阴离子交换色谱(AEX)实验中,通过?kta Pure系统结合拉曼光谱实时监测洗脱过程,采集光谱经裁剪(500–3250 cm?1)、水波段归一化(3250 cm?1)、背景校正及Savitzky–Golay(SG)滤波预处理。
2.2 数据分析
从光谱中提取酰胺I区(1500–1800 cm?1)质心、酰胺III比率(I1341/I1320)等标记物,并计算信噪比(SNR)评估其与聚集含量的相关性。分别建立偏最小二乘(PLS)和卷积神经网络(CNN)回归模型,通过留一批次交叉验证(LOBO)和增强测试(合成扰动数据)评估模型性能。CNN架构包含三层卷积层(核尺寸15/7/3)和全连接层,采用局部子集增强(LSA)技术生成合成光谱以提升鲁棒性。
3 结果与讨论
3.1 强制降解研究
热应激导致BSA聚集随时间增加而饱和,高阶聚集体在SEC中洗脱时间早于天然二聚体。拉曼光谱显示,酰胺I区(1651 cm?1处α-螺旋强度降低,1673 cm?1处β-片层强度升高)与聚集程度高度相关(SNR最高达500),而苯丙氨酸波段(990–1010 cm?1)主要响应蛋白浓度变化。
3.2 混合研究
LHS设计验证了酰胺I区标记物在独立变化浓度与聚集比例时的线性响应,但低浓度样本(<3 g/L)因信号强度不足出现偏差。酰胺III比率及920–950 cm?1波段比值与聚集相关性弱,标准偏差高达20%,表明酰胺I区为最可靠标记物。
3.3 结合洗脱AEX实验
3.3.1 定性光谱分析
在AEX洗脱过程中,酰胺III比率和酰胺I质心成功追踪了单体与二聚体的分离动态:梯度洗脱时标记物值随二聚体共洗脱而升高,阶跃洗脱时保持恒定。然而,低蛋白浓度(<3 g/L)和缓冲液盐梯度对水波段的影响导致光谱噪声增加,凸显了定量模型的必要性。
3.3.2 统计模型构建
CNN模型在训练集、交叉验证和外部测试中均优于PLS模型,尤其对聚集体预测的均方根误差(RMSE)降低约50%。增强测试显示CNN对未覆盖浓度组合的预测选择性更高,而数据增强(LSA)未提升性能,可能与合成光谱引入噪声有关。
4 结论
本研究证实拉曼光谱结合CNN模型可实现生物制药下游过程中蛋白聚集体的实时定量。酰胺I区标记物对聚集结构变化敏感,而CNN模型凭借高鲁棒性克服了低浓度与环境干扰的限制。未来需拓展至单克隆抗体等复杂体系,并优化预处理策略以提升工业适用性。