基于拉曼光谱-机器学习-迁移学习集成框架的三代微藻生物质与岩藻黄质快速无标定量新方法

《Food Chemistry: X》:Free-scale quantification of biomass and fucoxanthin in mass culture of Phaeodactylum tricornutum using Raman spectroscopy coupled with machine learning and transfer learning

【字体: 时间:2026年02月19日 来源:Food Chemistry: X 6.5

编辑推荐:

  本研究针对微藻规模化生产中生物质与生物活性物质实时监测的技术瓶颈,提出了一个集拉曼光谱、机器学习与迁移学习于一体的集成分析框架。研究人员以三角褐指藻为模型,成功实现了对其生物质(dwt)和岩藻黄质产量(fuco)的快速、非破坏性高精度预测,并在实验室到中试的光生物反应器(PBRs)尺度上验证了模型的有效性与可迁移性。该工作为微藻衍生生物产品的质量控制和过程优化提供了一种具备工业应用潜力的分析工具。

  
在微藻生物技术领域,三角褐指藻(Phaeodactylum tricornutum)作为一种重要的光合微藻,能够生产高价值的岩藻黄质(Fucoxanthin),这种类胡萝卜素在调节体重、抗氧化、改善非酒精性脂肪肝和抗动脉粥样硬化等方面显示出潜力。然而,如何将实验室里的成功高效地复制到工业规模,始终是个棘手的挑战。其中一大瓶颈在于缺乏能够快速、准确地在线监测生物质和产物含量的技术。传统的检测方法,如高效液相色谱法,虽然准确,但步骤繁琐、耗时且具有破坏性,难以满足大规模生产过程中的实时监控需求。因此,开发一种快速、无标记、非侵入式的分析工具,对优化微藻生产过程、保证产品质量和一致性至关重要。
本文发表于《Food Chemistry: X》,旨在解决上述问题。研究人员开发并验证了一个集成的分析框架,结合拉曼光谱(Raman Spectroscopy, RS)、机器学习(Machine Learning, ML)与迁移学习(Transfer Learning, TL),用于对Phaeodactylum tricornutum培养体系中的生物质(细胞干重,dwt)和岩藻黄质产量(fuco)进行定量。
为开展此项研究,作者主要运用了以下关键技术方法:1)拉曼光谱采集与预处理:使用830 nm近红外激发激光收集微藻培养物的拉曼光谱,并采用中值滤波、Savitzky-Golay平滑及非对称最小二乘基线校正进行预处理。2)多种光谱后处理与特征选择策略:评估了包括矢量归一化、标准正态变量变换在内的后处理方法,以及变量重要性投影、遗传算法和LASSO-EN弹性网络等特征选择算法。3)多元机器学习与深度学习建模:系统比较了偏最小二乘回归、支持向量回归机、PCA-SVM以及卷积神经网络和多层感知机等多种算法在预测dwt和fuco上的性能。4)跨尺度迁移学习验证:构建了从实验室柱式光生物反应器到200 L中试规模光生物反应器的数据集,并应用微调和实例迁移两种迁移学习策略,以少量目标域数据校准模型,评估其跨域预测能力。
研究结果部分如下:
3.1. Spectra analysis
通过分析岩藻黄质标准品和微藻细胞的拉曼光谱,确认了其特征峰:1531 cm-1和1160 cm-1处的强峰分别对应于C=C和C-C伸缩振动。细胞光谱中,这些峰位发生了约7 cm-1的红移,这归因于岩藻黄素整合到岩藻黄素-叶绿素a/c蛋白复合物中。光谱预处理有效去除了由叶绿素自发荧光等引起的强烈背景干扰。
3.2. Datasets
研究使用了三个数据集:数据集1(251个样本)来自实验室柱式PBRs,用于模型训练和验证;数据集2(81个样本)来自大气室温等离子体诱变突变体库,作为独立外部测试集;数据集3(82个样本)来自200 L中试PBRs,用于评估迁移学习。数据集覆盖了不同的光照条件、遗传背景和培养规模,确保了模型的鲁棒性和普适性评估。相关性分析表明,fuco与特定拉曼峰(如1537.70 cm-1)呈现极强的线性相关(Pearson's r = 0.969),而dwt的相关性较弱且分散。
3.3. ML and DL models for dwt and fuco in laboratory
对于生物质(dwt)预测,深度学习模型(CNN和MLP)在使用全光谱时表现出最佳的外部测试性能,最优模型取得了R2= 0.968, RMSE = 0.045 g L-1, RPD = 5.598的优异结果。SHAP分析显示,模型预测主要依赖于~1340 cm-1(碳水化合物、叶绿素相关)和~1157 cm-1(类胡萝卜素相关)波数范围内的特征,表明模型是通过捕捉与生物质积累共变的成分和生理状态的多元光谱代理信号来进行预测的。对于岩藻黄质产量(fuco)预测,基于核的方法(如PCA-SVM)结合稀疏、正则化的特征集(如LASSO-EN)表现最优,最佳模型取得了R2= 0.949, RMSE = 1.112 mg L-1, RPD = 4.408的预测结果。这表明fuco具有更强、更局域化的光谱特征,因此复杂度较低的模型即可实现高精度预测。
3.4. Boosting scalability: transfer learning from laboratory to pilot-scale PBRs
研究发现,直接将实验室训练的模型应用于中试规模PBRs数据时,由于域偏移(如培养条件、生理状态差异),预测性能显著下降。通过应用迁移学习策略,仅需使用10%-20%的中试规模样本进行校准,即可有效恢复预测准确性。具体而言,对于dwt预测,采用微调(Fine-tuning)预训练的CNN模型;对于fuco预测,采用实例迁移(Instance transfer)重加权PCA-SVM模型。迁移学习后的模型对中试数据的预测达到了可接受的精度水平(dwt: RPD = 3.067; fuco: RPD = 3.236),显著优于仅使用少量目标域数据从头训练的单域模型。
在结论与讨论部分,本研究主要得出两点核心贡献。首先,研究揭示了目标依赖的建模原则:预测成分复杂、光谱特征分散的生物质(dwt)时,能够捕获高维复杂关系的全光谱深度学习模型(如CNN)表现更优;而预测具有强特征光谱信号的岩藻黄质(fuco)时,基于核的机器学习方法结合稀疏特征选择则能以更低的计算成本实现鲁棒的预测。其次,研究成功应用迁移学习策略,有效解决了实验室模型向工业规模应用时的域偏移问题,仅需少量校准样本(10-20%)即可恢复模型的预测性能,这极大地降低了将拉曼光谱过程分析技术部署到实际生产环境中的校准负担和成本。
这项工作的意义在于,它提供了一个集成的、可扩展的分析框架(RS-ML-TL),为实现微藻生物过程(尤其是高价值产物如岩藻黄质的生产)的快速、无创、在线监测与智能控制奠定了坚实的方法学基础,推动了微藻生物技术从实验室走向工业化应用的进程。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号