深度学习预测发酵乳功能活性:基于LC-MS代谢组学的新方法

《Journal of Dairy Science》:Predicting functional bioactivities in fermented milk using deep learning on liquid chromatography-mass spectrometry metabolomics

【字体: 时间:2026年01月25日 来源:Journal of Dairy Science 4.4

编辑推荐:

  本研究针对传统生物活性检测方法耗时且难以规模化的问题,开发了一种基于一维卷积神经网络(1D-CNN)的深度学习模型,通过液相色谱-质谱(LC-MS)代谢组学数据预测发酵乳的抗氧化、酶抑制及抗癌等9种功能活性。研究利用18个样本(骆驼乳与牛乳发酵制品)的LC-MS数据,结合数据增强和3折交叉验证,模型平均绝对误差为0.548±0.089,证明深度学习可高效替代传统检测,为功能性食品开发提供新思路。

  
在健康意识日益增强的今天,发酵乳制品因其潜在的益生功能和生物活性而备受关注。这些产品不仅提供基础营养,还可能具备抗氧化、降血压、抗糖尿病甚至抗癌等健康益处。然而,传统的生物活性评估方法,如化学测定和细胞实验,通常耗时耗力且成本高昂,严重限制了大规模筛选和产品开发的效率。面对这一挑战,研究人员开始探索能否利用先进的技术手段,快速、准确地预测发酵乳的功能特性,从而加速功能性乳制品的研发进程。
近日,一项发表在《Journal of Dairy Science》上的研究给出了令人鼓舞的答案。由Falah Awwad、Ghassan Al-Sumaidaee等人组成的研究团队,成功开发了一种基于深度学习(Deep Learning, DL)的方法,仅利用液相色谱-质谱(Liquid Chromatography-Mass Spectrometry, LC-MS)代谢组学数据,就能有效预测发酵乳的多种功能生物活性。这项研究为功能性食品的科学评估开辟了一条全新的智能化路径。
关键技术方法概述
研究团队选取了18份由骆驼乳和牛乳经不同益生菌株(如Lactobacillus delbrueckiiLactococcus lactis等)发酵而成的样本。首先,他们通过LC-MS QTOF(四极杆飞行时间质谱)技术对样本进行非靶向代谢组学分析,获得了包含124,213个代谢物特征的高维数据。接着,为应对小样本量(n=18)的挑战,研究采用了严格的数据预处理流程,包括离群值检测(Z-score阈值=3)、稳健缩放(Robust Scaling)以及数据增强(如高斯噪声注入)。随后,利用主成分分析(Principal Component Analysis, PCA)将数据降维至12个主成分。最终,构建了一个一维卷积神经网络(1D-CNN)模型,其结构包含两个卷积层和两个全连接层,并引入了丢弃法(Dropout,比率=0.7)和L2正则化(λ=0.01)来防止过拟合。模型通过3折交叉验证进行训练和评估,以平均绝对误差(Mean Absolute Error, MAE)作为主要性能指标,预测了包括ABTS、DPPH自由基清除能力(抗氧化)、ACE(血管紧张素转换酶)抑制活性(抗高血压)、α-淀粉酶(AAMY)与α-葡萄糖苷酶(GLU)抑制活性(抗糖尿病)以及HT-29和MDA-MB-231癌细胞抑制活性(抗癌)在内的9种生物活性指标。
研究结果
探索性生物活性数据分析
对9种生物活性参数的初步分析显示,其分布相对正常或轻度偏斜,适合回归建模。通过曼-惠特尼U检验(Mann-Whitney U test)比较骆驼乳和牛乳样本发现,骆驼乳的ABTS自由基清除活性(ABTS-BIO)显著更高,而牛乳的DPPH自由基清除活性(DPPH-BIO)和游离氨基(OPA-BIO,蛋白水解指标)更高(错误发现率FDR校正后q < 0.01)。相关性分析表明,不同的生物活性指标之间存在关联,例如两种抗氧化测定(ABTS与DPPH)呈强正相关,这为采用多输出回归模型(预测多个指标)提供了依据。
LC-MS代谢组学图谱分析
对LC-MS数据进行对数转换和主成分分析(PCA)后,发现样本在PCA空间中按乳类(骆驼与牛)和发酵条件呈现明显的分离趋势。PERMANOVA分析证实,乳类和发酵条件对代谢组谱均有显著影响。进一步分析显示,前两个主成分(PC1和PC2)与多种生物活性指标,特别是GLU抑制活性和抗氧化活性,存在中等到强的相关性,这表明LC-MS数据中蕴含的代谢物特征与功能活性密切相关。
深度学习模型性能
研究构建的1D-CNN模型在3折交叉验证中表现出色,对所有9个生物活性指标预测的平均MAE为0.548 ± 0.089。模型的学习曲线平滑,训练损失与验证损失同步下降,未见过拟合迹象。对各个指标的预测精度存在差异,抗氧化活性(ABTS-BIO, DPPH-BIO)和α-葡萄糖苷酶抑制活性(GLU-BIO)的预测效果最佳(R2较高),而抗癌活性(HT-29-BIO, MDAMB-BIO)的预测误差相对较大。观察值与预测值的散点图显示,多数数据点紧密分布在1:1线附近,验证了模型的有效性。
研究结论与意义
本研究成功证明,即使在小样本情况下,结合严谨预处理和数据增强的深度学习模型,也能从LC-MS代谢组学数据中有效学习并预测发酵乳的复杂功能活性。这为功能性乳制品的高通量筛选提供了一种快速、经济的计算替代方案,有望显著缩短研发周期。研究还揭示了骆驼乳和牛乳在发酵后生物活性上的差异,为针对特定健康需求的乳制品开发提供了科学依据。尽管模型目前基于体外实验数据,且其泛化能力有待更大规模样本的进一步验证,但这项工作无疑推动了人工智能在食品科学领域的应用边界,为未来开发更具个性化健康效益的功能性食品奠定了坚实基础。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号