机器学习与知识驱动模型在食品发酵中的对比评估：分类、动态预测与代理建模研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Food Research International》：Critical assessment of machine learning approaches for classification, dynamic prediction and surrogate Modeling in food fermentation

【字体：大中小】 时间：2026年01月24日 来源：Food Research International 8

编辑推荐：

　　本研究针对食品发酵过程中数据有限条件下机器学习(ML)与知识驱动(KB)模型的优劣不明确问题，系统评估了监督ML技术（决策树、支持向量机、神经网络）与传统KB模型在葡萄酒发酵中的性能。研究发现：在酵母菌株分类任务中，随机森林模型利用全代谢物数据达到74%准确率；动态预测方面KB模型表现更优（NRMSE≈6%）；而基于合成数据训练的深度学习代理模型误差仅0.6%且计算效率提升30倍。研究证实混合建模可整合双方优势，为复杂发酵系统提供更稳健的解决方案。

在食品工业的智能化转型浪潮中，发酵过程的精准控制始终是提升产品品质与生产效率的核心挑战。传统上，研究人员依赖基于生化原理的知识驱动(KB)模型，通过微分方程组描述微生物生长与代谢动力学。这类模型虽具良好解释性，但开发周期长且对复杂生物系统的刻画能力有限。与此同时，机器学习(ML)技术虽在图像识别、自然语言处理等领域大放异彩，但其在食品发酵这类数据稀缺场景中的实用价值仍存争议。正是这种背景下，Núria Campo-Manzanares团队在《Food Research International》发表的研究，首次通过葡萄酒发酵这一典型体系，对两类建模范式展开了系统性的性能对标。

为厘清ML与KB模型的适用边界，研究团队设计了环环相扣的三段式评估框架。首先利用时间序列发酵数据，通过决策树、支持向量机等五种分类器区分五种工业酿酒酵母菌株；接着以代谢物动态预测为标的，对比多层感知机(MLP)与KB动力学模型的预测精度；最后创新性地用KB模型生成合成数据训练深度学习代理模型，评估其替代复杂机理模型的潜力。关键技术方法包括：基于z-score（标准差倍数）的异常值检测机制、面向多变量时间序列的卷积-门控循环单元(CNN-GRU)混合神经网络架构，以及融合KB预测与残差神经网络的混合建模技术。所有模型均通过网格搜索优化超参数，并以归一化均方根误差(NRMSE)作为核心评估指标。

3.1. 数据预处理保障发酵实验数据高质量

通过z-score法识别异常值（占比<4%）与线性插补缺失值，使数据集完整度超92%。8组实验条件下共计处理约4万数据点，为模型训练提供洁净数据基底。

3.2. 菌株分类准确率随输入数据特征变化

随机森林(RF)模型在包含31种代谢物的全变量数据集表现最佳，测试准确率达74%。特征重要性分析揭示次级代谢物（芳香化合物）的分类贡献度超越初级代谢物，如仅用芳香化合物数据时准确率仍达53%，印证菌株特异性代谢特征主要体现于风味物质合成途径。

3.3. KB模型在动态预测中显著优于ML回归模型

KB模型在变温发酵测试中整体NRMSE低至6%，而仅用实验数据训练的MLP模型出现非生理性峰值（如甘油虚假峰），NRMSE达7.6%。扩展训练集至五株菌株并加入KB模型生成的合成数据后，深度学习模型(DL-KB-Ext-ASt-SD)将误差缩小至7.6%，但与KB模型仍存在统计学显著差异（科尔莫戈罗夫-斯米尔诺夫检验p=0.164）。

3.4. 机器学习代理模型实现30倍加速

CNN-GRU架构的代理模型在22°C/210 g·L^-1测试条件下，对12种代谢物的预测NRMSE仅0.6%，同时将计算耗时缩减至KB模型的1/30。该突破使实时发酵监控与高通量虚拟筛选成为可能。

3.5. 混合建模策略提升预测精度

将KB模型输出作为残差神经网络输入，构建的混合模型使乙酸预测NRMSE从7.7%降至4.9%，整体误差降低13%。这种“机理骨架+数据驱动微调”的模式，在保持生物合理性的同时有效校正系统偏差。

研究结论深刻揭示了建模范式的互补价值：KB模型在数据稀缺时展现强大外推能力，而ML在分类与代理建模任务中更具扩展性。特别值得注意的是，ML模型要达到与KB模型相近精度需额外合成数据，相当于150天实验工作量，凸显机理模型的数据效率优势。讨论部分指出，未来发酵建模应转向混合智能范式——既可借助KB模型生成合成数据增强ML训练，亦可将神经网络嵌入动力学方程描述未解析机制。这种“物理引导的机器学习”框架，有望破解食品生物过程建模中精度、效率与可解释性的“不可能三角”，为数字孪生、实时优化等工业应用铺平道路。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号