利用机器学习预测食品和饮料的香气、风味及消费者偏好：以小型且数据不平衡的数据集为案例的研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Food Quality and Preference》：Machine learning for predicting aroma, flavour and preference of foods and beverages: case studies with small and imbalanced datasets

【字体：大中小】 时间：2026年02月06日 来源：Food Quality and Preference 4.9

编辑推荐：

　　预测食品风味与感官偏好的机器学习模型优化方法

J.J. Nijdam|D. Torrico|L. Kumar|V. Chelikani

新西兰林肯大学农业与生命科学学院葡萄酒、食品与分子生物科学系，林肯7647

摘要

用于训练和测试机器学习模型的数据集通常规模较小，这些模型旨在根据仪器测量结果预测食品和饮料的香气和风味属性强度以及消费者偏好评分。由于样本生产和分析的成本及工作量较大，数据集的规模受限，这可能导致模型的预测性能较差且不可靠。通过使用已发布的白葡萄酒、柑橘皮和酸奶数据集进行了案例研究，以探讨潜在的解决方案。选择能够有效反映感官属性或偏好驱动因素的仪器测量方法对于实现准确预测至关重要。使用类别数量有限的分类尺度进行感官评估有助于确保每个类别都有足够的样本，从而提高模型的泛化能力并减少预测偏差。在数据收集后，可以通过合并类别来消除部分感官噪声，并使剩余类别中的样本分布更加均匀，从而提高预测准确性。如果合成少数样本过采样技术（SMOTE）等手段无法有效解决基于不平衡数据集训练的模型中的预测偏差问题，这种方法会非常有用。

引言

在食品和感官科学领域，将机器学习应用于香气、风味和偏好预测的研究正在逐渐受到重视。Ji等人（2023年）和Trinh等人（2021年）总结了利用近红外光谱法、气相色谱-质谱法或电子鼻和电子舌技术对巧克力、奶酪、酸奶、葡萄酒、啤酒、咖啡和茶叶等食品和饮料的香气和风味属性强度以及消费者或专家偏好评分进行预测的相关研究。一些分类模型的预测准确率超过了90%。例如，Zhu等人（2021年）开发的人工神经网络模型通过气相色谱-离子迁移谱法测量葡萄酒香气，其预测准确率约为95%。这种预测能力使得通过机器学习比仅依赖感官评估小组更高效、更经济地提升食品和饮料的香气和风味质量成为可能（Trinh等人，2021年）。鉴于此，将机器学习应用于任何包含仪器和感官测量数据的数据集以开发此类预测工具似乎具有吸引力。R（R Core Team）和MATLAB（MathWorks）等软件为此提供了便利。然而，实际应用时需要考虑一些重要的实际因素。例如，Ji等人（2023年）指出了样本数量是否充足的问题，这关系到模型的有效训练和测试。Herrera-Rocha等人（2024年）讨论了偏斜的感官数据可能导致模型预测偏差及其管理挑战。

本文探讨了这些因素对机器学习模型预测性能的影响，旨在为食品和感官科学领域的学者——尤其是新手——提供一个更全面的视角，帮助他们了解机器学习在预测各种食品和饮料的香气、风味和偏好方面的潜力。适当考虑这些因素可以影响数据收集类型、数据收集方法以及机器学习在数据集中的应用。Ji等人（2023年）和Trinh等人（2021年）的文献综述了25项关于利用机器学习预测食品和饮料香气和风味属性强度以及消费者和专家偏好评分的应用研究，这些研究都针对特定产品，并着重于选择和优化合适的模型。本文并非旨在为感官食品科学中的某个具体应用开发最佳模型，而是从更广泛的角度审视该领域研究人员面临的实际挑战，提供适用于所有应用的结论和指导。有关机器学习的通用知识，可参考Hastie等人（2009年）、James等人（2015年）和Kuhn与Johnson（2013年）的著作。本文重点关注实验设计与机器学习应用之间的相互作用，特别是在从描述性分析和质量控制测试中预测香气和风味属性强度以及感官偏好方面的应用。文中通过文献中的实验数据集探讨了实际案例。

章节片段

背景、目标和结构

机器学习算法通过训练模型来识别输入数据中的模式。数据通常以预测因子（或特征）及其对应的结果（或输出）的形式存在。例如，Tian等人（2020年）使用神经网络算法训练模型，根据电子鼻的测量结果预测酸奶中的异味。

方法

本节描述的方法流程图见附录A1（补充材料）。

特征工程与选择

初步研究旨在探讨通过主成分分析（PCA）进行维度降维或基于随机森林（RF）变量重要性进行特征选择，是否能够提升用于预测白葡萄酒偏好的机器学习模型的性能。图1显示，当所有主成分或特征都被作为预测因子包含时，模型性能最佳。

特征工程与选择

选择能够充分代表响应的相关预测因子是实现机器学习模型良好预测性能的关键。如果包含相互关联或噪声较大且与响应无关的预测因子，模型的性能可能会受到影响（Kuhn & Johnson, 2013）。通过主成分分析（PCA）进行维度降维可以帮助将预测因子转换为不相关的主成分，其中仅保留那些具有显著意义的成分。

结论

由于样本生产和分析的成本及工作量较大，用于预测食品和饮料的香气和风味属性强度以及偏好评分的机器学习模型往往基于小型数据集开发。因此，这些模型在训练过程中泛化整体数据模式的能力以及测试时的统计精度可能会受到影响。本文基于已发布的研究案例进行了分析。

作者贡献声明

J.J. Nijdam：撰写初稿、可视化处理、验证、软件开发、方法设计、概念构建。D. Torrico：撰写与编辑、监督工作、资源协调、项目管理、概念构思。L. Kumar：撰写与编辑、监督工作、资源协调、项目管理、概念构思。V. Chelikani：撰写与编辑、监督工作、资源协调、项目管理、概念构建。

伦理声明

本研究未涉及人类受试者。我们分析中使用的所有感官数据均来自其他作者发表的期刊论文或公开可访问的机器学习资源库。

利益冲突声明

作者声明没有已知的财务利益或个人关系可能影响本文的研究结果。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号