《Sustainable Food Technology》:Machine learning-based prediction of sensory quality in tea blends using a semi-trained panel assessment
编辑推荐:
本文创新性地将半专业消费者小组的感官评估(ST-CATA)与可解释机器学习(XGB模型、SHAP分析)相结合,构建了茶叶生化成分(如儿茶素C、总多酚TP、可溶性糖TSS)与感官品质间的复杂非线性关系模型,揭示了关键品质驱动因素(如蛋白质/TP比、有机酸),为茶叶行业提供了一种客观、高效、消费者导向的品质评估与拼配优化新范式,具有显著的技术经济价值。
引言
阿萨姆邦是印度最大的茶叶产区,年产量占印度总产量的一半以上,以CTC红茶和传统红茶闻名,同时也生产绿茶、白茶和乌龙茶。阿萨姆茶的独特风味源于其独特的生化成分组合,其中黄烷醇、生物碱和酚酸是赋予茶苦涩味的重要生物成分,而氨基酸和可溶性糖则带来鲜味和甜味。将不同生化特征的茶叶进行拼配,可以提升茶叶拼配产品的整体感官品质。传统上,拼配过程主要依赖专业评茶师通过试错实验和主观判断进行,这种方法受制于人的敏感性,耗时且难以规模化。此前的研究主要集中在特定种类茶叶(如不同等级红茶)的拼配上,缺乏对不同加工方式茶叶(如绿茶、白茶、乌龙茶和红茶)拼配的深入探索,也未能系统研究每种茶叶的生化特性如何影响拼配品的感官属性。本研究旨在通过结合消费者导向的半专业感官小组评估与可解释机器学习,建立一个客观、可重复且符合市场需求的方法,用于茶叶拼配感官品质的自动化评估。
材料与方法
研究采购了四种阿萨姆茶品种,包括绿茶、白茶、乌龙茶和红茶(CTC)。样品经手工研磨、过筛后,通过最优混合物设计,设置了包含30种不同配比的拼配方案(见表1)。对每个拼配样品分析了15种关键滋味生化成分:总可溶性糖(TSS)、蛋白质、总多酚(TP)、(+)-儿茶素(C)、咖啡因(CAF)、有机酸(苹果酸、柠檬酸、抗坏血酸、草酸、没食子酸和琥珀酸)、l-茶氨酸、茶黄素(TF)、茶红素(TR)和pH值。这些成分采用多种化学方法及超高效液相色谱(UHPLC)进行分析测定。
感官评估采用半专业培训-选择全部适用法(ST-CATA)。从消费者中筛选并培训了20名评估员,对30种拼配茶进行感官评价。感官总分为100分,根据茶外观(25%)、汤色(10%)、香气(25%)、滋味(30%)和溶解性(10%)五个因素计算得出。
数据集开发
研究构建了“茶叶生化与感官数据集(TeaBioSens)”,共包含600个数据点(30个样品×20次感官评分)。输入特征共19个,分为实验参数(如C、TP、CAF、TSS等)和计算参数(如CAF/TP、TP/茶氨酸、蛋白质/TP、TF/TR)。这些参数对茶叶感官特性的形成和调控起着重要作用。
建模方法
首先,使用K-medoids聚类方法,根据总体感官得分将30个样品分为两类:17个高分样品(总分72-85分)和13个低分样品(总分60-68分)。随后,采用四种机器学习模型——极限梯度提升(XGB)、支持向量机(SVM)、逻辑回归(LR)和多层感知器(MLP),根据19个生化特征对样品进行分级预测。通过贝叶斯优化调整超参数,并使用五折交叉验证评估模型性能。
结果与讨论
感官分析与生化成分
小提琴图展示了高低分样品在l-茶氨酸、蛋白质、TSS、TP、C、CAF、总有机酸、pH、TF和TR含量上的分布差异。研究发现,高分样品通常具有更高的蛋白质、TSS和总有机酸含量,以及更低的pH值。而低分样品则表现出更高的TP和C含量。咖啡因(CAF)含量在两类样品间差异不大。茶黄素(TF)在高分样品中含量稍高,而茶红素(TR)则在低分样品中含量更高。
机器学习模型选择与性能
在四种模型中,XGB模型表现最佳,总体准确率达到87%,其精确度、召回率和F1分数均高于其他模型。SVM模型以86%的准确率紧随其后,而LR和MLP模型的表现相对较差。混淆矩阵分析表明,XGB和SVM能有效区分高低分级样品,而MLP的误判率最高。XGB模型因其出色的性能被选用于后续的特征重要性分析。
使用SHAP进行模型解释
采用SHAP(Shapley Additive exPlanations)方法对最优的XGB模型进行解释。SHAP汇总图显示,蛋白质/TP、TSS、柠檬酸、抗坏血酸、草酸、没食子酸、CAF、CAF/TP和TF/TR等特征与高分样品的预测呈正相关。相反,(+)C、TP、TR和pH值则与高分预测呈负相关,其中(+)C被识别为最重要的负相关特征。
蛋白质/TP比值是提升感官评分的关键正相关因素。较高的蛋白质含量可以结合多酚,改变其结构,减少与唾液蛋白的相互作用,从而降低涩感。可溶性糖(TSS)通过增加甜味和醇厚度来提升感官品质。有机酸(如柠檬酸、抗坏血酸)不仅贡献酸味,还能作为天然抗氧化剂,改善茶汤的整体风味。咖啡因(CAF)虽然带来苦味,但其与多酚形成复合物,可以平衡口感,且CAF/TP的适宜比例对茶叶滋味的协调性至关重要。TF/TR比例与茶叶感官质量正相关,这与茶黄素能提升茶汤亮度和鲜爽度有关。
另一方面,儿茶素(C)和总多酚(TP)是茶叶涩味和苦味的主要来源,含量过高会降低感官评分。茶红素(TR)含量过高会降低茶汤的明亮度和口感。pH值降低(酸度增加)通常与更高的有机酸含量和更好的感官评分相关。
SHAP依赖图进一步揭示了前9个重要特征(C、蛋白质/TP、蛋白质、TP、TSS、TR、柠檬酸、苹果酸、抗坏血酸)与模型预测之间复杂的非线性关系。例如,儿茶素(C)在较低浓度范围内与低分相关,但在某个阈值后,其影响可能因与其他成分(如多糖、蛋白质)的相互作用或特定异构体比例(如非酯型儿茶素)而变得复杂。蛋白质和TSS总体上与高分正相关,但存在一定的波动区间。
研究也指出,一些特征如l-茶氨酸、TF和TP/茶氨酸比值在SHAP分析中显示出混合或不明确的影响,这可能源于数据集的局限性(样本量小、未包含某些次级代谢物或加工参数),也可能反映了这些成分在复杂拼配体系中的非线性或情境依赖性作用。
结论
本研究提出了一个整合ST-CATA感官评估、稳健机器学习算法和可解释机器学习流程的新框架,用于阐明茶叶拼配中各种生化特征与感官品质之间的复杂关系。XGB模型成功捕捉了生化特征与感官得分之间的多元关系。SHAP分析确定了影响感官品质的关键特征:C、蛋白质/TP、蛋白质、TP、TSS、TR、柠檬酸和抗坏血酸。其中,C、TP和TR对感官评分有负面影响,而其他特征则有正面促进作用。
当前TeaBioSens数据集的局限在于样本量较小,且未包含某些潜在重要特征(如挥发性有机物、儿茶素亚型、酯化与非酯化儿茶素比例)。未来通过扩充数据集,纳入更多样品、加工参数和消费者评估数据,可以进一步增强模型的预测能力和普适性。该方法利用半专业消费者小组替代专业评茶师,为茶叶行业提供了一种降低成本、提高效率且更贴近市场需求的客观品质评估与拼配优化方案,具有重要的应用前景。