《Advanced Science》:Long-Tea-CLIP: An Expert-Level Multimodal AI Framework for Fine-Grained Green Tea Grading Across Five Sensory Dimensions
编辑推荐:
为解决人工评茶存在主观性强、一致性差、难以规模化等问题,研究人员开展了一项题为Long-Tea-CLIP的研究。该研究构建了一个融合计算机视觉与化学信息学的多模态AI系统,通过整合干茶外观、汤色、香气、叶底、滋味五个维度的数据,对38种龙井茶进行专家级自动分级。该系统最终达到了92%的准确率,为提升茶叶品质控制与市场透明度提供了创新性的技术解决方案。
茶,作为全球消费最广泛的饮品之一,其品质评价长期依赖于经验丰富的专业评茶师。这种传统的人工感官评价虽然权威,但过程耗时耗力,且易受个体主观感受、身体状况乃至环境因素影响,导致评价结果的一致性难以保证。在规模化的全球市场中,这种主观性成为制约茶叶品质标准化和市场透明化的一大瓶颈。如何建立一套客观、高效且可复制的茶叶品质评估体系,成为产业亟需解决的关键问题。
为应对这一挑战,一项题为“Long-Tea-CLIP: An Expert-Level Multimodal AI Framework for Fine-Grained Green Tea Grading Across Five Sensory Dimensions”的研究在《Advanced Science》期刊上发表。该研究旨在开发一种能够模仿专业评茶师综合评估过程的人工智能(AI)辅助系统。研究团队选择了最具代表性的绿茶品类——龙井茶作为研究对象,构建了一个名为Long-Tea-CLIP的多模态AI框架。这个框架的核心目标是将评茶师在“干茶外观、汤色、香气、滋味、叶底”这五个核心维度的感官评价进行数字化和模型化,最终实现接近专家水平的自动化茶叶分级。
为开展这项研究,作者综合运用了计算机视觉、化学分析和机器学习等多种技术。研究采集了38种商业龙井茶样本,首先邀请五位评茶大师遵循国家标准进行感官评价,获得每个样本在五个维度的详细评分和评语,作为AI模型的“金标准”。在数据获取方面,计算机视觉技术被用于采集干茶(包括堆叠和散叶两种摆放方式)、茶汤和叶底的高分辨率图像。气相色谱-质谱联用(GC-MS) 技术被用来分析茶叶冲泡后挥发性香气化合物的组成。液相色谱-质谱联用(LC-MS) 技术则用于进行非靶向代谢组学分析,以解析茶汤中与滋味相关的代谢物谱。在模型构建上,研究采用了多种机器学习算法,包括用于图像深度特征提取和分类的残差网络(ResNet),用于处理高维稀疏化学数据(香气、滋味)的多层感知机(MLP),以及在汤色和叶底评分任务中表现优异的极限梯度提升(XGBoost) 模型。最后,研究创新性地引入了基于大规模图文对预训练的对比语言-图像预训练(CLIP) 模型作为“监督者”,通过一种名为Tip-CLIP的少样本学习方法,指导并提升了传统机器学习模型在茶叶分级任务中的性能。
研究结果部分详细展示了各维度模型的构建与评估:
2.1 以多维品质指标为基准的茶叶分级基础
研究邀请评茶大师对38个龙井茶样本进行感官评价,根据总分将其划分为特级(A级)、一级(B级)和二级(C级)三个等级,为后续AI建模提供了权威的标注数据。
2.2 连接人类专业与机器智能的计算机视觉驱动品质评估
- •
2.2.1 通过智能感官建模实现人机协同的干茶外观分级:研究比较了两种方法。智能感官(Intelligent-Sensory) 方法使用堆叠茶图像,通过微调的ResNet-18模型学习七个外观子维度(挺直、光滑、嫩度、绿度、光泽、色泽均匀度、完整度)的评语并转换为分数,其外观分类准确率为83.77%。特征提取(Feature-Extraction) 方法则对散叶图像进行形态、颜色和纹理特征提取后,使用MLP模型进行回归评分,分类准确率达到89.91%。
- •
2.2.4 通过形态-比色分析实现叶底与汤色的自动化评估:由于叶底和汤色图像数据量有限,研究采用特征提取结合XGBoost模型进行评分。汤色和叶底的分类准确率分别为70.05%和71.05%,虽低于干茶外观,但在数据有限条件下仍提供了有效的评估。
2.3 基于挥发性有机化合物图谱的神经网络香气分级
利用GC-MS分析了38个茶样的香气成分,共鉴定出298种挥发性化合物。使用MLP模型对香气数据进行回归和分类,准确率达到79.82%。正交偏最小二乘判别分析(OPLS-DA)能够有效区分不同等级的茶叶。
2.4 经代谢组学生物标志物筛选优化的神经网络滋味分类
通过LC-MS代谢组学分析茶汤滋味化合物。研究比较了四种不同特征筛选策略(基于二级质谱得分、方差分析、OPLS-DA、PCA)构建的数据集,发现基于二级质谱得分(DATA_MS2)的数据集使用MLP模型训练后,分类准确率最高,达到93.0%。代谢物分析发现,蔗糖和海藻糖等糖类物质在A级茶中含量显著更高,这可能与其更优的风味相关。
2.5 用于综合品质预测的多模态AI系统
- •
2.5.1 多感官模态的加权融合:将五个维度最优子模型(外观用MLP或ResNet-18,汤色和叶底用XGBoost,香气和滋味用MLP)的评分按感官评价权重(外观25%,汤色10%,香气25%,滋味30%,叶底10%)进行加权求和,得到综合评分。使用散叶特征提取(MLP)的Long-Tea-Feature框架综合准确率达94.15%,使用堆叠图像智能感官(ResNet-18)的Long-Tea-Intelligent框架准确率为89.46%。
- •
2.5.2 CLIP监督的多模态特征融合:研究引入CLIP模型作为监督者。原始的CLIP模型在茶叶分级任务中准确率达到95.74%。在此基础上,利用Tip-CLIP方法指导MLP模型(称为TCSMLP)对香气、滋味等数据集进行训练,显著提升了模型的拟合性能(R2值更高)。最终,整合了ResNet-18(外观)、TCSMLP(香气、滋味、叶底)和XGBoost(汤色)的优化框架——Long-Tea-CLIP,实现了92.00% 的综合分类准确率,较未使用CLIP监督的版本(89.46%)有显著提升。
结论与讨论部分指出,Long-Tea-CLIP成功模拟了专家评茶师的综合评价方式,通过数字化茶叶的视觉特征(干茶、茶汤、叶底)和化学特征(香气、滋味),建立了一个准确、客观的AI辅助茶叶分级系统,最终达到了92.00%的分类准确率。与早期仅关注单一维度或少数维度的研究相比,该框架首次完整涵盖了专业评茶的所有五个核心维度,特别是包含了常被忽略但重要的汤色和叶底评估。研究采用的模块化架构(为每个维度设计独立模型)而非端到端多任务学习框架,旨在避免异质数据间的任务干扰,更好地模拟评茶师逐步分析的过程,增强了系统的可解释性和鲁棒性。
该研究的核心意义在于,它将先进的多模态AI监督(CLIP)与传统机器学习的可解释性相结合,为茶叶品质评估提供了一种可扩展、可复制且数据驱动的新方法。这不仅有助于解决传统感官评价的局限性,提升品质控制的一致性和效率,也对促进茶叶市场的透明化具有重要意义。尽管当前模型针对龙井绿茶开发,且实际部署需严格标准化数据采集流程,但其所提出的五维评估方法论具有普遍性,为未来扩展到其他茶类(如红茶、乌龙茶)奠定了坚实的框架基础。随着技术的不断进步和完善,此类AI辅助系统有望成为现代茶产业中实现标准化、透明化品质控制的重要工具。