基于对比语言-图像预训练的多模态AI框架“Long-Tea-CLIP”：实现跨五维感官的细粒度绿茶分级

《Advanced Science》：Long-Tea-CLIP: An Expert-Level Multimodal AI Framework for Fine-Grained Green Tea Grading Across Five Sensory Dimensions

【字体：大中小】 时间：2026年03月29日 来源：Advanced Science 14.1

编辑推荐：

　　为解决人工评茶存在主观性强、一致性差、难以规模化等问题，研究人员开展了一项题为Long-Tea-CLIP的研究。该研究构建了一个融合计算机视觉与化学信息学的多模态AI系统，通过整合干茶外观、汤色、香气、叶底、滋味五个维度的数据，对38种龙井茶进行专家级自动分级。该系统最终达到了92%的准确率，为提升茶叶品质控制与市场透明度提供了创新性的技术解决方案。

茶，作为全球消费最广泛的饮品之一，其品质评价长期依赖于经验丰富的专业评茶师。这种传统的人工感官评价虽然权威，但过程耗时耗力，且易受个体主观感受、身体状况乃至环境因素影响，导致评价结果的一致性难以保证。在规模化的全球市场中，这种主观性成为制约茶叶品质标准化和市场透明化的一大瓶颈。如何建立一套客观、高效且可复制的茶叶品质评估体系，成为产业亟需解决的关键问题。

为应对这一挑战，一项题为“Long-Tea-CLIP: An Expert-Level Multimodal AI Framework for Fine-Grained Green Tea Grading Across Five Sensory Dimensions”的研究在《Advanced Science》期刊上发表。该研究旨在开发一种能够模仿专业评茶师综合评估过程的人工智能（AI）辅助系统。研究团队选择了最具代表性的绿茶品类——龙井茶作为研究对象，构建了一个名为Long-Tea-CLIP的多模态AI框架。这个框架的核心目标是将评茶师在“干茶外观、汤色、香气、滋味、叶底”这五个核心维度的感官评价进行数字化和模型化，最终实现接近专家水平的自动化茶叶分级。

为开展这项研究，作者综合运用了计算机视觉、化学分析和机器学习等多种技术。研究采集了38种商业龙井茶样本，首先邀请五位评茶大师遵循国家标准进行感官评价，获得每个样本在五个维度的详细评分和评语，作为AI模型的“金标准”。在数据获取方面，计算机视觉技术被用于采集干茶（包括堆叠和散叶两种摆放方式）、茶汤和叶底的高分辨率图像。气相色谱-质谱联用（GC-MS） 技术被用来分析茶叶冲泡后挥发性香气化合物的组成。液相色谱-质谱联用（LC-MS） 技术则用于进行非靶向代谢组学分析，以解析茶汤中与滋味相关的代谢物谱。在模型构建上，研究采用了多种机器学习算法，包括用于图像深度特征提取和分类的残差网络（ResNet），用于处理高维稀疏化学数据（香气、滋味）的多层感知机（MLP），以及在汤色和叶底评分任务中表现优异的极限梯度提升（XGBoost） 模型。最后，研究创新性地引入了基于大规模图文对预训练的对比语言-图像预训练（CLIP） 模型作为“监督者”，通过一种名为Tip-CLIP的少样本学习方法，指导并提升了传统机器学习模型在茶叶分级任务中的性能。

研究结果部分详细展示了各维度模型的构建与评估：

2.1 以多维品质指标为基准的茶叶分级基础

研究邀请评茶大师对38个龙井茶样本进行感官评价，根据总分将其划分为特级（A级）、一级（B级）和二级（C级）三个等级，为后续AI建模提供了权威的标注数据。

2.2 连接人类专业与机器智能的计算机视觉驱动品质评估

•
2.2.1 通过智能感官建模实现人机协同的干茶外观分级：研究比较了两种方法。智能感官（Intelligent-Sensory） 方法使用堆叠茶图像，通过微调的ResNet-18模型学习七个外观子维度（挺直、光滑、嫩度、绿度、光泽、色泽均匀度、完整度）的评语并转换为分数，其外观分类准确率为83.77%。特征提取（Feature-Extraction） 方法则对散叶图像进行形态、颜色和纹理特征提取后，使用MLP模型进行回归评分，分类准确率达到89.91%。
•
2.2.4 通过形态-比色分析实现叶底与汤色的自动化评估：由于叶底和汤色图像数据量有限，研究采用特征提取结合XGBoost模型进行评分。汤色和叶底的分类准确率分别为70.05%和71.05%，虽低于干茶外观，但在数据有限条件下仍提供了有效的评估。

2.3 基于挥发性有机化合物图谱的神经网络香气分级

利用GC-MS分析了38个茶样的香气成分，共鉴定出298种挥发性化合物。使用MLP模型对香气数据进行回归和分类，准确率达到79.82%。正交偏最小二乘判别分析（OPLS-DA）能够有效区分不同等级的茶叶。

2.4 经代谢组学生物标志物筛选优化的神经网络滋味分类

通过LC-MS代谢组学分析茶汤滋味化合物。研究比较了四种不同特征筛选策略（基于二级质谱得分、方差分析、OPLS-DA、PCA）构建的数据集，发现基于二级质谱得分（DATA_MS2）的数据集使用MLP模型训练后，分类准确率最高，达到93.0%。代谢物分析发现，蔗糖和海藻糖等糖类物质在A级茶中含量显著更高，这可能与其更优的风味相关。

2.5 用于综合品质预测的多模态AI系统

•
2.5.1 多感官模态的加权融合：将五个维度最优子模型（外观用MLP或ResNet-18，汤色和叶底用XGBoost，香气和滋味用MLP）的评分按感官评价权重（外观25%，汤色10%，香气25%，滋味30%，叶底10%）进行加权求和，得到综合评分。使用散叶特征提取（MLP）的Long-Tea-Feature框架综合准确率达94.15%，使用堆叠图像智能感官（ResNet-18）的Long-Tea-Intelligent框架准确率为89.46%。
•
2.5.2 CLIP监督的多模态特征融合：研究引入CLIP模型作为监督者。原始的CLIP模型在茶叶分级任务中准确率达到95.74%。在此基础上，利用Tip-CLIP方法指导MLP模型（称为TCSMLP）对香气、滋味等数据集进行训练，显著提升了模型的拟合性能（R²值更高）。最终，整合了ResNet-18（外观）、TCSMLP（香气、滋味、叶底）和XGBoost（汤色）的优化框架——Long-Tea-CLIP，实现了92.00% 的综合分类准确率，较未使用CLIP监督的版本（89.46%）有显著提升。

结论与讨论部分指出，Long-Tea-CLIP成功模拟了专家评茶师的综合评价方式，通过数字化茶叶的视觉特征（干茶、茶汤、叶底）和化学特征（香气、滋味），建立了一个准确、客观的AI辅助茶叶分级系统，最终达到了92.00%的分类准确率。与早期仅关注单一维度或少数维度的研究相比，该框架首次完整涵盖了专业评茶的所有五个核心维度，特别是包含了常被忽略但重要的汤色和叶底评估。研究采用的模块化架构（为每个维度设计独立模型）而非端到端多任务学习框架，旨在避免异质数据间的任务干扰，更好地模拟评茶师逐步分析的过程，增强了系统的可解释性和鲁棒性。

该研究的核心意义在于，它将先进的多模态AI监督（CLIP）与传统机器学习的可解释性相结合，为茶叶品质评估提供了一种可扩展、可复制且数据驱动的新方法。这不仅有助于解决传统感官评价的局限性，提升品质控制的一致性和效率，也对促进茶叶市场的透明化具有重要意义。尽管当前模型针对龙井绿茶开发，且实际部署需严格标准化数据采集流程，但其所提出的五维评估方法论具有普遍性，为未来扩展到其他茶类（如红茶、乌龙茶）奠定了坚实的框架基础。随着技术的不断进步和完善，此类AI辅助系统有望成为现代茶产业中实现标准化、透明化品质控制的重要工具。

订阅生物通快讯

订阅快讯：

免费订阅退订

限时促销

会展信息

联系信箱：

粤ICP备09063491号

订阅生物通快讯

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯