基于近红外光谱技术的茶叶品种溯源方法研究

《Beverages》：Research on the Method of Tea Variety Traceability Based on Near-Infrared Spectroscopy Kunpeng Zhou, Taiping Zhang, Suyalatu Zhang, Dexin Wang, Shujie Hao and Ruonan Wei

【字体：大中小】 时间：2026年03月10日 来源：Beverages 2.7

编辑推荐：

　　本文聚焦龙井、毛峰、竹叶青、碧螺春四种茶叶的快速无损溯源，建立了一套融合光谱预处理（S-G平滑、MSC、SNV、1stDer）、特征筛选（PCA、LDA、PCA-LDA、SPA）与分类建模（MLR、SVM）的系统性分析方法。研究通过五折交叉验证发现，SVM模型结合MSC/SNV预处理及PCA-LDA特征选择方案效果最优，平均准确率达96.67%，为农产品品质控制与快速鉴别提供了高效可靠的技术参考。

1. 引言

作为全球最受欢迎的三大饮品之一，茶的品种、等级与质量直接影响消费体验与市场秩序。传统的茶叶分析方法如感官审评和化学检测（如HPLC、GC-MS）存在主观性强、操作复杂、耗时昂贵、具有破坏性等局限。相比之下，近红外（NIR）光谱技术通过检测茶叶样品中功能基团（如O-H、C-H、N-H）的倍频与合频吸收信号，能够快速获取其化学成分与物理属性信息，满足茶叶分析的“快速、无损、高效”核心需求。当前茶叶NIR光谱特征的研究主要集中在茶叶新鲜度、风味类型和地理溯源上，而对于市场上常见且易混淆的茶品种（如龙井、碧螺春、毛峰、竹叶青）的鉴别研究相对有限。更重要的是，在构建此类判别模型时，光谱预处理方法、特征提取与降维策略以及分类器性能之间的协同效应尚未得到系统的比较与优化。本研究选取四种常见茶叶品种作为实验样品，收集其NIR光谱数据，进行特征光谱筛选并构建茶叶品种判别模型，通过比较不同方案的判别准确率，识别出茶叶品种溯源的最佳方案。

2. 材料与方法

2.1. 样品与光谱采集

研究选用四种市售茶叶品种（龙井、毛峰、竹叶青、碧螺春）作为实验样本。使用MPA傅里叶变换近红外（FT-NIR）光谱仪采集样品的近红外吸收光谱，光谱范围830–2500 nm，光程5 mm。每种茶叶制备7个独立样本，每个样本扫描3次光谱，共获得84个光谱数据集。标签分配为：龙井、毛峰、竹叶绿、碧螺春。为了减少数据划分引入的类别不平衡，采用分层抽样将数据划分为训练集和验证集，训练样本60个，验证样本24个。所有84个茶叶样品的近红外吸收光谱如所示。

2.2. 方法论

2.2.1. 光谱数据预处理

为提升光谱数据质量并减轻采集过程中的干扰，对原始光谱数据应用了四种预处理方法：Savitzky–Golay平滑（S-G）、乘性散射校正（MSC）、标准正态变量变换（SNV）和一阶导数（1stDer）处理。预处理操作在MATLAB R2023b中完成。应用预处理算法有效校正了基线漂移和散射等光谱伪影，增强了特征信号的稳定性和重复性，为后续建立化学计量学模型提供了更可靠的数据基础。原始数据经预处理后得到的光谱图见。

2.2.2. 特征波长选择的理论基础

为了评估不同光谱预处理方法对茶叶品种溯源的实际效用，需要先建立分类模型。鉴于茶叶样品的NIR吸收光谱数据维度高，不降维可能导致分类模型过拟合，因此在建立分类模型前，需从原始高维光谱数据中筛选出包含关键信息的波长组合以降低数据维度。本文采用了主成分分析（PCA）、线性判别分析（LDA）及其组合（PCA-LDA），以及连续投影算法（SPA）进行降维和特征选择。

主成分分析是一种经典的无监督线性降维算法，基于最大方差理论，通过正交变换将原始高度相关的变量转换为一组互不相关的主成分。这些成分按其对方差的贡献大小排序，方差越大包含的原始数据信息越多。在应用中，PCA能在保留大部分本质信息的同时降低数据维度，去除冗余和噪声。

线性判别分析是一种有监督学习算法，核心原理是通过线性变换将高维数据投影到低维特征空间，最大化不同类别之间的可分性。其数学目标是找到一个投影向量w，最大化类间散布矩阵（S_b）与类内散布矩阵（S_w）之比的目标函数。最大化该目标函数等价于求解由散布矩阵导出的广义特征值问题，对应k个最大特征值的特征向量构成投影矩阵，将高维数据映射到k维子空间（其中k ≤ C-1，C为类别数）。

连续投影算法旨在从光谱数据中寻找包含最小冗余信息的变量组，最小化变量间的共线性，显著减少建模所需的变量数量，从而提高建模速度和效率。其核心在于向量空间投影，通过迭代计算，在每次循环中获得一个新的变量子集，并基于该子集构建线性模型，计算验证集的均方根误差（RMSE），对应最小RMSE的变量子集及其规模被认为是最优的。RMSE的计算公式为：RMSE = √[(1/n) ∑_i=1ⁿ(y_i- ?_i)²]，其中n代表样本数，y_i是第i个样本的真实值，?_i是第i个样本的预测值。RMSE越小，表明模型预测值与真实值的偏差越小，预测性能越好。

2.2.3. 溯源模型构建

本研究选取了多元线性回归（MLR）和支持向量机（SVM）两种建模算法，利用提取的特征光谱数据构建茶叶品种溯源模型。

多元线性回归是一种简洁、经典的统计分析方法，用于建立一个因变量与多个自变量之间的线性关系模型。其基本假设是因变量y可以表示为自变量x₁, x₂, …, x_p的线性组合加上一个随机误差项ε。在应用中，使用最小二乘法（LS）等方法基于样本数据估计回归系数β₀, β₁, …, β_p，以最小化观测样本值与模型预测值之间的误差平方和。

支持向量机通过核函数将原始低维样本映射到高维特征空间，以寻找一个能最佳分离不同类别的超平面。对于线性可分情况，假设训练数据集为{(x_i, y_i)}_i=1ⁿ，通过求解一个二次规划问题，找到一个最优分类超平面。对于非线性问题，可通过引入核函数（如线性、径向基函数（RBF）、多项式核）将数据映射到高维空间使其线性可分。

3. 结果与讨论

研究结果表明，支持向量机（SVM）模型在整体分类和泛化能力上显著优于多元线性回归（MLR）模型。PCA-LDA组合方法被证明是最有效的特征选择方法。对于茶叶品种溯源，使用MSC或SNV预处理结合PCA-LDA-SVM的分类模型达到了最优效果，其五折交叉验证的平均准确率为96.67%。混淆矩阵显示，错误分类主要发生在龙井和碧螺春之间，以及毛峰和竹叶青之间，这可以归因于这些茶叶品种在加工技术和化学成分上的相似性。

4. 结论

本研究成功建立了一种基于近红外光谱技术的茶叶品种快速溯源方法。该方法结合了多种光谱预处理、特征降维和机器学习分类算法，系统比较并优化了技术链中各环节的最佳组合。最优模型（MSC/SNV-PCA-LDA-SVM）实现了高达96.67%的平均分类准确率，证明该方法快速、无损且准确，为茶叶质量控制与溯源提供了可靠的技术手段，并为其他农产品的快速鉴定提供了有价值的参考框架。

热点排行

新闻专题