《Frontiers in Plant Science》:Near-infrared prediction of tannin content in walnut kernels using wavelet transform combined with interpretable machine learning models
编辑推荐:
本文提出了一种结合连续小波变换(CWT)与随机森林(RF)算法的近红外(NIR)光谱分析新方法,用于快速无损检测核桃仁单宁含量。研究通过一阶微分与CWT的协同处理显著提升光谱特征提取效果,最优模型验证集R2达0.831,RPD为2.459。SHAP算法进一步揭示4000-5000 cm-1和7000-9000 cm-1为关键特征波段,为核桃品质智能监测提供了可解释的技术方案。
引言
核桃作为中国重要的木本油料经济树种,其果实的涩味主要源于单宁化合物。传统单宁检测方法如EDTA滴定法、磷钼酸-钨酸钠比色法等存在成本高、效率低、化学污染等问题。近红外光谱技术凭借实时、无损、动态监测优势,为作物品质分析开辟了新途径。目前针对核桃仁单宁的快速检测研究较少,且模型可解释性不足。本研究以新疆温宿县"温185"核桃为对象,探索近红外光谱结合机器学习模型在单宁含量预测中的应用价值。
材料与方法
实验选取180份来自不同管理水平果园的核桃样本,使用傅里叶变换近红外光谱仪采集4000-10000 cm-1范围内的光谱数据。通过蒙特卡洛方法进行异常值剔除,最终保留171个样本。采用11种数学变换(如倒数变换1/R、对数变换lgR等)与连续小波变换进行光谱预处理,其中小波基函数优选gaus4函数,分解尺度范围为21-210。基于皮尔逊相关性分析筛选特征波段,以随机森林算法构建预测模型,并利用SHAP算法实现模型可解释性分析。
单宁含量测定参照农业行业标准NY/T 1600-2008,采用分光光度法在765nm波长下检测。模型性能通过决定系数R2、均方根误差RMSE和相对分析误差RPD评估,其中RPD>2.0视为模型预测能力优秀。
结果与分析
单宁含量测定结果显示样本间差异显著,含量范围4.73-20.17 mg/g,满足建模需求。原始光谱曲线在4000-5000 cm-1和7000-9000 cm-1区域出现与单宁分子O-H振动相关的特征吸收峰。一阶微分处理显著增强光谱细节特征,而二阶微分虽提高特征分辨率但引入较多噪声。小波变换在尺度28和29处取得最佳特征提取效果,其中lg'(1/R)_CWT_28组合的相关系数最高达0.388。
模型构建结果表明,特征波段筛选能有效提升模型稳健性。基于全波段建模易出现过拟合,而特征波段模型验证集RPD稳定在2.2以上。最优模型lg'(1/R)_CWT_28在训练集和验证集的R2分别为0.880和0.831,RPD达到2.904和2.459。SHAP分析揭示4000-4999 cm-1和7000-8999 cm-1波段为关键贡献区域,与单宁的酚羟基振动特征高度吻合。
讨论
本研究验证了小波变换在光谱预处理中的优越性。与传统数学变换相比,CWT能同时保留低频趋势和高频细节,特别适合处理核桃仁复杂的基质干扰。一阶微分与CWT的协同使用既放大了细微光谱变异,又通过多尺度分解抑制了随机噪声,这与Wang等人在茶叶氮含量检测中的发现一致。模型可解释性分析证实了特征波段的生化合理性,为核桃品质无损检测提供了理论依据。
未来研究可引入更严格的交叉验证方案,并对比梯度提升等先进算法性能。结合遥感技术将模型拓展至区域尺度监测,有望推动核桃产业智能化发展。
结论
基于小波变换和机器学习的近红外预测模型能准确量化核桃仁单宁含量,最优模型验证集R2达0.831。SHAP算法有效识别出与单宁化学结构对应的特征波段,使模型兼具高精度与可解释性。该技术为核桃品质快速评估提供了新方法,对农产品质量智能管控具有推广价值。