基于近红外光谱与深度学习融合预处理和变量选择策略的香榧内部霉变无损检测研究

《Journal of Food Composition and Analysis》:Non-destructive detection of internal mold in torreya grandis seeds using NIR spectroscopy and deep learning with integrated preprocessing and variable selection

【字体: 时间:2026年01月14日 来源:Journal of Food Composition and Analysis 4.6

编辑推荐:

  本研究针对香榧内部霉变难以肉眼识别、影响品质与安全的问题,创新性地将近红外光谱技术与深度学习模型相结合。研究人员系统比较了多种预处理与变量选择方法,构建了CARS-ICO-CNN和UVE-CARS-ICO-MLP等高精度分类模型,实现了对香榧内部霉变的快速、无损检测,准确率高达97.22%。该研究为坚果类农产品内部缺陷的无损检测提供了新的技术方案,对保障食品安全具有重要意义。

  
香榧,这种源自中国的珍贵坚果,以其丰富的营养和独特风味备受青睐。然而,在其从采摘到储存的复杂过程中,尤其是在长达15天的后熟阶段(通常在20°C–30°C和90%相对湿度下进行),如果温湿度控制不当或通风不良,榧仁内部极易滋生霉菌。更棘手的是,内部霉变通常不会在种子外壳留下任何肉眼可见的痕迹,这使得传统的人工筛选方法几乎无能为力。霉变的香榧不仅品质和风味大打折扣,还可能产生如黄曲霉素等有害代谢物,严重威胁消费者的健康。因此,开发一种能够“透视”香榧内部、快速准确识别霉变种子的无损检测技术,对于保障香榧产业的质量安全和可持续发展显得尤为迫切。
近日,一项发表在《Journal of Food Composition and Analysis》上的研究为解决这一难题带来了曙光。该研究团队探索利用近红外光谱技术结合先进的深度学习算法,来实现香榧内部霉变的快速、无损检测。近红外光谱技术具有快速、高效、无损等优点,能够捕捉到物质内部化学成分的变化信息。当香榧内部发生霉变时,其蛋白质、脂肪等营养成分会发生降解,水分含量也可能发生变化,这些生化改变都会在近红外光谱上留下独特的“指纹信息”。
为了从复杂的光谱数据中精准提取出与霉变相关的特征,研究人员开展了一项系统性的方法学研究。他们首先对采集到的原始近红外光谱数据(波长范围900-1700 nm)进行了深入的预处理分析,比较了包括Savitzky-Golay平滑、基线校正和标准正态变量变换在内的15种预处理策略,旨在消除噪声和基线漂移等干扰,优化数据质量。研究确定SG-Baseline-SNV为最有效的组合预处理方法。紧接着,为了从高维光谱数据中筛选出最关键的特征波长,研究评估了三种单变量选择方法和十二种组合变量选择方法。最终,针对卷积神经网络模型,CARS-ICO组合被证明是最优策略,筛选出7个关键波长变量;而对于多层感知器模型,UVE-CARS-ICO组合效果最佳。基于筛选出的特征波长,研究团队构建了线性判别分析、卷积神经网络和多层感知器分类模型,并对模型性能进行了全面评估。
本研究的关键技术方法主要包括:使用NIR17S光谱仪采集香榧种子的近红外光谱;采用SG-Baseline-SNV组合策略进行光谱预处理;应用竞争性自适应重加权采样-区间组合优化等变量选择方法筛选特征波长;构建并优化CNN、MLP等深度学习分类模型;利用SHAP值分析和t-SNE可视化技术解释模型和展示分类效果。研究所用的240个香榧种子样本(120个健康,120个霉变)均采自浙江绍兴 Shengzhou 的同一产地和批次,并经过破坏性验证确认其内部状态。
3.1. 形态学分析
健康与霉变香榧种子在壳的外观上差异不大,但内部变化显著。霉变种子的黑色种皮颜色加深呈棕黑色,种仁表面出现黑点或霉斑,颜色变为棕黄色。
3.2. 光谱分析
原始近红外光谱显示,健康与霉变种子在900–1700 nm的多个波段存在明显差异。霉变样品在1100–1300 nm范围内吸光度增加且光谱更为紊乱,该区域包含了与蛋白质和脂肪相关的吸收峰。在1450 nm附近的吸收峰增强,表明霉变导致种子水分含量升高。这些光谱差异反映了霉变过程中种子内部蛋白质降解、脂肪酸败以及水分变化等化学组成的变化。
3.3. 最优预处理方法
在15种预处理策略中,SG-Baseline-SNV组合最有利于提升CNN和MLP模型的性能。经过该预处理后,光谱曲线更平滑,噪声和基线漂移得到有效校正,特征波段对比度增强,从而放大了健康与霉变种子之间的光谱差异。
3.4. 特征变量选择
3.4.1. 单变量选择方法
研究比较了无信息变量消除、竞争性自适应重加权采样和区间组合优化三种单变量选择方法。CARS方法筛选出9个特征波长,ICO方法筛选出65个,而UVE方法保留了129个波长。波长选择分布图显示,CARS选出的波长主要集中在1000-1400 nm的关键吸收区,ICO选出的波长呈簇状连续分布,而UVE选出的波长覆盖范围更广。
3.4.2. 组合变量选择方法
十二种组合变量选择策略被评估。对于CNN模型,CARS-ICO组合效果最佳,仅使用7个特征波长。对于MLP模型,UVE-CARS-ICO组合最为有效。组合方法能够综合利用不同算法的优势,实现更精细和稳健的特征筛选。
3.5. 分类模型
3.5.1. 基于单变量选择方法的分类模型
CNN模型在CARS变量选择下表现最好,预测集准确率达到95.83%。MLP模型在UVE变量选择下表现最佳,预测准确率为94.44%。深度学习方法显著优于传统的LDA方法。
3.5.2. 基于组合变量选择方法的分类模型
采用CARS-ICO变量选择策略的CNN模型取得了最优异的分类性能,在校准集、交叉验证集和预测集上的准确率分别达到98.35%, 96.47% 和 97.22%,特异性为97.83%,敏感性为96.15%。采用UVE-CARS-ICO的MLP模型预测准确率也达到97.22%。结果表明,组合变量选择策略能进一步提升模型性能。
3.6. SHAP分析
通过SHAP分析对最优CNN模型进行解释,发现波长1266.47 nm(与脂质降解相关)、1328.31 nm(与蛋白质降解相关)和1145.39 nm(与水分及酚类物质相关)对模型决策的贡献最大。该分析揭示了模型是如何依据这些关键波长区的光谱变化来区分霉变种子的,增强了模型的可解释性。
3.7. t-SNE可视化
t-SNE降维可视化显示,经最优CNN模型处理后的预测集样本,霉变与健康种子在二维空间中形成了清晰的分群,仅有极少数样本重叠,直观地证明了模型强大的分类能力。
3.8. 模型泛化能力评估
通过10次随机划分数据集的验证,CARS-ICO-CNN模型在预测集上取得了平均95.42%的准确率,且标准差较小(<2%),表明模型具有良好的稳定性和泛化能力。
该研究成功地将近红外光谱技术与深度学习模型相结合,建立了一种高效、准确的香榧内部霉变无损检测方法。通过系统优化光谱预处理和变量选择策略,研究团队构建的CARS-ICO-CNN模型对香榧内部霉变的识别准确率高达97.22%。这不仅证实了近红外光谱技术应用于香榧内部品质检测的可行性,也凸显了深度学习在从复杂光谱数据中提取微弱特征方面的巨大优势。
研究的深刻意义在于,它为解决坚果类农产品内部缺陷无损检测这一行业共性难题提供了创新的技术路径。该方法无需破坏样品,检测速度快,有望在未来开发成便携式或在线检测设备,直接应用于香榧的加工生产线、仓储物流或市场质检环节,实现霉变种子的实时、在线分拣,从而极大提升香榧产品的质量安全控制水平,减少经济损失,保障消费者健康。此外,研究所采用的“预处理-变量选择-深度学习建模-模型解释”的系统性分析框架,对于将光谱技术应用于其他农产品、食品乃至药品的内部品质无损检测也具有重要的借鉴和推广价值。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号