《Journal of Future Foods》:A Novel Dual-Modality Deep Fusion Framework Based on VIS-NIR Hyperspectral Imaging for Soybean Classification
编辑推荐:
本研究针对现有农产品产地鉴别中多模态光谱融合方法简单、未能充分利用不同光谱模态互补特性的问题,开展了基于VIS-NIR高光谱成像的大豆产地分类研究。研究人员创新性地提出了四种融合策略,其中深度融合模型准确率达97.64%,非对称融合模型引入动态置信门控机制,在保持高精度的同时显著提升计算效率。该研究为农产品溯源提供了高效可靠的技术方案,对保障食品安全和贸易公平具有重要意义。
在国际农产品贸易日益频繁的今天,大豆作为重要的粮油作物,其产地真实性直接关系到食品安全和贸易公平。传统的溯源方法主要依赖文档、条形码等数字工具,但这些方法缺乏与产品本身的物理联系,容易遭受数据丢失或篡改。相比之下,基于样品内在特性的分析方法具有更强的防伪能力,能显著提高产地识别的可靠性。
目前常用的分析技术包括气相色谱-质谱联用、液相色谱-质谱联用、核磁共振等技术,虽然具有高灵敏度和准确性,但存在成本高、流程复杂、耗时长等局限性,难以满足大规模筛查的应用需求。高光谱成像(HSI)技术因其非接触、无损、快速采集和高通量等优势,为农产品产地鉴别提供了新的解决方案。
然而,现有的多模态融合方法大多局限于输入级或决策级的简单特征拼接,依赖基本的投票方案,未能充分利用不同光谱模态的互补特性。同时,这些方法往往忽略了可见光和近红外光谱之间的异质性,包括空间分辨率、光谱响应特性和信噪比等方面的差异,容易导致信息冗余或冲突,影响模型的稳定性和分类准确性。
针对这些挑战,南京农业大学食品科技学院的研究团队在《Journal of Future Foods》上发表了一项创新研究,提出了一种基于VIS-NIR高光谱成像的双模态深度融合框架,用于大豆产地分类。该研究收集了来自阿根廷、巴西、中国、美国和乌克兰五个国家的5000多粒大豆种子,系统设计并比较了四种融合策略,为多模态光谱融合提供了新的思路和方法。
研究团队采用的关键技术方法包括:高光谱成像系统(VIS-NIR范围380-1010nm,NIR范围1000-2000nm)的数据采集,结合黑白校正的预处理方法,基于Kennard-Stone算法的样本划分,以及四种创新融合策略(Early-fusion、Deep-fusion、Late-fusion、Asymmetric-fusion)在统一卷积神经网络架构中的实现,其中Deep-fusion和Asymmetric-fusion策略还引入了Transformer模块增强特征融合效果。
3.1. 光谱分析
研究人员对五个国家大豆样品的平均反射光谱进行了分析。在400-1000nm范围内,所有国家的样品都显示出相似的光谱趋势,但在1000-2000nm范围内出现了更明显的光谱差异。近1200nm处的吸收谷与-CH2和-CH3基团中C-H伸缩振动的一级倍频相对应,这指示了大豆中的脂质含量。在1450nm和1940nm附近观察到的两个显著吸收峰分别对应于水的O-H伸缩振动以及O-H弯曲和伸缩的组合。阿根廷和巴西的大豆样品在该区域表现出较低的反射率,表明其水分含量较高。
3.2. 模型分析
在模型性能比较中,Deep-fusion策略表现出最佳性能,测试准确率达到97.64%,F1分数为97.51%。Early-fusion模型在准确性和速度之间实现了良好平衡,测试准确率为95.31%,运行时间仅为26.01秒。Asymmetric-fusion模型引入了动态置信门控机制,测试准确率达到95.43%,运行时间为33.09秒,在保持较高精度的同时显著提升了计算效率。
3.3. t-SNE特征可视化
t-SNE可视化结果显示,融合模型的特征可分离性明显优于单模态模型。Deep-fusion模型在t-SNE投影中显示出紧密的类内聚类和良好的类间边界,这与其顶级分类准确性相对应。该模型通过在网络中间层进行特征整合,实现了丰富的跨模态交互和抽象,产生了语义对齐的表征,在保持模态特定细节的同时增强了可区分性。
3.4. 消融实验
消融实验表明,Transformer模块在所有融合结构中都起着关键作用。在Deep-fusion模型中,移除Transformer会使测试准确率从97.64%下降到90.37%,测试F1分数下降7.28%。这一显著下降表明,Transformer在Deep-fusion模型中有效捕获了VIS和NIR特征之间的跨模态关系,增强了上下文依赖性,改善了全局特征表征。
3.5. 可视化分析
基于Deep-fusion模型的空间分析显示,该模型具有较强的空间结构感知能力。在400-1000nm范围内获取的RGB图像和相应的预测分类结果伪彩色图证实了该模型在测试集上观察到的高分类性能,特别是在巴西和中国类别之间没有出现误分类。
研究结论表明,本研究提出的多模态融合框架为大豆产地分类提供了高效且可扩展的解决方案,为智能农业分选和质量溯源系统的技术进步提供了新途径。Deep-fusion模型通过深度特征交互和有效的跨模态表征学习,实现了最佳的整体性能。Asymmetric-fusion模型通过主导模态引导,在不平衡或噪声输入条件下表现出增强的鲁棒性和稳定性能。
该研究的重要意义在于,它不仅解决了现有农产品产地鉴别中的技术瓶颈,而且为多模态光谱融合提供了系统的理论框架和实践指南。通过创新性地结合1D-CNN和Transformer编码器,并在Asymmetric-fusion模型中引入置信门控机制,显著提升了模型处理异质光谱特征的能力。这些成果对推进农产品质量安全控制技术发展,保障食品贸易公平具有重要的实践价值和应用前景。