编辑推荐:
本论文聚焦于番茄番茄红素的无损定量检测难题。为实现低成本、高精度且适用于工业化部署的目标,研究人员创新性地将优化的多光谱成像技术与机器学习模型相结合。通过系统性地进行波段选择,研究发现仅使用两个关键波段(595nm和635nm)并结合浅层神经网络,即可实现高达0.951的R2预测精度。该方法在显著降低硬件成本和复杂度的同时,保持了与复杂系统相当的检测性能,为优化番茄采收、分拣和储存提供了精准、经济的实时监测工具,有助于提升番茄的营养价值和减少供应链浪费。
番茄是全球蔬菜产量的重要贡献者,也是人类饮食中番茄红素的主要来源。番茄红素作为一种具有强大抗氧化特性的类胡萝卜素,其摄入与降低心血管疾病、癌症和神经退行性疾病的风险密切相关。在番茄产业中,番茄红素的积累直接关联果实成熟度,因此精准测定其浓度对于确定最佳采收时间、优化采后物流和储存策略至关重要。
然而,传统测定方法如高效液相色谱法(High-Performance Liquid Chromatography, HPLC)和分光光度法虽然精确,但属于破坏性取样,过程复杂且耗时,无法满足大规模、快速、非接触的在线检测需求。尽管基于可见光成像和色度空间(如CIE Lab*)的方法已被探索,但它们在番茄成熟后期,即果实已完全变红而内部番茄红素浓度仍在变化的阶段,预测精度显著下降。此外,许多现有技术(如色差计)需要接触或近距离测量,难以分析整个果实表面;而高光谱成像系统虽然性能优异,但成本高昂、扫描时间长,限制了其在工业场景的实际应用。因此,开发一种低成本、高精度、非破坏性且能适用于番茄所有成熟阶段的番茄红素检测方法,成为亟待解决的关键问题。
为了应对这些挑战,一篇发表在《Smart Agricultural Technology》上的研究提出了一种结合优化多光谱成像与机器学习的新型解决方案。该研究旨在通过战略性选择关键波段,在保证高预测精度的前提下,最大限度地减少所需波段数量,从而降低硬件成本和系统复杂度,为工业部署铺平道路。
研究人员主要采用了以下几个关键技术方法:
- 1.
多光谱成像系统构建与优化:研究团队开发了一个包含15个LED波长(380 nm至940 nm)的半球形漫射照明多光谱成像系统。该系统采用Basler acA1300-gmNIR单色面阵相机,并通过优化光照几何结构和均匀性,最大限度地减少了番茄表面的镜面反射,确保了高质量、一致的数据采集。
- 2.
基准测量与数据预处理:使用基于分光光度法的化学计量学方法(Anthon & Barrett法)对101个涵盖所有成熟阶段的Saluoso RZ F1番茄样本进行破坏性测量,获取番茄红素浓度的地面真值(ground truth)。对采集的多光谱图像,使用灰度阈值算法进行番茄区域分割,并提取每个波段下分割区域内的平均像素强度,形成特征向量。
- 3.
机器学习模型与波段选择策略:研究评估了四种机器学习方法:支持向量回归(Support Vector Regression, SVR)、k近邻回归(k-Nearest Neighbors, k-NN)、卷积神经网络(Convolutional Neural Network, CNN)和浅层神经网络(Shallow Neural Network, SNN)。为了在15个波段中找出最优组合并降低计算负担,研究采用了改进的顺序前向选择(Sequential Forward Selection, SFS)方法。该方法从最佳单波段开始,迭代地添加能最大提升模型性能的波段,并对每次组合使用六次重复的六折分层交叉验证进行稳健评估。
研究结果
3.1. 样本分布
研究使用的101个番茄样本,其番茄红素浓度范围从0.32 mg/kg到91.3 mg/kg,确保了所有成熟阶段的代表性。通过视觉检查,将浓度高于25.5 mg/kg的71个样本定义为“完全红色”番茄子集,用于专门评估成熟后期阶段的检测精度。
3.2. 基线 – 使用CIE Lab色度空间a值的回归分析*
作为基线比较,研究首先使用了传统的LAB色度空间方法。结果显示,使用对数回归时,a值与番茄红素浓度的拟合相关系数Rr2可达0.948,这与先前研究的高报告值一致。然而,当使用指数回归从a值预测番茄红素浓度时,对所有样本的预测Rr2降至0.756。更关键的是,当仅对“完全红色”番茄子集进行预测时,相关性急剧下降至Rr2=0.169,根均方预测误差(Root Mean Squared Error of Prediction, RMSEP)高达15.80 mg/kg。这明确揭示了传统色度方法在番茄成熟后期检测精度严重不足的局限性。
3.3. 单波段机器学习处理
随后,研究评估了四种ML模型处理单个波段平均反射率的能力。所有模型在单个波段下的预测性能(R2>0.88)均超过了LAB指数回归方法。其中,支持向量回归在595nm(橙色波段)处取得了最佳单波段预测R2=0.901。
3.4. 多波段机器学习方法
通过应用顺序前向选择策略,研究比较了支持向量回归和k近邻回归在多波段组合下的表现。支持向量回归在六波段组合下达到了最高R2=0.940,优于k近邻回归的R2=0.920。两种方法的预测速度都非常快(约1-3毫秒),且无需GPU硬件,显示出工业部署的潜力。
3.5. 神经网络方法
研究对比了浅层神经网络和基于ResNet-34的卷积神经网络。尽管卷积神经网络的参数量(约2100万)远超浅层神经网络(仅631个),但在所有波段组合下,浅层神经网络的性能均优于或等于卷积神经网络。在Python平台上,浅层神经网络(使用Adamax优化器)最高R2为0.942。当使用MATLAB的Fitnet工具并采用贝叶斯正则化(Bayesian Regularisation, BR)优化器进行十次重复的十折交叉验证时,浅层神经网络在六波段组合下取得了本研究中的最佳性能R2=0.959。
3.6. 双波段组合的机器学习结果
研究发现,仅使用两个波段(595nm和635nm)的浅层神经网络模型表现尤为突出。使用Adamax优化器时,R2为0.943,RMSEP为6.584 mg/kg;而使用贝叶斯正则化优化器时,R2进一步提升至0.951,RMSEP为6.317 mg/kg。这一配置在精度损失极小的情况下,为实现极低成本、快速(可单次拍摄)的检测系统提供了可能。
3.7. 结果总结
研究结果综合表明,所有测试的机器学习方法在多波段配置下均显著超越了传统的LAB预测方法。浅层神经网络结合贝叶斯正则化优化器取得了最佳整体性能。特别值得注意的是,双波段浅层神经网络方案在预测精度(R2=0.951)与系统成本、复杂度之间实现了卓越的平衡。
研究结论与讨论
该研究的核心结论是,通过优化多光谱成像与机器学习相结合,成功开发出一种能够高精度、非破坏性估算番茄红素浓度的方法,特别是在传统方法失效的完全红色番茄成熟后期阶段。
研究发现,传统的基于a*值的LAB色度学方法在番茄红素浓度超过25.5 mg/kg的红色番茄中预测能力严重不足(R2仅0.169),而本研究的双波段浅层神经网络方法在该子集上的预测R2达到了0.787,显示出巨大优势。这突显了机器学习模型在解析光谱信息方面优于简单经验公式的能力。
最具实践意义的发现是,仅需两个关键波段(595nm和635nm)即可实现接近最佳性能(R2=0.951)的预测。与需要六波段或更多的系统相比,双波段系统能大幅降低硬件成本(估计可降低20倍)、图像采集时间和系统复杂性。研究人员提出,这可以通过一个双相机、双滤光片、宽光谱照明的双光谱成像架构来实现,从而实现单次拍摄、在线处理,满足工业化分拣线的速度要求。初步成本估算显示,基于树莓派(Raspberry Pi)平台的原型系统成本可控制在较低水平,功耗约15W,吞吐量约每秒10个番茄,具备实际应用的潜力。
研究也指出了当前工作的局限性和未来方向,包括:机器学习模型(尤其是浅层神经网络)的架构和超参数尚有优化空间;顺序前向选择波段方法可能遗漏更优的非顺序组合;当前系统依赖于受控光照环境,在温室或田间复杂光照和背景下,需要开发动态校准和更鲁棒的图像分割算法;未来需要扩大数据集,涵盖更多番茄品种和生长季节,以验证方法的普适性和稳健性。
总之,这项研究为解决番茄产业中番茄红素快速、精准、低成本无损检测的难题提供了创新且实用的技术路线。其提出的双波段机器学习方案,在精度与成本效益之间取得了突破性平衡,不仅有助于优化番茄的采收和采后管理,最大限度地保留营养价值并减少浪费,也为开发适用于工业环境的智能农业传感器奠定了坚实的技术基础。