《Food Chemistry》:Hybrid wavelength selection technique and spectral binning for wheat protein estimation using hyperspectral imaging
编辑推荐:
本研究通过随机森林与遗传算法结合的混合策略,在近红外-高光谱数据中选择6个关键波长(5nm分辨率)实现小麦蛋白含量高精度预测(R2=0.9790),并验证了10nm分辨率光谱 binning 对精度影响较小,为低成本多光谱成像设备开发提供理论支持。
阿普尔瓦·夏尔玛(Apurva Sharma)|塔兰迪普·辛格(Tarandeep Singh)|尼尔贾·米塔尔·加格(Neerja Mittal Garg)|吴国强(Quoc Cuong Ngo)|迪内什·库马尔(Dinesh Kumar)
印度加齐阿巴德科学与创新研究院(Academy of Scientific and Innovative Research),邮编201002
摘要
高光谱成像在估算小麦蛋白质含量方面显示出潜力,但需要昂贵的设备,并且会产生高维度的数据。本研究确定了一组最小的信息波长,以降低计算复杂性并促进低成本光谱成像系统的开发。我们对原始和预处理后的光谱数据使用了十三种波长选择算法及其组合(分辨率为5纳米),以识别最佳波长。使用结合随机森林(Random Forest)和遗传算法(Genetic Algorithm)以及支持向量回归(Support Vector Regression)的两步混合策略,获得了最佳结果(R2 = 0.9790,RMSE = 0.2104)。当分辨率降低到10纳米并使用光谱分箱(spectral binning)时,准确性仍然相当(R2 = 0.9688,RMSE = 0.2564)。这表明可以使用六个波长和10纳米的分辨率来准确估算小麦蛋白质含量。这些发现突显了开发低成本多光谱成像设备的潜力。
引言
小麦是全球最重要的谷物作物之一,其蛋白质含量对其价值和最终用途至关重要。高蛋白质的小麦更适合制作有弹性的面包和意大利面,而低蛋白质品种则更适合糕点和其他软烘焙产品(Alzuwaid等人,2021年)。凯达尔法(Kjeldahl method)已被用于测定小麦蛋白质含量,但它需要湿实验室操作,分析过程可能需要数小时。相比之下,基于图像处理的技术因其快速且非破坏性的特点而受到广泛关注(Kheiralipour和Jayas,2023年)。在这些方法中,高光谱成像(Hyperspectral Imaging,HSI)在农业和食品相关应用中得到了广泛应用(Kheiralipour和Jayas,2024年)。HSI技术与机器学习和深度学习相结合,实现了近乎实时的质量评估,消除了对传统湿实验室分析的需求(Kheiralipour等人,2025年)。近红外(NIR)范围的高光谱成像已被证明能有效评估种子的营养价值,特别是蛋白质含量。它通过将光谱划分为传感器光谱范围内的大量窄波长区间,并记录每个区间的反射强度来获取样本的光谱和空间信息(Zhang、Li等人,2025年)。NIR光谱能够捕捉化学键的吸收信息,尤其是N-H、C-H和O-H振动态带,从而建立光谱特征与蛋白质浓度之间的关系(Yi等人,2024年)。
技术进步使得商业光谱成像系统(如Specim FX17e或Specim FX50设备)变得可用。然而,这些设备的成本在10,000至40,000美元之间,这对农民和小商贩的潜在使用构成了障碍(Pechlivani等人,2023年)。开发低成本相机需要简化硬件并降低相关的计算复杂性(Stuart等人,2020年)。一种方法是使用多光谱成像,即使用几个具有低分辨率带宽的滤光片,其成本在500美元左右。这种方法将降低计算复杂性,使其适合实时操作,并显著降低硬件成本。通过选择最具有信息量的波长,可以从HSI中衍生出多光谱相机。识别这些关键波长具有挑战性,因为高光谱数据通常包含不必要的冗余信息(Kaur等人,2024年)。因此,波长选择是通过识别最具信息量的波长子集并减少计算负担来应对高维度问题的关键步骤。
文献中的研究表明,使用特定的波长选择方法选择最佳波长数量可以显著提高预测准确性(Hossein等人,2024年;Hossein和Kheiralipour,2025年)。有许多波长选择技术,如ReliefF(RL)、随机蛙(RFg)、随机森林(RF)、投影中的变量重要性(VIP)、连续投影算法(SPA)、蒙特卡洛无信息变量消除(MCUVE)、竞争性自适应加权采样(CARS)、遗传算法(GA)、递归特征消除(REF)、注意力驱动(AD)方法和Shapley加性解释(SHAP)。Zhou等人(2020年)基于CARS区分了玉米种子,并为种子胚侧识别出14个最佳波长,为非胚侧识别出23个最佳波长。使用各种波长选择方法进行了玉米种子活力的识别。其中,UVE与人工神经网络(ANN)结合在60个波长上的方法被证明是最有效的方法(Xu等人,2022年)。在另一项研究中,使用SPA、CARS和UVE对两种类型的玉米种子进行了分类,分别得到了114个、27个和49个最佳波长。在这些方法中,SPA和CARS在玉米分类方面取得了最佳结果(He等人,2022年)。尽管单波长选择方法被广泛使用,但它们存在固有的局限性,限制了其有效性(Zhang、Wang等人,2025年)。一些方法在去除无信息变量方面高效,但可能会丢弃重要波长;而其他方法可以捕获关键波长,但容易过拟合(Yun等人,2019年)。
为了克服这些局限性,研究人员采用了混合方法,即按顺序结合两种或更多波长选择方法。第一种方法通过消除大量无关波长来进行粗略筛选,第二种方法进一步细化选择,以识别最具信息量的子集(Fu等人,2022年)。例如,Yu等人(2020年)证明,混合波长选择策略比单一方法具有更高的预测准确性,并且构建校准模型所需的变量更少,从而提高了效率和鲁棒性。在另一项研究中,Park等人(2025年)报告称,UVE-CARS和CARS将光谱数据分别减少到了全波长的14.3%和18.3%,同时仍保持了强大的预测性能。Guo等人(2023年)使用区间变量迭代空间收缩方法和SPA组合选择了12个最佳波长来确定大豆种子的水分含量。Wang等人(2020年)使用UVE-SPA和18个最佳波长预测了玉米种子的水分含量。
然而,当前文献中仍有一些空白需要进一步研究。研究表明,使用10-30个波长的子集可以获得良好的性能,但使用更少波长(<10个波长)开发准确的混合波长选择模型的可行性尚未得到广泛研究。大多数混合波长选择算法仍然依赖于传统的波长选择方法(Fu等人,2022年)。需要将最近的智能优化方法纳入混合模型中以提高其有效性。此外,大多数现有研究在提出多光谱系统时依赖于高光谱相机的窄光谱分辨率。对于模拟低分辨率相机,对光谱分箱作为后期处理方法的关注有限。这些局限性促使开发出既能保持高预测准确性又能降低数据复杂性和相机成本的成本效益高的混合波长减少策略和多光谱系统。
因此,为了克服以往研究中的局限性,本研究旨在确定从NIR-HSI数据中获取的最少波长数量和较低的光谱分辨率,以估算小麦种子的蛋白质含量。具体目标是:(i)基于全光谱开发不同的机器学习和深度学习回归模型;(ii)评估和比较最先进的波长选择算法;(iii)提出并验证一种两步混合策略(RF-GA),以识别最具信息量的波长子集,同时最大化预测准确性;(iv)通过结合光谱分箱(将分辨率从5纳米降低到10纳米)将这种方法扩展为三步框架。
总结来说,本研究的主要贡献如下:
1.引入了一种两阶段RF-GA混合框架,以获得紧凑的波长子集(六个波长),同时保持从NIR-HSI数据中准确预测小麦蛋白质含量,解决了以往研究通常依赖较大波长子集的局限性。
2.我们对十三种波长选择算法进行了比较分析,包括最先进的算法(如SHAP、AD),并使用RF-GA-SVR策略取得了最佳性能。
3.大多数现有研究假设高光谱相机具有精细的光谱分辨率来提出多光谱系统。在这项工作中,我们应用了光谱分箱作为降低分辨率的方法,并评估了将光谱分辨率从5纳米降低到10纳米时的模型性能。结果表明,在10纳米分辨率下可以获得相当的准确性,这突显了开发低成本多光谱成像设备的潜力。
部分摘录
种子收集和数据获取
2021年和2022年的收获季节,从印度五个小麦种植区(卢迪亚纳、卡纳尔、达尔瓦德、印多尔和斋浦尔)收集了小麦样本。表1提供了本研究包含的品种详细信息。种子储存在4°C的冷藏容器中。在实验前,种子在室温26°C和相对湿度55%的条件下放置了12小时。
小麦样本的光谱特征
图2显示了在900-1700纳米范围内测量的621个小麦样本的平均反射光谱。不同蛋白质含量的小麦样本表现出相似的光谱特征形状,峰值和谷值出现在相似的波长处。在约980纳米、约1200纳米和约1450纳米处观察到三个明显的吸收区域。980纳米附近的吸收带主要与水分有关,通常归因于O-H振动态带。1200纳米附近的宽吸收带
局限性和未来研究方向
本研究调查了RF-GA-SVR混合波长选择方法以及光谱分箱,使用六个选定的波长来估算小麦种子的蛋白质含量。然而,本研究仍存在一些局限性和未来研究方向,如下所述:
1.本研究为设计低成本多光谱相机奠定了理论基础;然而,需要通过开发和测试实际原型来验证其有效性
结论
本研究展示了一种仅使用六个选定波长估算小麦蛋白质含量的有效方法,而无需依赖整个高光谱范围。这解决了使用光学设备进行蛋白质估算时的两个主要挑战:数据的高维性和成像设备的成本。这六个波长是从使用混合波长选择模型(结合随机森林(Random Forest)通过高光谱成像获得的147个波长中选出的
CRediT作者贡献声明
阿普尔瓦·夏尔玛(Apurva Sharma):撰写 – 审稿与编辑、撰写 – 原稿、验证、软件、方法论、正式分析、数据管理。塔兰迪普·辛格(Tarandeep Singh):撰写 – 审稿与编辑、验证、正式分析、数据管理。尼尔贾·米塔尔·加格(Neerja Mittal Garg):撰写 – 审稿与编辑、监督、资源协调。吴国强(Quoc Cuong Ngo):撰写 – 审稿与编辑、监督、调查。迪内什·库马尔(Dinesh Kumar):撰写 – 审稿与编辑、监督、调查。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。
致谢
作者感谢UAS(达尔瓦德)、ICAR-IARI(印多尔)、RARI(斋浦尔)、ICAR-IIWBR(卡纳尔)和PAU-USF(卢迪亚纳)提供小麦种子。作者还感谢澳大利亚RMIT大学和印度CSIR-Central Scientific Instruments Organisation(CSIO)提供的高光谱相机设施。