开源Python工作流程:耦合机器学习的高光谱图像分析用于食品样本和食品过程的表征

《LWT》:An open-source Python workflow to characterize food samples and food processes by hyperspectral image analysis coupled with machine learning.

【字体: 时间:2026年05月10日 来源:LWT 6.0

编辑推荐:

  食品工业需要快速、非破坏性的监测来防止腐败并确保质量。高光谱成像(HSI)能够快速量化大分子成分,但其应用受到缺乏处理复杂光谱数据的可用工具的阻碍。为解决这一障碍,研究人员引入了一个可定制的开源Python软件包,集成了数据预处理、分割和机器学习。研究人员在两

  
食品工业需要快速、非破坏性的监测来防止腐败并确保质量。高光谱成像(HSI)能够快速量化大分子成分,但其应用受到缺乏处理复杂光谱数据的可用工具的阻碍。为解决这一障碍,研究人员引入了一个可定制的开源Python软件包,集成了数据预处理、分割和机器学习。研究人员在两个不同的食品过程和两个光谱范围(可见光-近红外(VNIR)到短波红外(SWIR))上应用了这一端到端的工作流程,使用了相对较小的数据集。首先,研究人员绘制了干发酵香肠成熟过程中空间水分流失和色素氧化的分布图。其次,研究人员研究了一种传统的保存过程,该过程引发了钠离子(Na+)从藻类向鱼肉的转移,考虑到腌制不足可能导致微生物腐败。研究旨在识别鱼片中对盐间接效应的可能光谱生物标志物。最佳模型区分腌制与未腌制样品的准确度分别为97.9%(VNIR)和89.6%(SWIR),F1分数超过0.98和0.89。此外,偏最小二乘(PLS)回归模型产生了具有竞争力的预测性能(R2在VNIR为0.73,SWIR为0.78),用于生成定量的、像素级的钠分布图。这一适应性工具包通过降低计算壁垒和保证高光谱成像部署中的方法可重复性,为研究界和工业界提供了支持。
研究背景、问题与动机
食品质量与安全已成为全球性的重要议题,涉及食品安全、掺假检测以及整个食品供应链的可追溯性建立。当前,工业环境中确保食品质量监测通常采用破坏性分析方法,这带来了成本、劳动力以及对食品批次评估有限等挑战。光谱成像等非破坏性技术已在工业中用于监测食品的质量、卫生和营养价值。其中,高光谱成像(HSI)能够快速、非破坏性地收集样本宏观成分的空间分辨光谱信息,在食品质量与安全评估,如污染物检测、氧化监测、添加剂定量等方面显示出巨大潜力。
尽管高光谱成像技术优势明显,但其广泛应用仍面临关键挑战。首先,高维、噪声丰富的高光谱数据集需要经过精心设计的预处理流程,而光谱数据分析和解释的复杂性构成了显著障碍。其次,许多现有研究未详细描述其处理流程或算法,且大多数解决方案依赖于专有软件,这限制了方法的灵活性和可重复性。因此,亟需开发用户友好、开源的工作流程,以支持高效数据处理和客观提取与研究效应相关的特定光谱特征。
本研究内容、结论与意义
为应对上述需求,研究人员开发了一个透明、开源的高光谱图像分析工作流程,旨在结合高光谱图像预处理与机器学习,并通过两个复杂动物基质的案例研究来严格验证其有效性。本研究成功应用于干发酵香肠的成熟过程监测和鱼肉中钠离子(Na+)浓度的预测。研究结果表明,该工作流程能够有效跟踪生物化学变化的空间和光谱维度,客观识别候选光谱生物标志物,并利用机器学习模型(如偏最小二乘判别分析(PLS-DA)和随机森林(RF))进行高性能预测,最终生成目标化合物(如钠离子)的定量分布图。这项工作的意义在于提供了一个降低计算壁垒、保证方法可重复性的开源工具包,有望推动高光谱成像技术在食品科学研究和产业应用中的普及。本论文发表于食品科学领域知名期刊《LWT》(食品科学与技术)。
主要关键技术方法
为开展研究,研究人员主要应用了以下关键技术方法:
  1. 1.
    高光谱成像系统:使用了两台Specim光谱相机,分别覆盖可见光-近红外(VNIR,400-1000 nm)和短波红外(SWIR,1000-2500 nm)范围,以获取宽光谱范围的数据。
  2. 2.
    Python数据处理与机器学习工作流程:开发了一个模块化的开源Python工作流程,集成了元数据管理、数据校准、图像去模糊、样本分割、散射校正(如乘性散射校正MSC)等预处理功能,并内置了机器学习分析模块。
  3. 3.
    机器学习模型:应用了偏最小二乘判别分析(PLS-DA)和随机森林(RF)算法对腌制与未腌制鱼片进行分类;应用偏最小二乘回归(PLSR)模型预测鱼片中的钠离子浓度。模型评估采用了严格的留一组交叉验证(LOGO)策略,以确保样本独立性。
  4. 4.
    特征波长识别与解释:通过计算变量重要性投影(VIP)分数和基尼不纯度等特征重要性指标,识别与处理效应(如盐腌)相关的关键光谱波长(候选生物标志物)。同时,研究人员汇编了文献中关于动物产品的重要波长参考表,以辅助结果解释。
  5. 5.
    案例研究样本:研究包含两个案例。案例一使用手工干发酵香肠切片,在20天的成熟期内分5个时间点采样。案例二使用24条虹鳟鱼的鱼片,每条鱼的左、右鱼片分别作为未腌制(对照)和用日本海带腌制24小时的样本,共计48个样本进行分析。鱼片中的游离钠离子浓度使用离子选择性电极进行测量,作为模型训练和验证的参考值。
研究结果
3.1. 基于Python的数据处理工作流程
研究人员开发并介绍了一个端到端的开源Python工作流程。该工作流程具备从原始高光谱立方体输入、自动元数据记录、数据校准、图像去模糊、背景分割、散射预处理到机器学习建模和结果输出的完整功能。其模块化设计支持定制化分析,并旨在提高高光谱图像分析的可重复性和可及性,以弥补现有开源工具在功能完整性和机器学习集成方面的不足。
3.2. 案例研究1:高光谱成像揭示手工干发酵香肠成熟过程中不均匀的水分流失
通过分析香肠成熟过程中(第0、4、6、13、20天)的高光谱图像,研究人员能够监测化学成分的时空变化。光谱分析显示,在约430 nm(可能与肌红蛋白相关)和970 nm(与O-H键,即水分相关)区域,反射率随时间增加,这可能对应于干燥过程中色素和水分含量的减少。同时,在约630 nm区域(与血红素色素相关)观察到了信号下降和峰位偏移,推测可能与肌红蛋白从氧合形式向高铁形式的氧化过程有关。空间分析进一步揭示,到第20天时,样品边缘(外周)区域的反射率变化比中心区域更为显著,表明干燥过程从外周开始,呈现出从外周向中心的水分梯度。这证明了高光谱成像可用于非破坏性地表征复杂食品基质中的质量传递现象。
3.3. 案例研究2:耦合机器学习的高光谱成像识别鳟鱼中与盐效应相关的波长
研究人员利用机器学习模型分析了腌制与未腌制鳟鱼片的高光谱数据。首先,经过错误发现率(FDR)校正的t检验在多个特定波长处发现了光谱均值间的显著差异,这些波长多与水分和蛋白质的吸收带相关。随后,使用PLS-DA和随机森林模型进行分类,两者在VNIR和SWIR数据上都取得了高预测性能,其中PLS-DA在VNIR上的准确度达到97.9%。通过分析模型的特征重要性(PLS-DA的VIP分数和随机森林的基尼不纯度),研究人员识别出了一系列与盐处理相关的候选光谱生物标志物。这些波长包括VNIR范围内约694 nm(与水分和脂质氧化相关)以及SWIR范围内一些新的特征波长(如1123、1810、2239 nm等),表明盐不仅影响水分状态,还可能影响蛋白质构象和脂质氧化。
3.4. 计算食品添加剂(如氯化钠)的定量预测分布图
尽管钠离子本身在VNIR-SWIR范围内没有直接的特征吸收峰,但盐的存在会间接改变水和蛋白质的光谱特性。研究人员利用测量得到的鱼片钠离子浓度和光谱数据,训练了PLSR回归模型。模型在测试集上表现出良好的预测能力,VNIR和SWIR模型的R2分别达到0.73和0.78。更重要的是,将训练好的回归模型应用于高光谱图像的每个像素,可以生成钠离子浓度的定量空间分布图。这些分布图揭示了盐在鱼片组织内的微观不均匀性,为识别腌制不足(微生物腐败风险)或腌制过度(感官品质影响)的区域提供了可能,这是传统批量化学分析无法实现的。
讨论与结论总结
在讨论部分,研究人员指出了当前工作流程的局限性,例如,其Python实现可能未经优化,不适合无需进一步加速处理的实时在线工业应用。未来的工作将集中于开发图形用户界面(GUI)以及与专有软件进行基准测试。此外,研究中使用相对较小的数据集(24条鱼)以及非随机化的左右鱼片分配(尽管假设双边成分对称性可忽略)是需要注意的局限性。
结论部分翻译如下:
本研究介绍了一个全面的开源Python工作流程,专门设计用于克服食品工业和科学研究中高光谱图像分析相关的计算壁垒。虽然目前仅存在一个开源软件包,但我们提出的工具包完全集成了数据管理和预处理步骤,并耦合了机器学习功能。这种无缝集成产生了一个透明的端到端分析流程,旨在有效处理宽光谱数据,包括可见光-近红外(VNIR)和短波红外(SWIR)范围。这显著增强了方法学的可重复性,而这是专有软件解决方案的黑箱性质所阻碍的关键要求。
该框架的适用性通过两个复杂动物基质的独立案例研究得到了验证。对干发酵香肠成熟过程的监测证明了该算法在空间和时间上映射质量传递动态的能力,非破坏性地突出了外周脱水梯度和肌红蛋白氧化变化。同时,在鳟鱼片上的应用证明了集成的机器学习模型,即偏最小二乘判别分析(PLS-DA)和随机森林,在客观提取与氯化钠引起的物理化学修饰相关的可能光谱生物标志物方面的有效性。此外,该框架能够通过偏最小二乘回归(PLSR)生成定量预测分布图,提供了通过传统批量化学分析无法达到的宏观成分空间分辨率。
这些进展证明了这种透明方法在食品质量和安全评估的各种应用中的巨大潜力。尽管当前的流程为学术研究提供了一个稳健的架构,但其在高速工业生产线上直接部署将需要进一步的计算优化,可能通过硬件加速,以及开发直观的图形用户界面来实现。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号