《Food Research International》:Classification and detection of
Salmonella,
Escherichia coli O157:H7, and
Listeria monocytogenes using Fourier-transform near infrared spectroscopy coupled with machine learning
编辑推荐:
傅里叶变换近红外光谱结合机器学习算法可有效识别脱水沙门氏菌、李斯特菌和大肠杆菌O157:H7,SVM与CNN表现最优,准确率达95.3%。
萨梅特·奥兹图尔克(Samet Ozturk)| 黄丽涵(Lihan Huang)| 黄成安(Cheng-An Hwang)| 沈少淑(Shiowshuh Sheen)
美国农业部,农业研究服务局,东部区域研究中心,600 E. Mermaid Lane,温德穆尔(Wyndmoor),宾夕法尼亚州 19038,美国
摘要
本研究旨在探讨傅里叶变换近红外(FT-NIR)光谱技术与机器学习(ML)算法结合使用的潜力,以准确识别三种食源性病原体,包括沙门氏菌(Salmonella spp.)、单核细胞增生李斯特菌(Listeria monocytogenes)和大肠杆菌O157:H7(Escherichia coli O157:H7)。每种细菌菌株(每种病原体两个菌株)分别通过使用乙醇-去离子(DI)水溶液进行连续洗涤进行培养和纯化。每个纯化的培养物被转移到一个96孔细胞板的每个孔中,该孔上覆盖有定制切割的滤纸,然后在50°C和20 kPa的条件下真空干燥1小时。随后使用连接到FT-NIR过程分析仪的漫反射探头,在1000–2400 nm范围内获取脱水细菌细胞的吸光度光谱。为了确定最佳的分类流程,使用十种不同的预处理方法、三种特征选择方法以及监督学习算法(包括偏最小二乘判别分析(PLS-DA)、支持向量机(SVM)、随机森林(RF)、人工神经网络(ANN)和卷积神经网络(CNN)对获取的光谱进行了分析。此外,通过欠采样和提升步骤进一步提高了所开发的ML流程的准确性。结果表明,SVM、RF、ANN和CNN的性能优于PLS-DA,其分类准确率均超过90%。研究发现,使用Savitzky-Golay一阶导数(SG1)滤波对全光谱进行预处理后,再结合SVM分类,可达到最高的准确率,整个ML流程的准确率为95.3%。这项研究突显了FT-NIR光谱技术与ML算法结合在加工环境中检测和识别脱水表面上的食源性病原体的强大能力。
引言
对食品中细菌污染进行高效和准确的早期监测和预筛查具有挑战性,因为快速且可靠地识别食源性病原体对于保护公共健康至关重要。目前传统的食源性病原体识别方法能够提供高度准确和可靠的结果;然而,这些方法通常耗时较长、成本较高,并且需要不同的准备步骤,这阻碍了它们在快节奏应用中的广泛采用(Mu等人,2018年;Velusamy等人,2010年)。在快速食品生产和加工环境中,现有的方法所需的识别时间通常过长,无法满足快速决策的需求。因此,开发和实施能够显著缩短准确识别和检测食源性病原体所需时间的策略至关重要。近期在早期诊断方面的进展表明,将非破坏性技术(包括傅里叶变换近红外(FT-NIR)光谱技术与化学计量技术相结合,可能为从血液或组织样本等生物样本中检测细菌、过敏原、肿瘤细胞和各种疾病提供有前景的解决方案(Brandily等人,2011年;Mu等人,2018年;Yang & Irudayaraj,2003年)。总体而言,这些研究表明了FT-NIR光谱技术在微生物检测方面的潜力,但大多数研究仅限于受控条件或单菌株评估。这凸显了在进行复杂食品基质验证之前,需要进行系统的基线研究以建立方法学的稳健性。细菌细胞含有多种生物分子,包括蛋白质、脂肪酸、碳水化合物、核酸和脂多糖,这些分子可能通过FT-NIR产生可检测的独特生化特征(Novais等人,2019年;Quintelas等人,2018年)。研究还表明,细菌细胞表面及其独特的分子成分显著影响光谱响应(De Bruyne等人,2018年;Kim等人,2006年),这可能产生可用于区分不同物种、菌株甚至亚菌株的独特光谱模式(De Bruyne等人,2018年;Johler等人,2016年)。由于实时监测能力、成本效益和时间效率,FR-NIR在微生物的识别和分类方面引起了广泛关注(Mu等人,2018年;Novais等人,2019年)。Siripatrawan等人(2010年)报告称,750–1350 nm的波长区域信息丰富,能够有效区分大肠杆菌ATCC 25922和大肠杆菌K12。这些发现表明,FT-NIR光谱能够捕捉到受细胞内成分和细胞表面结构影响的复杂生化特征,为菌株级别的区分提供了基础。然而,细菌菌株的FT-NIR光谱通常表现出复杂的模式,具有重叠的峰,加上背景基质效应,反映了各种细胞生物分子的多样贡献(Burgula等人,2007年;Naumann等人,1991年;Novais等人,2019年;Workman & Weyer,2012年)。 overtone吸收的存在通常使光谱数据复杂化,需要先进的化学计量方法来获得准确的定量见解。此外,工业环境中的自动化过程诊断依赖于有效的信号处理和解释,以支持实时过程监测。监督机器学习(ML)技术在训练期间建立从输入数据到输出类别(在分类任务中)或数值(在回归任务中)的映射,从而能够预测未见数据的结果(Bobbo等人,2024年;Jeon等人,2025年;Jiang等人,2020年;Miorelli等人,2021年;Mohamed,2017年;Shetty等人,2022年;Singh,2022年;Tiwari,2022年)。ML模型能够拟合输入-输出关系,而无需明确定义复杂的物理模型。然而,这些模型的预测成功率在很大程度上取决于所选输入特征变量的质量和相关性。几种先进的ML算法,包括偏最小二乘判别分析(PLS-DA)、支持向量机(SVM)、随机森林(RF)、人工神经网络(ANN)和卷积神经网络(CNN),已成功应用于分析化学、细胞和组织中生物大分子的研究、复杂生物系统以及液体和固体介质中细菌的表征等多个领域(Bravo-Frank等人,2024年;Erbe等人,2023年;Godmer等人,2024年;Goshisht,2024年;Rial,2024年)。这种方法在生物物理和生化领域得到了特别验证(Bowler等人,2022年;Brandily等人,2011年;de Sousa Marques等人,2013年;Mu等人,2018年;Ozturk等人,2023年;Siripatrawan等人,2010年;Tian等人,2021年;Veettil等人,2024年)。例如,Mu等人(2018年)和Feng等人(2015年)使用NIR光谱数据比较了线性和非线性化学计量方法来识别重新悬浮在胰蛋白酶大豆肉汤中的细菌菌株,两者都得出非线性方法优于线性方法的结论。具体来说,Feng等人(2015年)使用SVM正确分类了81.5%的预测样本,而Mu等人(2018年)通过使用一种竞争性自适应加权采样方法与SVM,正确分类了来自六个不同细菌菌株(跨越多个属和种)的光谱,准确率达到100%。CNN也因其在无需人工干预的情况下自动从复杂信号或数据集中提取关键特征的能力而在ML中得到广泛应用,从而在视觉图像分析、面部识别、语言处理、年龄预测和时间序列分析等应用中表现出强大的性能(Chen等人,2020年;Lussier等人,2019年;Napoletano等人,2018年)。最近的研究表明,CNN在分析光谱数据方面具有多种应用能力,包括过敏原检测、食品粉末分类和四籽紫草(Tetrastigma hemsleyanum)的鉴别(Chen & Wang,2019年;Ozturk等人,2023年;Zhou等人,2020年)。总体而言,结果表明,基于CNN的分类模型通常优于传统的ML模型,突显了它们在数据分类方面的显著优势(Krau?等人,2018年)。这些发现强调了系统比较算法和预处理策略的重要性,以确定最有效的细菌分类方法。
本研究的目的是评估将FT-NIR光谱技术与机器学习(ML)结合用于分类脱水形式细菌菌株的潜力,以限制基质效应。具体目标包括:1)对细菌菌株进行分类;2)确定该应用的最佳预处理方法、特征选择技术和ML算法;3)通过欠采样和提升提高模型准确性。与传统ML算法相比,CNN还因其出色的自动特征选择能力而受到青睐。通过在受控条件下建立这一基线框架,所开发的程序为将FT-NIR与ML方法扩展到代表性食品基质,最终应用于工业规模提供了必要的第一步。
部分内容
脱水细菌细胞的制备
选择了三种主要的食源性病原体,因为它们在全球公共卫生方面具有相关性,并且经常与多种食品产品的疫情相关。为了捕捉种内变异性并避免过度拟合于单一分离株,共包含了多个菌株(总共六个),为评估FT-NIR光谱技术与机器学习结合的分类性能提供了更具代表性的基础。
光谱特征
脱水沙门氏菌(Salmonella spp.)、大肠杆菌O157:H7和单核细胞增生李斯特菌(L. monocytogenes)的细菌细胞的所有光谱响应显示出相似的模式,尽管在1000–2400 nm范围内的吸光度值存在差异(图3)。脱水细菌细胞的FT-NIR光谱显示了关键的吸收带,主要是由于振动模式,可以初步归因于细菌细胞的主要成分中的化学键(表1)。然而,许多这些生物分子...
结论
在这项工作中,使用FT-NIR光谱技术来区分脱水形式的三种食源性病原体。为了实现稳健的分类,我们比较了各种预处理和特征选择方法。使用全光谱开发的PLS-DA模型的总体预测准确率为78.2%。SVM、RF和ANN也在本研究的条件下进行了评估,它们的准确率超过了90%。其中,SVM在大多数情况下表现最佳。
CRediT作者贡献声明
萨梅特·奥兹图尔克(Samet Ozturk): 方法学、研究、正式分析。黄丽涵(Lihan Huang): 撰写 – 审稿与编辑、监督、项目管理、方法学、研究、正式分析、概念化。黄成安(Cheng-An Hwang): 方法学、研究。沈少淑(Shiowshuh Sheen): 方法学、研究。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文所述的工作。