利用combase数据库进行机器学习建模,以预测单核细胞增生李斯特菌(Listeria monocytogenes)的生长动态:一种全面的特征工程方法

《Food Research International》:Machine learning modeling for predicting growth dynamics of Listeria monocytogenes using combase database: A comprehensive feature engineering approach

【字体: 时间:2026年02月06日 来源:Food Research International 8

编辑推荐:

  李斯特菌预测模型通过压力生理学特征工程与SHAP解释性模块优化,结合XGBoost算法在2631组ComBase数据上实现高精度预测(R2达0.88-0.90),显著提升传统模型的泛化能力,解决非线性环境交互与多基质适应性难题。

  
周子文|安浩鑫|李钊|刘阳泰|董青丽
上海科技大学,健康科学与工程学院,上海,200093,中国

摘要

传统的 Listeria monocytogenes 预测机制模型在捕捉环境协同作用和非线性应激反应方面存在局限性。本研究旨在通过基于应激生理学的特征工程和可解释的预测机制来开发一个机器学习框架,以应对这些挑战。该框架利用了 ComBase 中的 2631 个经过整理的观测数据,这些数据涵盖了广泛的环境条件(0–45°C,pH 4.0–8.5,Aw 0.85–1.00)。结合了基于应激生理学的特征工程模块(系统编码微生物学原理,如基数参数理论、Ratkowsky 关系和应激反应)和基于 SHAP 的可解释性模块(用于分析特定阶段的贡献)以及 XGBoost 构建了预测框架。系统地衍生出生物学上有意义的特征,以捕捉环境相互作用、非线性转换、应激指数、适宜性指标和累积应激效应。消融实验证明了这些特征的有效性,XGBoost 将基线模型的性能提高了多达 9 倍,生长相关的 R2 值达到 0.90,灭活相关的 R2 值达到 0.88。SHAP 分析显示了特定阶段的显著贡献:适宜性得分和水活度应激在滞后阶段预测中占主导地位(合计贡献 25%),而温度-水活度相互作用则控制了对数线性灭活动态(贡献 32%)。在多种食品基质上的验证显著提高了模型的泛化能力,90.4% 的预测结果在可接受范围内(±0.5 log CFU/mL)。该预测性能显著优于之前的机器学习模型,植物基基质的 R2 值从 0.39 提高到 0.85,猪肉从 0.60 提高到 0.82,牛肉从 0.74 提高到 0.85,符合国际标准(pAPZ = 0.80–0.97)。基于应激生理学的机器学习框架有效地提高了食品安全预测的准确性和跨基质泛化能力。

引言

Listeria monocytogenes(单核细胞增生李斯特菌)仍然是最具挑战性的食源性病原体之一,每年在美国导致约 1600 例李斯特菌病病例,病例死亡率超过 16%——这是主要食源性病原体中最高的(Rogalla & Bomar, 2025)。2024–2025 年期间发生的多州疫情,包括与熟食和即食餐相关的疫情,导致超过 80 人住院和 14 人死亡,凸显了这一持续的公共卫生威胁(Sharma et al., 2025)。这种病原体能够在多种环境条件下存活和繁殖,包括冷藏温度、低 pH 值和降低的水活度(Aw),使其在即食食品(RTE)中特别成问题,例如新鲜切割的水果、叶类蔬菜和易腐的预制餐食(De Silvestri et al., 2018; Gomez-Galindo et al., 2024a; Gowda et al., 2024)。
环境因素(温度、pH 值和水活度(Aw)通过复杂的非加性相互作用从根本上控制 L. monocytogenes 的生长,传统模型难以捕捉这些相互作用(Tarlak, 2023)。元分析确定了该物种的生长边界的基本参数值(Tmin = –1.273°C, Topt = 37.26°C, pHmin = 4.303, pHopt = 7.085, Awmin = 0.894)(Nunes Silva et al., 2020)。然而,为单个因素定义基本边界只能部分理解生长动态。关键的是,这些环境因素是协同作用的,而不是独立的:组合的次优条件产生的生长抑制作用远大于各因素效应之和的预测(Marc et al., 2002)。温度-PH 相互作用表明,最小 pH 值会随着温度的变化而显著变化,研究人员已经开发了数学模型来描述这种关系。同样,Aw 与温度和 pH 相互作用,调节细菌的应激反应和代谢能力(Gomez-Galindo et al., 2024; Tarlak, 2023)。
传统的预测微生物学试图通过机制建模框架来形式化这些复杂关系。这些环境效应的机制理解通过基数参数模型得到形式化,这些模型将生长率描述为各个因素效应相对于其基本值的乘法函数(gamma 概念)(Rosso et al., 1995)。这些模型假设每个环境因素对总体生长率贡献一个无量纲项(范围从 0 到 1),在基本极限附近接近零,在最佳条件下接近 1(Augustin & Carlier, 2000)。Ratkowsky 平方根模型是一个核心的二级模型框架,通过线性平方根转换将温度与生长率关联起来(Ratkowsky et al., 1983)。这些机制框架为生物学上有意义的特征工程提供了理论基础,使得领域知识能够转化为提高准确性和可解释性的预测模型架构(Walsh et al., 2024)。尽管有这些理论进展,但机制模型的实际应用仍面临重大的方法论挑战。
传统的预测微生物学采用两步或一步建模方法,两者都有固有的局限性。两步方法依次应用初级和次级模型,由于误差在建模链中的累积,可能会导致预测误差放大 50–100%(Koyama et al., 2022)。为了规避这一限制,开发了替代的一步方法,但这些方法引入了自身的约束。一步方法虽然避免了误差传播,但依赖于对初始条件敏感的非线性优化,并且容易发生收敛失败(Huang, 2015)。从根本上说,这两种框架都难以处理复杂的多因素相互作用,通常假设乘法或加性效应,无法充分捕捉生物系统中观察到的协同应激反应(Augustin et al., 2000)。
这些局限性促使机器学习(ML)方法在预测微生物行为、保质期预测和定量风险评估中的应用越来越多(Zhao et al., 2025)。ML 通过直接从环境参数预测微生物种群,无需中间建模步骤或预定义的功能形式,实现了范式的转变。这种方法消除了传统层次方法中固有的误差传播。(Top?uo?lu et al., 2020)。最近的应用展示了 ML 在食品安全风险评估中的潜力。然而,大多数研究仅检验了单一算法或有限的环境因素,缺乏系统的特征工程和全面的算法比较(Li et al., 2025; Zhao et al., 2025)。
安全关键的预测领域面临共同的方法论挑战,包括操作异质性、类别不平衡以及将领域知识整合到数据驱动模型中。可解释性框架结合数据平衡策略在海洋和食品安全领域已被证明有效(Cao et al., 2026; Oldroyd et al., 2021; Wang et al., 2026)。在微生物生长预测中,使用 ComBase 中的原始环境数据的随机森林和集成方法显示出了良好的结果(Hiura et al., 2021; Yücel & Tarlak, 2023)。然而,存在两个主要限制。首先,原始参数可能遗漏了变化条件下的复杂应激相互作用和特定阶段的细菌反应。其次,当前方法缺乏系统解释环境因素如何影响滞后阶段转换与灭活动力学,降低了风险评估的机制清晰度。本框架通过将关键参数转换为基于微生物应激生理学的特征,整合跨领域见解,将机制理解与机器学习联系起来,解决了这些问题。
因此,本研究旨在开发一个基于机制知识的机器学习框架,用于预测供应链中 L. monocytogenes 的浓度,同时解决预测准确性和机制透明度的问题。通过将基本环境因素(温度、pH 值、水活度、初始接种量、时间)转换为基于微生物应激生理学的机制表示,开发了一种特征工程方法。通过贝叶斯超参数调整系统比较和优化了多种机器学习算法,并使用 ComBase 数据进行了严格的交叉验证来评估性能。然后使用基于 SHAP 的模型可解释性分析来量化特定阶段的特征贡献,并识别控制滞后转换与灭活动力学的不同生理决定因素。通过将预测性能和机制洞察与传统建模方法进行比较,评估了所提出框架的优势。

数据收集和特征工程

L. monocytogenes 的数据来自 ComBase 数据库(www.combase.cc),这是一个由美国农业部、英国食品标准局和塔斯马尼亚大学合作维护的综合性存储库(Baranyi & Tamplin, 2004)。初始数据集包含 12,955 条原始实验记录,涵盖了多种生长基质和环境条件(补充图 S1)。记录根据三个标准进行了筛选:

Combase 数据集分析

经过严格的数据质量控制程序后,从 ComBase 数据库中提取了 2631 个经过整理的观测数据(1895 个生长数据和 737 个灭活数据),用于模型开发,涵盖了与食品系统相关的广泛环境条件。如图 2A–C 所示,对数据集的全面分析揭示了控制食品系统中细菌行为的环境条件的关键见解。

结论

本研究通过系统地从三个基本环境参数(温度、pH 值和水活度)中衍生特征,开发了一个用于预测 L. monocytogenes 的机器学习框架,以编码微生物学知识。特征工程策略包括五个生物学上有意义的类别:环境相互作用、非线性转换、应激指数、环境适宜性指标和统计转换。全面评估表明

CRediT 作者贡献声明

周子文:撰写 – 审稿与编辑,撰写 – 原稿,可视化,软件,形式分析,数据整理。安浩鑫:验证,软件,方法论,数据整理。李钊:验证,软件,方法论。刘阳泰:监督,资源,调查,资金获取,概念化。董青丽:撰写 – 审稿与编辑,验证,软件,项目管理,方法论,资金获取。

未引用的参考文献

Lundberg et al., 2020
Lundberg, Erion 和 Lee, 2018

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本文所述的工作得到了 国家自然科学基金(批准号:32472453)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号