Listeria monocytogenes(单核细胞增生李斯特菌)仍然是最具挑战性的食源性病原体之一,每年在美国导致约 1600 例李斯特菌病病例,病例死亡率超过 16%——这是主要食源性病原体中最高的(Rogalla & Bomar, 2025)。2024–2025 年期间发生的多州疫情,包括与熟食和即食餐相关的疫情,导致超过 80 人住院和 14 人死亡,凸显了这一持续的公共卫生威胁(Sharma et al., 2025)。这种病原体能够在多种环境条件下存活和繁殖,包括冷藏温度、低 pH 值和降低的水活度(Aw),使其在即食食品(RTE)中特别成问题,例如新鲜切割的水果、叶类蔬菜和易腐的预制餐食(De Silvestri et al., 2018; Gomez-Galindo et al., 2024a; Gowda et al., 2024)。
环境因素(温度、pH 值和水活度(Aw)通过复杂的非加性相互作用从根本上控制 L. monocytogenes 的生长,传统模型难以捕捉这些相互作用(Tarlak, 2023)。元分析确定了该物种的生长边界的基本参数值(Tmin = –1.273°C, Topt = 37.26°C, pHmin = 4.303, pHopt = 7.085, Awmin = 0.894)(Nunes Silva et al., 2020)。然而,为单个因素定义基本边界只能部分理解生长动态。关键的是,这些环境因素是协同作用的,而不是独立的:组合的次优条件产生的生长抑制作用远大于各因素效应之和的预测(Marc et al., 2002)。温度-PH 相互作用表明,最小 pH 值会随着温度的变化而显著变化,研究人员已经开发了数学模型来描述这种关系。同样,Aw 与温度和 pH 相互作用,调节细菌的应激反应和代谢能力(Gomez-Galindo et al., 2024; Tarlak, 2023)。
传统的预测微生物学试图通过机制建模框架来形式化这些复杂关系。这些环境效应的机制理解通过基数参数模型得到形式化,这些模型将生长率描述为各个因素效应相对于其基本值的乘法函数(gamma 概念)(Rosso et al., 1995)。这些模型假设每个环境因素对总体生长率贡献一个无量纲项(范围从 0 到 1),在基本极限附近接近零,在最佳条件下接近 1(Augustin & Carlier, 2000)。Ratkowsky 平方根模型是一个核心的二级模型框架,通过线性平方根转换将温度与生长率关联起来(Ratkowsky et al., 1983)。这些机制框架为生物学上有意义的特征工程提供了理论基础,使得领域知识能够转化为提高准确性和可解释性的预测模型架构(Walsh et al., 2024)。尽管有这些理论进展,但机制模型的实际应用仍面临重大的方法论挑战。
传统的预测微生物学采用两步或一步建模方法,两者都有固有的局限性。两步方法依次应用初级和次级模型,由于误差在建模链中的累积,可能会导致预测误差放大 50–100%(Koyama et al., 2022)。为了规避这一限制,开发了替代的一步方法,但这些方法引入了自身的约束。一步方法虽然避免了误差传播,但依赖于对初始条件敏感的非线性优化,并且容易发生收敛失败(Huang, 2015)。从根本上说,这两种框架都难以处理复杂的多因素相互作用,通常假设乘法或加性效应,无法充分捕捉生物系统中观察到的协同应激反应(Augustin et al., 2000)。
这些局限性促使机器学习(ML)方法在预测微生物行为、保质期预测和定量风险评估中的应用越来越多(Zhao et al., 2025)。ML 通过直接从环境参数预测微生物种群,无需中间建模步骤或预定义的功能形式,实现了范式的转变。这种方法消除了传统层次方法中固有的误差传播。(Top?uo?lu et al., 2020)。最近的应用展示了 ML 在食品安全风险评估中的潜力。然而,大多数研究仅检验了单一算法或有限的环境因素,缺乏系统的特征工程和全面的算法比较(Li et al., 2025; Zhao et al., 2025)。
安全关键的预测领域面临共同的方法论挑战,包括操作异质性、类别不平衡以及将领域知识整合到数据驱动模型中。可解释性框架结合数据平衡策略在海洋和食品安全领域已被证明有效(Cao et al., 2026; Oldroyd et al., 2021; Wang et al., 2026)。在微生物生长预测中,使用 ComBase 中的原始环境数据的随机森林和集成方法显示出了良好的结果(Hiura et al., 2021; Yücel & Tarlak, 2023)。然而,存在两个主要限制。首先,原始参数可能遗漏了变化条件下的复杂应激相互作用和特定阶段的细菌反应。其次,当前方法缺乏系统解释环境因素如何影响滞后阶段转换与灭活动力学,降低了风险评估的机制清晰度。本框架通过将关键参数转换为基于微生物应激生理学的特征,整合跨领域见解,将机制理解与机器学习联系起来,解决了这些问题。
因此,本研究旨在开发一个基于机制知识的机器学习框架,用于预测供应链中 L. monocytogenes 的浓度,同时解决预测准确性和机制透明度的问题。通过将基本环境因素(温度、pH 值、水活度、初始接种量、时间)转换为基于微生物应激生理学的机制表示,开发了一种特征工程方法。通过贝叶斯超参数调整系统比较和优化了多种机器学习算法,并使用 ComBase 数据进行了严格的交叉验证来评估性能。然后使用基于 SHAP 的模型可解释性分析来量化特定阶段的特征贡献,并识别控制滞后转换与灭活动力学的不同生理决定因素。通过将预测性能和机制洞察与传统建模方法进行比较,评估了所提出框架的优势。