基于分位数回归森林的早期预警系统:利用多源食品安全监测数据预测沙门氏菌食源性风险

《Food Research International》:Quantile regression forest–based early warning of Salmonella foodborne risk using multi-source food safety surveillance data

【字体: 时间:2026年03月20日 来源:Food Research International 8

编辑推荐:

  沙门氏菌食源性疾病风险预测研究提出基于量化回归森林(QRF)的机器学习框架,整合中国九城市2004-2023年食品污染与人类感染数据,对比决策树、随机森林等模型,QRF以MSE=5.23×10^-7、R2=0.24最佳表现,有效量化预测不确定性并识别禽类产品等关键风险因素。

  
刘伟|周云杰|严荣正|邹慧|孙静|刘鹏刚
江苏省扬州市扬州大学兽医学院,邮编225009,中国

摘要

沙门氏菌是全球最常见的食源性病原体之一,其传播与多种食品的污染密切相关。有效的早期预警对于食品安全管理和及时干预至关重要。然而,当监测数据有限且高度异质时,传统的统计模型往往表现不佳。
在这项研究中,我们提出了一个基于机器学习的早期预警框架,该框架使用分位数回归森林(QRF)将来自2004年至2023年间中国多个城市的多源食品污染监测数据与人类健康监测数据相结合。我们开发并比较了四种基于树的模型——决策树(DT)、随机森林(RF)、梯度提升(GB)和QRF——以预测食源性沙门氏菌风险。在这些模型中,QRF取得了最佳的整体性能(MSE = 5.23 × 10?7,R2 = 0.24,MAPE = 1.61),同时提供了可靠的不确定性量化(PICP = 100%,MPIW = 0.004154)。尽管灵敏度较高(80%)且特异性中等(75%),该模型仍能有效捕捉沙门氏菌发生的关键时空模式。
关键预测因子包括整体食品污染率、禽类产品、生畜肉和禽肉以及鱼类。食品污染数据的整合显著提高了预测准确性和可解释性,展示了QRF在食品安全监测系统中进行不确定性意识风险评估和早期预警的潜力。
总体而言,这一框架强调了概率机器学习和多部门数据整合在主动控制食源风险和食品安全管理资源优先分配方面的价值。

引言

食源性病原体仍然是全球食品安全和公共卫生的主要挑战,沙门氏菌是全球报告中最常见的食源性疾病爆发原因之一。作为一种典型的动物源性病原体,沙门氏菌沿着从初级生产到消费的食品链传播,这突显了跨部门合作在预防和控制中的重要性。因此,“同一健康”(One Health)方法——强调人类、动物和环境健康的整合——对于加强食品安全监测和降低食源风险至关重要(Boelaert等人,2022;EFSA,2024;J. Herten,2019)。
在中国,快速的城市化、食品供应链的多样化以及消费模式的演变重塑了国家食品安全格局。这些变化伴随着沙门氏菌相关食源事件的增加和地理范围的扩大(Li等人,2020;Ziani等人,2025)。尽管在建立国家监测计划方面取得了进展,包括国家微生物数据中心(NMDC)和中国地方沙门氏菌基因组数据库(CLSGDB),但现有的监测系统往往独立运作。例如,食品污染数据分散在各种文献来源和机构存储库中,如中国国家知识基础设施(CNKI)、万方数据和Web of Science。这种碎片化限制了将污染监测与人类健康数据整合的能力,并阻碍了动态早期预警框架的发展(Bian等人,2022;Field等人,2023)。
机器学习(ML)方法最近已成为增强食品安全监测和决策支持的强大工具。通过学习复杂的非线性关系和处理异构数据集,ML算法已被应用于预测污染事件、评估微生物风险和优化食品安全管理策略。其中,基于树的集成模型——包括决策树(DT)、随机森林(RF)和梯度提升(GB)——在模拟微生物污染和食源风险方面表现出强大的预测性能(Butler & Lai,2023;H. Chen等人,2019;Friedman,2001;Leontidou等人,2023;Tyralis等人,2019)。然而,大多数传统模型依赖于大型且同质的数据集,而这些数据在食品安全监测中很少见,尤其是在发展中国家。此外,传统方法通常仅产生点预测,而不量化预测不确定性,而这在数据稀缺的情况下对于基于风险的决策至关重要(Ahmad等人,2018)。
为了克服这些限制,本研究应用了分位数回归森林(QRF)模型——一种能够估计条件分布和生成预测区间的非参数集成学习方法——来预测沙门氏菌风险。在医学和公共卫生领域,QRF主要用于构建个性化的疾病风险预测模型和动态生理指标参考区间,从而量化预后判断的不确定性。通过整合2004年至2023年间中国九个代表性城市的人类监测和食品污染监测数据,我们比较了QRF与DT、RF和GB模型的预测性能。模型评估重点关注灵敏度、特异性、不确定性量化和时空预测准确性。变量重要性分析确定了关键的相关污染预测因子,如禽类产品、烘焙食品和蛋类产品。
这项研究为“同一健康”框架下的智能食品安全监测做出了贡献。它展示了整合多部门数据和概率ML模型在主动沙门氏菌风险预测中的价值,为早期预警、有针对性的干预和国家食品安全系统中的适应性风险治理提供了可行的见解。

数据来源和处理

本研究开发的预测框架基于两个互补的数据来源:(i)零售食品中沙门氏菌污染的监测数据;(ii)实验室确认的沙门氏菌人类感染病例数据。人类沙门氏菌感染数据来自由中国国家微生物数据中心(NMDC)管理的中国地方沙门氏菌基因组数据库(CLSGDB)。该数据库汇总了临床和公共卫生部门报告的确认沙门氏菌分离株

模型预测性能比较

使用60条整合数据记录构建了四种机器学习模型——树回归(TR)、随机森林(RF)、梯度提升(GB)和分位数回归森林(QRF)来预测沙门氏菌发病率。模型性能通过均方误差(MSE)、平均绝对百分比误差(MAPE)和决定系数(R2)进行评估(表3)。
QRF模型在所有指标上均优于其他方法,获得了最高的R2值0.24

讨论

本研究提出了一种新的基于树的机器学习方法应用,特别是分位数回归森林(QRF),使用来自中国的综合食品安全监测数据来预测沙门氏菌污染风险。在现实世界中,监测常常受到数据碎片化、报告延迟和地区覆盖不均等的影响,尤其是在非重点城市。
我们的数据集仅包含来自九个省份的60个城市级别的样本,这代表了典型的

结论

本研究展示了分位数回归森林(QRF)在改进食品安全监测中沙门氏菌风险定量分析方面的潜力。通过将食品污染数据与人类感染数据整合,所提出的框架提供了数据驱动的人类感染风险预测,并确定了对观察到的风险模式贡献最大的食品类别。
模型结果突显了污染率在多个食品中的重要作用

CRediT作者贡献声明

刘伟:写作——审阅与编辑,撰写——初稿,验证,监督,软件,资源,项目管理,方法论,调查,资金获取,数据管理,概念化。周云杰:软件,方法论,调查,正式分析,数据管理。严荣正:软件,方法论,数据管理。邹慧:写作——审阅与编辑,调查。孙静:写作——审阅与编辑,监督,调查。刘鹏刚:写作——

利益冲突声明

作者声明他们没有已知的可能会影响本文工作的财务利益或个人关系。

致谢

本工作得到了国家自然科学基金(31702204)对刘伟的支持,国家自然科学基金(32102621)对刘鹏的支持,以及江苏省高等教育机构重点学术计划发展(PAPD)对刘伟的支持。还得到了111项目(D18007)对刘伟的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号