基于环境因素的混合神经-机械模型对钩端螺旋体病传播的模拟:来自泰国的证据

《Computers in Biology and Medicine》:Hybrid neural–mechanistic modeling of leptospirosis transmission with environmental drivers: Evidence from Thailand

【字体: 时间:2026年03月24日 来源:Computers in Biology and Medicine CS13

编辑推荐:

  摘要登革热疫情预测研究提出LSTM-ODE混合模型,通过整合降雨、洪水、温度及人类感染数据动态估计传播率,MSE降至35.41,验证了环境因素与疫情动态的关联性。

  
苏梅特·昆帕伊兰(Sumet Khumphairan)| 苏达拉特·查德苏迪(Sudarat Chadsuthi)| 彼得·弗兰森(Peter Fransson)| 刘一超(Yichao Liu)| 查林·莫德昌(Charin Modchang)| 乔阿希姆·罗克洛夫(Joacim Rockl?v)| 埃卡捷琳娜·科斯蒂娜(Ekaterina Kostina)
德国海德堡大学数学研究所

摘要

准确的传染病预测对于及时的公共卫生决策至关重要。在这项研究中,我们开发了一个混合建模框架,该框架将隔室模型与长短期记忆(LSTM)网络相结合,以估计泰国钩端螺旋体病的一个关键时变流行病学参数。我们的框架使用了一个基于环境协变量(降雨、洪水和温度)和感染人类病例训练的LSTM-ODE模型来推断传播率,这显示出强烈的季节性和环境依赖性。结果表明,纳入洪水、温度和人类病例可以提高感染个体的预测精度(均方误差 = 35.41)。我们的发现表明,这种综合混合框架通过改进关键流行病学参数的估计提供了更精确的解决方案。该模型能够处理多种输入特征,并且在训练完成后能够进行适合预测的推断,特别是在流行病学监测数据不完整或延迟的情况下。

引言

钩端螺旋体病是一种由钩端螺旋体细菌引起的全球性人畜共患病,影响人类和动物[1]。该疾病主要在热带和亚热带地区流行,那里的环境条件有利于病原体的存活和传播[2,3]。人类感染是通过直接接触受污染的环境而发生的,这种情况通常会因洪水和极端天气事件而加剧[3]。据估计,全球每年有100万例病例和60,000例死亡,钩端螺旋体病给公共卫生和经济带来了重大负担[3,4]。 在泰国,钩端螺旋体病仍然是一个重要的公共卫生问题[5]。该疾病具有明显的季节性模式,在降雨量大和洪水期间病例数达到高峰,尤其是在北部和东北部地区[6,7]。这些反复发生的疫情给农业和农村人口带来了显著的健康和经济负担。因此,泰国为研究降雨、洪水和温度等环境因素如何影响钩端螺旋体病的传播动态提供了一个合适的案例研究。 为了模拟钩端螺旋体病的传播动态,传统的流行病学模型(如基于常微分方程(ODE)的隔室模型)已被用来模拟疾病动态[[8], [9], [10]]。这些模型对于理解疾病的传播和实施有效的控制措施至关重要[11,12]。这些简单模型将人群划分为不同的隔室(例如,易感者、感染者和康复者),并使用固定参数来描述隔室之间的转换率。尽管这些模型很有价值,但它们通常假设传播率是恒定的,这可能无法捕捉到受环境因素和人类行为影响的时间变化[[13], [14], [15], [16], [17]]。 几种机器学习技术已被应用于预测钩端螺旋体病的爆发,从简单的模型发展到更先进的深度学习方法。基本方法,如k最近邻(KNN)和地理加权回归(GWR),已被用来根据流行病学和环境因素识别高风险区域。这些模型在绘制疾病热点和改善早期预警系统方面显示出有效性,但在捕捉复杂的时间依赖性方面存在局限性[18,19]。集成学习方法,包括极端梯度提升(XGBoost)、逻辑提升和支持向量机与核方法(Kernel SVM),通过整合不同地理区域的多样化数据集来加强疫情预测[20]。更先进的技术,如人工神经网络(ANN),通过学习数据中的非线性关系提高了预测性能[18,19]。在深度学习模型中,长短期记忆(LSTM)网络在模拟复杂时间序列数据方面显示出潜力[21]。LSTM可以从数据中学习时间依赖性和模式,而无需对潜在过程做出明确假设,这使它们特别适合基于过去的发病率和环境因素预测钩端螺旋体病的爆发[22]。然而,这些机器学习方法往往缺乏可解释性,并且没有结合疾病传播的机制,而这对于理解传播途径和制定干预策略至关重要[23]。这种局限性突显了混合建模的好处,即机器学习通过学习传播率随时间的变化来辅助机制模型。 为了解决这些局限性,人们有兴趣将机器学习与基于物理的模型结合起来[[24], [25], [26]]。这些混合方法利用了两种方法的优势:机器学习从数据中学习的能力以及机制模型的可解释性和理论基础[24]。在传染病的背景下,混合模型已被应用于COVID-19和登革热,证明了它们在生成准确预测的同时保持与已知生物机制一致性的潜力[[26], [27], [28], [29], [30]]。 然而,对于参数估计,传统的机制模型通常依赖于最大似然估计或使用马尔可夫链蒙特卡洛(MCMC)方法的贝叶斯推断[11,15,16]。这些方法有显著的局限性。虽然MCMC在理论上是多项式的复杂度,但在实践中,对于流行病学模型来说,计算成本非常高,因为每次似然评估都需要反复求解ODE系统,随着模型复杂性的增加而增加。此外,传统的参数估计技术主要是为时不变参数设计的,因此无法捕捉现实世界场景中传染病的演变动态。 在这项工作中,我们开发了一个混合建模框架,该框架将LSTM神经网络与专门为钩端螺旋体病传播动态设计的隔室常微分方程(ODE)模型相结合。在这个框架中,LSTM网络用于估计钩端螺旋体病传播的最重要参数(从受污染环境到易感者的时变传播率)。这些由LSTM得出的传播率作为ODE模型的输入,该模型模拟了人类、动物和环境储存库之间的疾病传播。这种混合方法能够在保持机制可解释性和数据驱动的灵活性之间取得平衡。该框架可用于预测感染人类病例,为未来疫情的预测提供支持。 这项工作的主要贡献如下:
  • 开发了一个混合建模框架,将LSTM神经网络与特定于钩端螺旋体病的隔室ODE模型相结合。
  • 估计时变传播率,使模型能够捕捉由环境协变量和/或感染数据驱动的疾病动态的时间变化。
本文的其余部分组织如下:方法部分详细介绍了用于参数估计的混合建模框架。此外,还提供了数据来源和实验设置。结果部分展示了模型在参数估计方面的性能。讨论部分解释了研究结果,讨论了对公共卫生的影响、局限性以及未来的工作。结论部分总结了混合建模方法的贡献和潜在影响。

部分摘录

SIR变体模型公式

使用了一个隔室流行病学模型[31],特别是易感者-感染者-康复者(SIR)模型的一个变体,来表示人类、动物和受污染环境之间的钩端螺旋体病传播动态。该模型包括人类(S)、IR)和动物(SIR)的隔室,以及一个代表环境污染的隔室(L)。所使用的隔室模型示意图如下

结果

使用十个混合模型估计了β(t,这些模型使用了2012年至2018年预处理的真实隔室数据进行评估。图2展示了在两种输入配置下β(t的比较分析:1)仅使用环境协变量(模型1、3、5和7);2)同时使用环境协变量和人类感染病例(模型2、4、6和8)。图S2展示了使用模型9(降雨 + 洪水 + 温度)和模型10估计的β
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号