基于深度学习建模埃塞俄比亚西南部疟疾暴发的时空动态

《Discover Public Health》:Modeling the spatiotemporal dynamics of malaria disease outbreaks in southwestern Ethiopia using deep learning

【字体: 时间:2026年05月22日 来源:Discover Public Health

编辑推荐:

  疟疾仍然是撒哈拉以南非洲地区重大的公共卫生挑战,气候变化加剧了其传播。在埃塞俄比亚,60%的人口面临疟疾风险,该疾病具有高度季节性、不稳定性的特点,且与环境因素密切相关。特别是西南部地区,面临着复杂的社会经济挑战与疟疾暴发脆弱性的独特组合。本研究旨在分析埃塞俄

  
疟疾仍然是撒哈拉以南非洲地区重大的公共卫生挑战,气候变化加剧了其传播。在埃塞俄比亚,60%的人口面临疟疾风险,该疾病具有高度季节性、不稳定性的特点,且与环境因素密切相关。特别是西南部地区,面临着复杂的社会经济挑战与疟疾暴发脆弱性的独特组合。本研究旨在分析埃塞俄比亚西南部疟疾暴发的时空动态,并开发预测模型以辅助疟疾暴发的管理与预防。本研究使用埃塞俄比亚公共卫生研究所、公共卫生应急管理、卫生部、吉马气象办公室及吉马地区卫生办公室的回顾性数据,涵盖疟疾病例数、气象因素、海拔及卫生基础设施等信息。数据集覆盖2014年至2020年西南部五个区的38个 districts。分析涉及三种关键方法:(i)空间分析,结合历史疟疾数据与地理空间信息识别地理热点区域;(ii)时间序列分析,考察疟疾发病率、趋势及季节性;以及(iii)预测建模,采用长短期记忆网络(Long Short-Term Memory, LSTM)深度学习模型和带外生变量的季节性自回归积分滑动平均(Seasonal Autoregressive Integrated Moving Average with Exogenous Variables, SARIMAX)统计模型预测未来暴发。结果表明,2014年至2020年间,疟疾病例总体呈下降趋势,同时西南部地区疟疾发病率呈现显著的时空模式。随着时间推移,疟疾分布发生转移,部分地区病例减少,而 Bench Maji 等地区在2017年后出现上升。LSTM 模型在预测疟疾暴发方面表现出高精度,R2达0.98,均方误差(Mean Squared Error, MSE)为73.8,有效捕捉了趋势与波动。相比之下,SARIMAX 模型准确度中等,R2为0.68,MSE较高(1517),虽能捕捉总体趋势但在预测暴发方面精确性不足。本研究强调了环境因素(如靠近河流和适宜的蚊虫繁殖条件)对 Jimma、Dawro 和 Bench Maji 地区东部和西部疟疾热点持续存在的显著影响。将预测模型纳入疟疾防控策略可改善资源配置、加强公共卫生干预,并支持对环境和社会经济变化的适应性响应。总体而言,研究结果凸显了环境因素和医疗基础设施在影响疟疾模式中的重要作用,强调在高负担地区需要及时、有针对性的干预措施。
研究背景与问题

疟疾仍然是全球重大的公共卫生挑战,尤其在撒哈拉以南非洲地区,该地区承担了全球93%以上的疟疾负担。埃塞俄比亚作为高流行国家,超过60%的人口面临疟疾风险,其传播具有高度季节性、不稳定性的特点,且与气温、降水、海拔等环境因素密切相关。西南部地区人口超过330万,由于温度波动、降水模式及生态条件形成了适合按蚊(Anopheles)繁殖和疟原虫(Plasmodium)发育的环境,加之初级卫生设施覆盖率低、经常性洪涝灾害及脆弱的卫生系统等多重社会经济挑战,该地区对疟疾暴发的脆弱性尤为突出。尽管已有研究采用数学模型、随机模型、基于智能体的模型(Agent-Based Models, ABMs)及统计方法(如 ARIMA、SARIMAX)探索疟疾传播动态,但这些研究多局限于相关性分析或描述性流行病学,缺乏能够整合历史病例与环境数据、实现前瞻性预测的 robust 模型。特别是针对埃塞俄比亚西南部地区,尚缺乏能够基于时空模式提供早期预警、指导精准干预的预测工具。因此,开展本研究以分析该区域的疟疾时空动态,并开发适合的预测模型,对于优化资源配置、及时部署抗疟药物、快速诊断试剂和蚊帐等干预措施具有重要意义。

关键技术方法

本研究的数据来源包括埃塞俄比亚公共卫生研究所、公共卫生应急管理、卫生部、吉马气象办公室及吉马地区卫生办公室2014年至2020年的回顾性数据,覆盖西南部五个区的38个 districts,涵盖病例数、气象因素(温度、降水)、地理空间信息(海拔、经纬度)及卫生基础设施数据。主要技术方法包括:(1)空间分析与可视化:运用地理信息系统(Geographic Information Systems, GIS)工具(QGIS、GeoPandas、Matplotlib、SciPy 等),通过样条插值将 district 级病例数据转化为连续分布图,识别地理热点及疟疾与环境特征(河流、海拔、气候带)的共现关系;(2)时间序列分析:采用长短期记忆网络(LSTM)深度学习模型,该模型包含两层堆叠 LSTM(60单元和120单元)、Dropout 正则化层(rate=0.3)及稠密输出层,使用 Adam 优化器(学习率0.001)和均方误差损失函数,通过12个月滑动窗口构建序列,经数据增强(引入高斯噪声和缩放变化)后模型性能显著提升;(3)统计预测模型:采用带外生变量的季节性自回归积分滑动平均模型(SARIMAX),参数设为 (p,d,q)=(1,1,1)、季节性参数 (P,D,Q,m)=(1,1,1,12),以温度、降水、海拔和卫生设施为外生变量,通过自相关函数(ACF)和偏自相关函数(PACF)指导参数选择,并以此作为可解释的基准模型与 LSTM 进行对比。数据预处理阶段采用四分位距法(IQR)处理异常值,对缺失值进行线性插补;LSTM 输入变量采用 Min-Max 归一化,SARIMAX 则进行 Box-Cox 变换和一阶差分处理后通过 ADF 检验确认平稳性。

研究结果

3.1 空间分析

通过空间分析揭示了2014年至2020年西南部地区明确的时空模式。2014年至2016年期间,西部 Jimma 地区(靠近 Didessa 河)及东部 Jimma 地区(Sekoru、Omo Nada 等地)、Dawro 地区(Loma、Tercha、Isra 等地)持续存在热点,这些区域均邻近 Gibe 河、Omo 河及 Koysha 大坝,具有低海拔(500–1500米)和温暖气温(20–35°C)的特征,为按蚊繁殖和疟原虫发育提供了理想条件。2017年后出现热点地理转移:西部 Jimma 病例下降,而 Bench Maji 和 Kefa 地区显著上升,Bench Maji 于2019年达到最高负担。值得注意的是,Bench Maji 并非邻河地区,但其低海拔、持续温暖气温及有限的卫生基础设施可能导致疫情发现和响应延迟。此类模式与埃塞俄比亚双峰传播特征一致,即雨季高峰后2–3个月出现发病高峰。

3.2 时间序列分析与建模结果

时间序列分析确认了五区的空间趋势并揭示时间动态:Jimma 地区2014年负担最重(>3000例),2015年全区下降后,2017年和2019年出现 resurgence 峰值;Dawro 地区2017–2019年显著升高,与 Omo 河附近持续传播相关;Bench Maji 地区2017年后持续不间断上升,2019年达峰,为全区独特模式,可能由低海拔温暖气候和有限医疗可及性共同驱动;Kefa 地区周期性增加但2020年总体下降;Jimma Special Town 始终最低,反映城市基础设施和高海拔的保护作用。降雨高峰后2–3个月的一致滞后证实了雨后蚊虫繁殖对传播的影响。模型性能方面,LSTM 模型经数据增强后 R2达0.98,MSE 降至73.8;SARIMAX 模型 R2为0.68,MSE 为1517,残差诊断显示基本独立但存在轻度非正态性和重尾特征,表明在捕捉突然暴发方面存在局限。

讨论与结论

本研究通过整合空间分析、时间序列分析和预测建模,系统揭示了埃塞俄比亚西南部疟疾暴发的时空动态,并验证了深度学习模型在该地区的适用性。研究结果表明,尽管2014年至2020年间疟疾病例总体下降,但区域内部存在显著异质性,热点从 Jimma 西部向 Bench Maji 转移,这一发现与既有文献既一致又有所拓展。Alemu 等(2011)在 Jimma 镇开展的10年气候-疟疾关联分析识别了双峰传输模式(9–12月和4–6月),本研究数据清晰反映了此模式;Dadi(2015)关于 Gilgel-Gibe 大坝附近疟疾流行的研究证实了大水体邻近区域风险增加,本研究的空间图谱进一步揭示了 Didessa、Gibe、Omo 河流及 Koysha 大坝附近的持续热点。然而,这些研究仅限于相关性分析或地理范围狭窄的描述性工作,未能整合卫生基础设施或开发预测能力。本研究的创新性在于首次将 LSTM 和 SARIMAX 模型应用于该区38个 districts 的7年数据,实现了前瞻性、可操作的预测,填补了这一关键空白。

研究结论明确指出:(1)环境因素(温度、降水、海拔)和初级卫生设施可及性是影响疟疾动态的关键驱动因素;(2)基于数据增强的 LSTM 模型(R2=0.98,MSE=73.8)显著优于 SARIMAX 模型(R2=0.68,MSE=1517),能够有效捕捉复杂非线性动态和突发暴发,适用于早期预警系统;(3)应利用高分辨率时空风险图谱指导持久性和新兴热点地区的靶向干预;(4)将短期暴发预测整合入国家疟疾监测和早期预警系统,以实现及时主动响应;(5)持续利用环境和卫生系统数据更新预测模型,支持适应气候和社会经济变化的动态防控政策。这些政策方向使国家战略能够从普遍性干预转向基于数据的精准 malaria 控制,特别是在高负担地区实现从"被动应对"到"主动预警"的范式转变。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号