基于时间序列分类与多源数据融合的局部COVID-19疫情早期预测模型研究

《Epidemics》:Predicting local COVID-19 emergences: A time-series classification approach and value of data from social media, search engines, and neighbouring regions

【字体: 时间:2026年01月25日 来源:Epidemics 2.4

编辑推荐:

  本研究针对传统事件监测系统(EBS)在局部卫生区域(HR)层面对已知传染病威胁早期预警能力不足的问题,开发了一种早期分类时间序列模型。研究人员利用社交媒体、搜索引擎和邻近区域数据,结合深度门控循环单元(Deep-GRU)算法,成功实现了加拿大卫生区域层面COVID-19疫情提前10天的精准预测。结果表明,采用距离和人口加权的空间数据处理方法平衡准确度达到0.78,较仅使用传统EBS数据提升24%。这项研究为完善公共卫生监测体系提供了重要的方法论创新,推动了多源数据融合在传染病早期预警中的应用。

  
在全球公共卫生监测领域,传统的事件监测系统(EBS)如加拿大全球公共卫生情报网络(GPHIN)主要依赖新闻媒体等传统数据源,其预警能力往往局限于较大地理尺度和疫情暴发后的检测。然而,传染病传播的本质要求更精准的时空预警——特别是在社区层面首次病例出现前的早期识别,这对及时调配医疗资源和实施精准干预至关重要。COVID-19大流行为验证新型预警方法提供了独特机遇:各国建立的精细到卫生区域(HR)级别的每日监测系统,结合公众通过社交媒体和搜索引擎产生的海量数据,构成了探索高时空分辨率预警模型的理想场景。
这项发表于《Epidemics》的研究创新性地将早期分类时间序列模型应用于公共卫生监测领域。研究团队收集了2020年1月至11月加拿大99个卫生区域的回顾性数据,包括传统EBS数据(新闻媒体)、开放获取数据(Twitter社交媒体和Google Trends搜索引擎数据)以及邻近区域的确诊病例数据。通过构建7天观察窗口,开发了三种分类模型(K近邻分类器KNN、高斯混合隐马尔可夫模型GMHMM和深度门控循环单元Deep-GRU),以预测特定卫生区域10天后是否会出现COVID-19首发病例。
关键技术方法包括:采用负指数平滑方法处理数据噪声;基于距离和人口加权的空间数据整合策略;使用平衡准确度、F1分数和AUROC等指标评估模型性能;通过75%-25%划分训练集和测试集确保模型验证可靠性。
研究结果方面,Deep-GRU模型展现出最优性能,其敏感度达0.65,特异性为0.92,平衡准确度为0.78。在空间加权方法比较中,距离加权和距离人口加权方法(平衡准确度0.78)显著优于最近邻方法(0.64)。多源数据融合实验表明,逐步加入社交媒体和搜索引擎数据后,模型性能持续提升:仅使用传统EBS数据(新闻媒体+邻近区域病例)时敏感度为0.35,加入Twitter感染者推文数据后提升至0.50,进一步加入COVID-19关键词推文数据后特异性达到0.93,最终整合Google搜索数据后敏感度显著提高至0.65。
讨论部分指出,该方法通过融合多源数据有效提升了局部疫情预警的时效性和准确性。特别是采用高斯核密度函数整合邻近区域信息,既避免了隐私问题又反映了疾病传播的空间特性。然而研究也存在一定局限性:COVID-19病例数据报告完整性的区域差异可能影响模型性能;社交媒体数据的代表性和搜索引擎数据的伪相关性需要谨慎对待;模型在时空外推中的适用性仍需进一步验证。
该研究的核心价值在于将早期分类时间序列模型成功应用于公共卫生监测实践,证明了整合开放获取数据和空间关联信息能够显著提升局部卫生威胁的早期识别能力。虽然当前研究基于回顾性数据,但为开发实时监测工具奠定了方法论基础,对完善全球公共卫生事件预警体系具有重要启示意义。未来可通过建立自动化数据流水线和模型更新机制,将这一概念验证转化为可操作的公共卫生决策支持工具。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号