基于时间融合变换器的预测方法：利用环境指标预测COVID-19感染趋势

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Hazardous Materials》：Temporal Fusion Transformer-Based Forecasting of COVID-19 Infection Trends Using Environmental Indicators

【字体：大中小】 时间：2026年02月07日 来源：Journal of Hazardous Materials 11.3

编辑推荐：

　　本研究提出基于时空融合Transformer（TFT）的多变量时间序列预测模型，整合污水质量、空气质量及气象条件等环境因素，优化COVID-19病例预测。结果显示，环境变量使预测性能提升17%，R2达0.962；通过比例变化间接估计后R2升至0.984，验证了深度学习在疫情预测中的应用价值。

韩国首尔东国大学土木与环境工程系，首尔04620

摘要

COVID-19大流行凸显了传染病对全球公共卫生的严重威胁，以及建立有效和强大的监测系统的紧迫性。为此，预测建模和时间序列分析在预测感染趋势和支持公共卫生干预措施方面发挥了重要作用。本研究开发并评估了一种基于时间融合变换器（TFT）的多变量时间序列预测模型，该模型能够有效结合静态和时变输入变量，根据废水质量、空气质量及天气条件等环境因素来预测COVID-19病例动态。该模型使用2020年2月至2022年5月期间收集的区级确诊COVID-19病例和环境变量数据集进行开发和测试。结果表明，纳入环境变量后，基于TFT的模型预测性能提高了17%。该模型还能够捕捉COVID-19数据的非平稳性和时间依赖性特征，R2值为0.962。然而，由于测试数据集中的病例数被低估，直接预测病例数的准确性较低。基于病例数比例变化的间接估计方法获得了更高的预测准确性（R2 = 0.984）。这些发现展示了深度学习方法在流行病学预测中的价值，并强调了其在支持及时公共响应和优化医疗资源分配方面的潜力。

引言

2019冠状病毒病（COVID-19）被广泛认为是一个多世纪以来最严重的公共卫生紧急事件，对全球人民的生活和经济产生了重大影响[1]。由于这种新型严重急性呼吸综合征冠状病毒2型（SARS-CoV-2）的快速人际传播及其不同的致病程度，世界卫生组织（WHO）于2020年3月11日将其定性为大流行病[2]。三年后，COVID-19已蔓延至所有国家，全球累计确诊病例约6.766亿例，死亡人数达690万例。COVID-19传播的迅速加剧给医疗系统带来了巨大压力，并对全球经济和社会稳定构成了严重威胁。为此，许多国家采取了措施来减少疫情传播，而COVID-19发病率的时空变化往往需要针对不同地区的公共卫生政策和管理决策。这进一步增加了对当地情况、资源可用性和传播风险进行及时评估的需求。特别是，流行病学依赖于对传染病时空模式的准确分析，以预测疾病传播[3]。

为了监测COVID-19的传播，传统监测方法如个体临床检测和医院报告被广泛使用。然而，这些方法常常受到数据收集的变异性、样本偏差、影响检测参与的行为因素、社会经济差异以及报告信息缺失等因素的限制[4]。像COVID-19和猴痘这样的新发传染病往往具有不可预测的传播模式，导致传统应对策略失效，并迅速引发广泛的公共卫生危机[5]。

为了解决这些限制，人们设计了其他预测工具以提高传染病建模和预测的准确性。例如，在COVID-19大流行期间，地方政府越来越多地依赖实时数据信号作为决策依据[6]，包括利用基于废水的流行病学（WBE）方法来监测社区层面的感染情况。WBE通过检测从污水处理厂（WWTP）入口和污水污泥等来源收集的废水样本中的SARS-CoV-2 RNA片段来估计人群中的COVID-19流行率[7]。多项研究证明了WBE在早期估计COVID-19病例、住院人数和死亡人数以及及时制定有针对性的政策响应方面的有效性[8]。然而，尽管WBE适用于人群监测，但其使用受到病毒脱落率变化、病毒载量低估、采样和分析成本高昂以及采样基础设施不一致等因素的制约[9]。

由于实时检测和监测方法的局限性，COVID-19期间出现了多种互补的预测建模方法，以增强监测数据的解释能力并捕捉COVID-19传播的非平稳性和时间依赖性动态。通过结合历史数据和实时信号，设计了一系列数学模型、机器学习（ML）和深度学习（DL）模型来预测感染趋势、评估风险因素并提出干预策略[10][11]。其中许多模型适用于短期预测，这对于预测病例激增、优化资源分配和支持防控措施决策非常重要。例如，Maier和Brockmann（2020）使用非优化后的易感者-感染者-康复者（SIR）模型中的代数函数分析了中国各省及其他受影响国家的早期COVID-19传播模式[12]。然而，由于中国的疫情呈现亚指数增长特征，而其他国家则呈现指数增长趋势，他们的数学模型难以适应不同的疫情情况。

为了更准确地预测COVID-19传播指标，越来越多地采用了能够处理复杂数据的ML/DL模型，这些数据可能表现出非线性、突然波动和随时间变化的模式[13]。尽管提出了多种ML/DL模型，包括多层感知器（MLP）、支持向量机（SVM）和循环神经网络（RNN）模型，但长短期记忆（LSTM）算法及其扩展已成为COVID-19预测的主要方法。例如，Chimmula和Zhang（2020）提出了一种基于LSTM的预测模型，根据COVID-19病例数、死亡人数和康复患者数来预测加拿大的疫情[14]。LSTM模型产生了短期预测结果，并预测了疫情可能的结束时间，表明及时实施公共卫生干预措施与美国的意大利等国家相比能够降低传播率。类似地，Shahid等人（2020）发现双向LSTM（Bi-LSTM）模型在10个国家的确诊病例数、死亡人数和康复患者数的短期预测中表现优于自回归积分移动平均（ARIMA）、SVM、LSTM和门控循环单元（GRU）模型[15]。

还开发了混合LSTM模型以提高预测性能。Manohar等人（2024）将正则化自组织LSTM与人工神经网络（LSTM-ANN-RSA）结合使用[16]，而Zain和Alturki（2021）在编码器-解码器结构中结合了卷积神经网络（CNN）和LSTM[17]，从而通过结构优化和捕捉复杂的时间依赖性提高了预测准确性。尽管这些DL模型在COVID-19预测任务中取得了有希望的结果，但其成功主要归功于它们能够访问大量高质量的训练数据，而这对于与大流行相关的数据集来说并不容易获得[18]。然而，当处理数据集有限和网络复杂时，LSTM架构配置的优化和超参数选择与调整变得更加复杂[19]。另一个问题是，许多COVID-19预测模型使用较短的输入序列，而LSTM模型本质上是为了捕捉长期时间依赖性而设计的[20]。

虽然大多数成熟的预测模型依赖于流行病学指标，但很少有模型考虑影响COVID-19病例趋势的外部因素，这降低了它们在现实应用中的鲁棒性。为此，最近的研究探索了结合环境参数等替代数据源的更全面建模方法[21]。多项研究发现了环境数据与各种传染病监测之间的关联[22]。与社会经济数据不同，环境数据在建模方面具有显著优势，包括其可访问性和一致性，因为许多国家已经建立了相应的监测基础设施。例如，在韩国，气象变量和空气质量指数由韩国气象厅（KMA）和韩国环境公司（KECO）等机构系统地记录[23][24]。废水质量数据也由机构和地方政府在污水处理厂（WWTP）中每日常规收集，作为全国公共卫生和环境监测计划的一部分[25]。

本研究提出了一种新的预测框架，该框架整合了环境参数以提高COVID-19预测的准确性和上下文敏感性。利用环境监测网络的日常记录和报告的COVID-19病例数，该模型捕捉了环境动态与疾病传播模式之间的复杂关系。所提出的模型基于时间融合变换器（TFT），包括多头注意力机制、静态变量编码器和基于序列的时间编码器[26]。基于变换器的DL模型已被证明能够准确捕捉时间依赖性，通过整合各种输入特征、处理非平稳数据并生成可解释的预测结果来提高时间序列数据的预测性能[27][28]。本研究的主要目标是评估环境变量作为COVID-19病例预测因子的有效性，提出并开发出最优的基于TFT的模型以准确预测COVID-19，并确定提高模型准确性和可解释性的关键变量。

方法论

本研究采用四阶段方法论框架，包括数据收集、数据预处理、TFT模型实现和模型评估（图1）。该框架系统地整合了流行病学和环境变量，提取有意义的特征，并将其输入到先进的DL模型中以生成可解释的输出。

输入变量的特征

斯皮尔曼相关性分析显示，确诊COVID-19病例数与几个环境变量之间存在统计学上的显著关联（ρ < 0.05）（图S2）。值得注意的是，废水质量变量（如生化需氧量（BOD；ρ = ?0.41）、悬浮固体（SS；ρ = ?0.39）和化学需氧量（COD；ρ = ?0.24）表现出中等程度的负相关性，这可能反映了在某些时期家庭废水产生模式的变化。

结论

本研究开发了一种新的短期COVID-19病例预测框架，该框架结合了TFT模型与流行病学和环境数据源。利用从首尔JWRC流域收集的多变量时间序列数据，该模型通过整合废水质量、空气质量和天气变量以及转换后的流行病学输入，成功捕捉了疫情动态。主要发现如下：

•

环境影响

将常规监测的环境指标——废水质量、空气质量和气象条件——整合到时间融合变换器中，使COVID-19发病率的短期预测准确率提高了约17%，并通过基于比率的目标减少了病例数的低估。由于输入数据是人口级别的且保护了隐私，该框架能够快速发出警报，指导有针对性的检测，并支持适应性资源分配，而无需依赖个人报告。

作者贡献声明

圭泰·金（Keugtae Kim）：撰写 – 审稿与编辑、资源准备。 庆华·赵（Kyung Hwa Cho）：撰写 – 审稿与编辑、方法论、形式分析。 成杓·金（Sungpyo Kim）：撰写 – 审稿与编辑、资源准备。 朱贤·康（Joo-Hyon Kang）：撰写 – 审稿与编辑、监督、项目管理、资金获取、概念构思。 汉娜·梅·波特斯（Hannah Mae Portus）：撰写 – 初稿撰写、可视化、验证、软件开发、形式分析。 敏贞·班（Min Jeong Ban）：数据调查、数据整理。 珍辉·金（Jin Hwi Kim）：撰写 – 初稿撰写、监督。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

致谢

本研究得到了韩国国家研究基金会（NRF）的资助（项目编号：RS-2023-NR076344）。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号