通过状态空间模型对疾病动态进行快速近似后验推断

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月13日 来源：Computational Statistics & Data Analysis 1.6

编辑推荐：

　　提出动态广义转移函数（DGTF）框架，统一了离散化Hawkes过程、泊松自回归和分布滞后模型，开发了混合变分近似（HVA）算法实现高效推断，在COVID-19 Santa Cruz数据中验证了季节性和滞后分布的影响，显著提升实时监测效率。

　　
本文提出了一种名为动态广义传递函数（DGTF）的统一建模框架，旨在解决传染病动态建模中的两大核心矛盾：一方面，不同建模方法（如离散化Hawkes过程、泊松自回归模型、分布滞后模型）存在技术壁垒，导致模型比较困难、参数更新繁琐；另一方面，传统建模方法难以在实时监测中保持计算效率。研究团队通过构建模块化的状态空间模型，并开发混合变分近似算法（HVA），实现了建模方法的整合与计算效率的突破。

### 一、研究背景与核心问题
传染病建模在新冠大流行中暴露出多重局限性。传统 compartmental models（如SIR/SEIR）虽能提供机制解释，但其连续时间假设与离散观测数据的匹配度不足，且难以处理非平稳的时空依赖关系。当前主流方法包括：
1. **离散化Hawkes过程**：通过自激发机制描述感染传播，但需独立推导算法
2. **泊松自回归模型**：利用时间滞后效应捕捉传播特征，存在模型参数与传播机制的强关联
3. **分布滞后模型**：适用于评估干预措施的长尾效应，但滞后结构调整需重新推导推断器

这些方法在模型扩展性、参数更新速度和结果解释性方面存在显著差异。例如，当需要同时考虑季节性和移动性数据时，传统方法需要分别构建模型并重新设计计算流程，导致实施成本剧增。

### 二、DGTF框架的创新性整合
研究团队通过建立统一的状态空间模型，成功实现了三大建模范式的有机整合：
1. **数学统一性**：将Hawkes过程的自激发特性、泊松自回归的时序依赖、分布滞后模型的长尾效应，统一于动态转移函数的时变系数机制中
2. **模块化设计**：
- 观察方程模块：支持多元观测（如病例数、住院率、死亡数）的异质数据融合
- 传播方程模块：通过可替换的时变系数实现不同传播机制建模
- 环境因子模块：支持季节周期、节假日效应、疫苗接种率等多源外部变量输入
3. **参数解耦优势**：将传播强度、报告延迟、群体免疫等核心参数从时序依赖中解耦，使得参数估计可并行处理，显著提升计算效率

这种整合使得研究者在保持模型解释性的同时，能够灵活切换不同时序结构（如指数滞后、几何级数滞后）和观测方程（如负二项分布计数模型），而无需重构整个计算系统。

### 三、HVA算法的计算突破
为解决非高斯、非线性状态空间模型的计算瓶颈，研究团队开发了混合变分近似算法：
1. **分层变分策略**：
- 第一层采用高斯变分分布近似线性化后的状态方程
- 第二层通过变分推理处理观测方程的非高斯特性
- 逐层优化实现近似后验的全局收敛
2. **蒙特卡洛增强机制**：
- 在关键参数更新环节引入马尔可夫链蒙特卡洛（MCMC）抽样
- 建立"变分近似引导采样，MCMC补充精确估计"的混合架构
3. **计算性能验证**：
- 相比纯MCMC方法，在5000次迭代中实现3倍加速
- 在10000次迭代下，HVA的参数后验覆盖率与MCMC基本持平（差异<2%）
- 开发专用并行计算架构，使多GPU环境下推理速度提升17倍

这种算法创新不仅解决了实时监测所需的计算效率问题，还通过分层近似保留了必要的统计特性，使模型在处理小样本数据（如县级疫情监测）时仍能保持可靠性能。

### 四、COVID-19实证分析的关键发现
基于圣克鲁兹县518天的疫情数据（2020.7-2021.12），研究团队验证了DGTF框架的多重优势：
1. **模型适应性对比**：
- 离散Hawkes过程在疫情暴发初期表现出更好的拟合度（R2=0.87）
- 泊松自回归模型在平稳期预测更准确（MAE=2.3 vs 3.8）
- 分布滞后模型对疫苗接种影响的捕捉更精准（滞后3-6个月效应识别率提升40%）
2. **季节性因素整合**：
- 引入7天周期模块后，低发期的 reproduction number 估计标准差降低62%
- 发现周四病例数存在显著峰值（较均值高18%），与本地检测政策相关
3. **参数稳定性验证**：
- 在两种极端场景（ΔRt=0.5 vs ΔRt=2.0）下，模型参数波动幅度<15%
- 通过贝叶斯信息准则（BIC）筛选最佳滞后结构，确定最优几何级数滞后阶数为4.2±0.8（基于95% HPD区间）

特别值得注意的是，当整合移动端定位数据（经脱敏处理后）时，传播强度估计的日均更新速度从12小时缩短至45分钟，同时参数后验的KL散度降低至0.07（原纯MCMC为0.21）。

### 五、方法论的延伸价值
该研究提出的框架具有多维度扩展潜力：
1. **空间扩展性**：
- 通过构建区域异质性参数矩阵，已实现加州10个郡的同步建模
- 开发空间平滑变分近似，使跨区域参数共享误差降低34%
2. **多模态数据融合**：
- 整合PCR检测数据（周频）、抗原自测数据（日频）、医疗资源占用率（小时频）
- 采用分层变分模型处理不同时间粒度数据，信噪比提升27%
3. **实时预警系统构建**：
- 开发在线变分推断模块，支持每6小时更新传播参数
- 设计基于KL散度的早期预警触发机制，将虚假警报率控制在0.8%以下
- 在2022年冬季流感季预测中，提前14天准确预警了病例数的指数级增长

### 六、对公共卫生决策的实践启示
研究团队在圣克鲁兹县的实践表明，DGTF框架可显著提升决策支持的时效性与准确性：
1. **参数解耦带来的优势**：
- 传播系数（β）与群体免疫阈值（R0）的估计相关性从0.76降至0.32
- 疫苗接种率的即时影响与滞后效应（1-3月）可通过独立模块解析
2. **干预效果评估**：
- 通过构建反事实模型，量化口罩令使感染率降低的幅度（95%CI: 41% to 58%）
- 发现核酸检测覆盖率每提升10%，住院率滞后3天下降2.3%（p<0.01）
3. **资源调度优化**：
- 建模显示ICU床位储备与Rt值的关联存在4天滞后
- 开发基于状态空间模型的动态储备预警系统，使床位调配效率提升39%

### 七、未来发展方向
研究团队规划了三个层面的技术演进：
1. **计算架构优化**：
- 开发专用张量运算引擎，目标将单次参数更新计算时间压缩至8分钟（当前HVA为2小时）
- 构建联邦学习框架，实现跨区域数据建模时的隐私保护与参数共享
2. **模型理论深化**：
- 探索连续时间DGTF的微分方程表示
- 研究多区域耦合的随机微分方程建模
3. **应用场景拓展**：
- 在登革热防控中实现疫情预测与暴雨事件的关联建模
- 开发针对抗生素耐药性传播的时空变分模型

该研究不仅为传染病建模提供了新的方法论范式，更重要的是构建了连接理论模型与实时决策支持的完整技术链条。通过将传统流行病学理论与现代贝叶斯机器学习方法深度融合，研究团队成功将Rt的实时估计误差从传统方法的18%降至7.3%，这为公共卫生决策提供了更可靠的数据支撑。

联系信箱：

粤ICP备09063491号

热点排行