基于马尔可夫链建模方法预测公共卫生空间聚类的相对风险

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Discover Public Health》：A Markov chain modeling approach for predicting relative risks of spatial clusters in public health

【字体：大中小】 时间：2026年05月23日 来源：Discover Public Health

编辑推荐：

　　预测空间聚类的相对风险（Relative Risk, RR）是公共卫生领域的一项复杂任务，可通过各种统计学和机器学习方法在不同时间间隔内实现。然而，高分辨率纵向数据往往难以获取，限制了这些方法的成功应用。本研究旨在进一步发展并验证前期工作中提出的新方法学，以在

预测空间聚类的相对风险（Relative Risk, RR）是公共卫生领域的一项复杂任务，可通过各种统计学和机器学习方法在不同时间间隔内实现。然而，高分辨率纵向数据往往难以获取，限制了这些方法的成功应用。本研究旨在进一步发展并验证前期工作中提出的新方法学，以在有限纵向数据条件下实现准确的序贯相对风险预测。具体而言，研究人员首先使用经典的似然比检验（likelihood ratio test）识别用户定义时间间隔内的显著性空间聚类；随后应用马尔可夫链（Markov chain）建模方法预测各时间间隔的相对风险值。研究发现，与前期基于死亡率数据的研究相比，该方法在COVID-19发病率数据上表现出更优的性能。此外，增加时间间隔数量可提高所提出马尔可夫链建模方法的预测精度。

**研究背景与问题**

时空建模在理解疾病传播动态和指导精准公共卫生干预方面发挥着关键作用，已被应用于检测社区级热点区域、量化传播异质性以及评估人口学和结构性因素如何影响疾病负担。传统的空间扫描统计方法由Kulldorff开发，后扩展为可识别发生后具有统计学意义疾病聚类的回顾性方法，广泛应用于医院获得性感染和禽流感监测等研究。然而，由于这些方法本质上属于回顾性分析，其预测即将到来的疫情波峰的能力有限。前期研究中，研究人员开发了一种嵌入校正器的新型马尔可夫链建模方法，利用美国七个不同时间间隔的COVID-19死亡率数据预测空间聚类的相对风险，显示出中等预测精度。然而，该方法的稳健性和普适性仍需进一步验证。

**研究目的与意义**

本研究在前期框架基础上进行实质性扩展而非简单重复，主要目标为确保所提出的方法论不局限于特定结局指标，并能推广至原始数据之外。研究具有两项主要贡献：第一，本研究使用的数据因报告实践、行为转变、检测波动和快速传播动态而表现出更大的时间变异性，因此基于发病率的相对风险预测构成更具挑战性的建模问题，研究由此严格评估了该方法在更嘈杂、更动态的流行病学条件下的稳健性和可推广性；第二，本研究具有更强的实践相关性，因发病率反映更早的传播动态，预测基于发病率的空间相对风险能够实现对新兴高风险区域的更早检测，从而增强当前公共卫生规划和资源分配的早期预警系统。

**技术方法概述**

研究人员采用的技术路线包含以下核心方法：基于SaTScan软件（v10.1）的泊松空间扫描统计，采用圆柱形扫描窗口，最大聚类规模为风险人群的25%；蒙特卡洛模拟（999次迭代）进行显著性检验；指数平滑法（exponential smoothing）与多元线性回归（multiple linear regression）相结合的预测-校正框架；马尔可夫链状态转移建模，其中每个状态对应给定时间间隔内统计学显著空间聚类的相对风险矩阵；最优加权参数α*的确定通过最小化累积平方误差实现；模型性能评估采用决定系数（R2）和变异系数（Coefficient of Variation, CV）等指标。数据来源为《纽约时报》（The New York Time）公开发布的美国COVID-19发病率数据，涵盖2020年5月至2023年3月期间，按优势变异株和平均病例致死率（Case Fatality Rate, CFR）划分为七个时间子间隔。

**研究结果**

**描述性统计结果**

该部分总结了COVID-19空间扫描分析的结果，按七个不同时间间隔分组以捕捉受不同变异株影响的发病率模式时间变化。表2展示了各间隔的静态聚类计数以及高风险区域（相对风险>1）和低风险区域（相对风险<1）的面积。表3呈现了连续子间隔间高风险与低风险类别之间的转移矩阵，包括面积（平方公里）、百分比变化以及高风险与低风险聚类之间的重叠百分比。

**预测计算结果**

为验证所提出模型的预测准确性，研究人员使用空间扫描统计获得的相对风险数据，以六个前期时间间隔预测第七个时间间隔的相对风险。通过指数平滑技术计算预测值，最优平滑参数α*通过最小化目标函数确定为0.38。同时，多元线性回归方法也被用于预测，其平方误差和为9.4818，优于指数平滑方法的20.6124，因此被选择用于校正估计。最终预测公式为T?* = 0.38T? + 0.62T??。标准化观测值与预测值的比较显示决定系数R2=0.915，表明预测值与观测值之间存在强一致性。

**预测验证结果**

为检验各间隔相对风险的变异性，研究人员计算了观测相对风险T?至T?以及预测相对风险T?*的变异系数。预测间隔T?*显示出低于观测间隔T?的变异系数，这种降低反映了预测模型中常见的平滑效应，不应被直接解释为预测准确性的提高，而是表明该模型缓和了观测发病率数据中存在的极端波动，同时保留了空间相对风险模式的整体结构。

**讨论与结论**

本研究的主要目标是预测序贯子间隔集合上空间聚类的相对风险。为实现这一目标，研究人员首先使用SaTScan识别显著空间聚类，随后应用平衡的马尔可夫链方法优化和预测未来时间间隔的相对风险估计。研究表明，平衡马尔可夫链在预测空间聚类相对风险方面高度有效，标准化值的预测间隔T?*实现了R2=0.915的决定系数，表明所提出方法解释了观测发病率数据中变异性的很大比例。最优平滑参数α*=0.38平衡了最近观测相对风险与模型产生校正估计之间的贡献。多元线性回归被用于估计前期间隔，因其相比指数平滑模型具有更小的平方误差和，有助于捕捉发病率风险中的短期非线性变化，从而改善最终预测。

尽管模型性能强劲，仍存在以下局限性：首先，SaTScan的泊松空间扫描方法假设聚类内风险恒定，可能未完全捕捉部分空间信息；其次，马尔可夫链模型基于前期子间隔建模相对风险的转移，未充分解决包含多个过去间隔的问题；第三，《纽约时报》数据集的公开数据可能受报告延迟和漏报影响；最后，验证策略方面，本研究采用较早间隔校准参数后预测后续间隔的方式，更严格的验证框架可涉及滚动窗口预测策略，这代表未来研究的重要方向。

虽然本研究聚焦于美国COVID-19发病率数据，但所提出的方法论框架不限于此特定疾病或地理设置，可应用于其他传染性疾病、人畜共患病、极端天气事件或其他空间流行病学数据集，只要具备空间聚类和纵向观测信息即可。未来工作可通过添加更详细的协变量或使用自适应加权方法进一步改进预测性能，也可通过纳入非马尔可夫依赖性和流动性数据来扩展研究。

**研究结论翻译**

"总之，所提出的预测-校正马尔可夫链框架为估计和预测时空公共卫生数据中的相对风险提供了一种稳健且可推广的方法。"

联系信箱：

粤ICP备09063491号

热点排行