一个用于地震死亡人数估算的更新型分层贝叶斯框架

《Progress in Disaster Science》：An updated hierarchical Bayesian framework for earthquake fatality estimation

【字体：大中小】 时间：2026年05月04日 来源：Progress in Disaster Science 3.8

编辑推荐：

　　戴维斯·恩格勒|基肖尔·贾伊斯瓦尔|马哈德万·加内什美国科罗拉多州戈尔登市，美国地质调查局，地质灾害科学中心 **摘要** 我们提出了一个框架，用于准确预测具有有限极限的非递减时间计数过程。具体来说，我们将该框架应用于快速估计地震引起的总死亡人数。我们通过使用更新

　　戴维斯·恩格勒|基肖尔·贾伊斯瓦尔|马哈德万·加内什
美国科罗拉多州戈尔登市，美国地质调查局，地质灾害科学中心

**摘要**
我们提出了一个框架，用于准确预测具有有限极限的非递减时间计数过程。具体来说，我们将该框架应用于快速估计地震引起的总死亡人数。我们通过使用更新的贝叶斯框架来模拟重大地震发生后的最初几小时和几天内公共媒体报告的死亡人数趋势，以预测可能的最终死亡人数。这项工作在几个关键方面改进了之前的研究：（1）解决了与之前框架假设显著偏离的过去地震死亡人数趋势；（2）利用过去地震的死亡数据来改进对新事件的预测；（3）优化和调整观察数据的影响，以增强估计值及其相关不确定性。我们通过将这个高维框架的性能与其前身进行比较，展示了其预测能力，包括2023年土耳其/叙利亚7.8级地震序列。我们发现，所提出的高维更新框架提高了预测精度，并显著降低了总体不确定性。

**MSC 2010主题分类**：
主要分类：60K35, 60K35；次要分类：60K35.1

**引言**
在地震发生后立即估计死亡人数对于快速响应和早期恢复的决策至关重要。这些估计决定了国际援助的规模以及在生存概率最高的窗口期内部署的救援资源。这一挑战已经通过多种方法来解决，包括工程损害和影响建模研究以及依赖经验数据和精算分析的商业方法（例如，在保险建模中）。虽然这项工作重点关注地震引起的死亡人数，但该方法也可以扩展到其他地震影响，如受伤人数，以及其他自然灾害造成的死亡人数。

在重大事件发生后的最初几个小时和几天内，媒体会重点报道实际观察结果，包括死亡人数的报告，这些报道有助于改进死亡人数估计[19]。图1展示了从过去几次地震数据中编译出的死亡人数趋势，突出了几个关键点：（i）大规模死亡事件需要很长时间才能得出最终死亡人数，有时需要几天甚至几周；（ii）随着时间的推移，这些死亡人数的报告方式存在很大差异，主要是由于复杂的社会和其他因素；（iii）非递减的时间计数过程最终会得出一个报告的死亡人数，但在某些情况下，这可能并不一定是真实的死亡人数（例如，2023年土耳其/叙利亚7.8级地震据报道造成59,488至62,013人死亡，其中土耳其有53,537人死亡，叙利亚有8,476人死亡，截至事故发生30天后仍有数千人失踪[17]）。我们使用土耳其/叙利亚地震的报告死亡人数数据，展示了所提出的高维更新框架的预测能力，旨在通过依赖最初24-72小时的观察报告来快速预测接近最终的死亡人数。这类报告通常用于通过假设报告死亡人数和实际死亡人数之间的函数关系来估计最终死亡人数。一种常见的方法是使用指数累积分布函数（CDF）作为趋势来拟合报告的死亡人数[20]。

**下载：**下载高分辨率图像（101KB）
**下载：**下载全尺寸图像

**图1.** 过去几次地震的报告死亡人数，重点介绍了本文讨论的2023年土耳其/叙利亚7.8级地震。

赵等人[20]提出的方法通过建模一个基于过去地震报告死亡人数的指数CDF来预测早期报告的总死亡人数。在此基础上，几项研究以各种方式扩展了他们的工作[4,5,7,11,13,16]。Noh等人[13]将赵等人的非线性回归方法扩展为一个贝叶斯回归框架，该框架结合了美国地质调查局全球地震快速评估响应（PAGER）系统的总死亡人数估计。Noh等人提出的更新框架（NUF）通过两个组成部分描述了死亡人数随时间的演变：一个平均过程，用于捕捉潜在趋势；一个残差过程，用于解释观察数据围绕这一趋势的变异性。残差过程包括两个关键元素：（a）异方差性，即残差随时间的变化范围（标准差）；（b）时间相关性，描述了不同时间点残差之间的关系。

其他时间序列预测方法，如自回归（AR）和自回归积分移动平均（ARIMA），在金融、生物医学研究和天气预报等领域更为常用。ARIMA模型已被明确用于时间序列计数数据[12,14]。然而，这些方法假设过程是平稳的——即均值和标准差随时间保持不变——并且依赖于预测数据值与过去观测值之间的线性依赖关系。此外，ARIMA在小型数据集上的表现较差，对于长期预测的可靠性也较低[2]。鉴于这些限制，以及直接将总死亡人数作为参数进行建模的优势，我们选择了贝叶斯回归而不是ARIMA作为本文讨论的更新方法。

将NUF应用于图1中的报告死亡人数数据后，我们发现了一些事件中报告的死亡人数行为与NUF中的假设存在显著偏差。这项工作的主要目标是通过一个通用的更新贝叶斯框架来解决这些差异。为此，我们引入了称为高维更新框架（HDUF）的不确定性纳入扩展，该框架更好地描述了这些事件及类似未来事件的报告死亡人数过程。我们利用分层贝叶斯建模（HBM）来利用全球历史数据进行新事件预测。尽管变分推断（VI）的最新分析进展为高维更新提供了效率（例如，Jia等人[9,10]），但我们选择了哈密顿蒙特卡洛（HMC）。与通常近似后验的VI不同，HMC提供了渐进精确的采样。这种精度对于捕捉死亡人数估计中的复杂尾部风险至关重要，确保了应急响应的不确定性量化具有鲁棒性。

这项工作的主要目标是提供一个可操作的实时预测工具（HDUF），减少早期报告的偏差，从而为应急管理人员提供比以前更可靠的死亡总数估计，帮助他们制定可行的灾难响应策略。本文的结构如下：首先，我们描述了NUF及其导致某些地震表现不佳的局限性和假设。接下来，我们介绍了HDUF及其解决这些局限性的关键组成部分和层次结构。然后，我们将NUF和HDUF应用于2023年土耳其/叙利亚7.8级地震，并比较了它们的性能。为了评估每个框架在应用于早期地震报告时的整体预测性能，我们开发了一组指标。这些指标使用各种留出未来数据的交叉验证（LFO-CV）方案来评估预期的对数预测密度（ELPD），提供单一值分数，以便直接比较不同的更新框架。然后，我们将NUF和HDUF应用于过去地震的报告死亡人数数据，并使用定义的LFO-CV程序评估它们的预测性能。最后，我们讨论了最终报告的死亡人数与事件发生几周或几个月后发布的官方统计数字之间的差异。这一扩展还表明，可以使用报告的死亡人数数据来估计其他相关数量，如受伤总人数。

**2. 背景：Noh等人的更新框架**
**2.1. 方法论**
NUF根据一组在时间t1…tKT报告的死亡人数x=x1…xKT来估计总死亡人数N∞的分布。Noh等人[13]将报告的死亡人数建模为一个时间过程，其中任何给定时间t的死亡人数由几何平均过程Nt和几何残差过程Et描述，即：
(2.1) \(X_t = N_tE_t\)

“几何”一词表示\(X_t\)的自然对数\(Z_t = \ln X_t\)是平均时间过程\(\ln N_t\)和正态分布残差过程\(\ln E_t\)的总和。过程\(N_t\)被称为损失投影曲线，在Noh等人[13]中描述为：
(2.2) \(N_t = g_N U_f t = N_{\infty} e^{-A_t^{-c}\)

这里，常数\(c\)表示过程的开始时间，随机变量参数\(A>0\)控制\(N_t\)接近\(N_{\infty}\)的指数速率。在Noh等人[13]中，假设当\(t
noh等人[13]的方法假设乘法效应\(e_t\)围绕投影曲线呈对数正态分布，中位数为1，时间变化的自然对数标准差为\(\sigma_t\)（\(\ln e_t\)的标准差），即\(e_t \sim \ln_0\sigma_t\)。noh等人[13]通过使用方程(2.2)拟合过去的地震并评估这些事件的残差整体行为来确定\(\sigma_t\)：
(2.3) \(\sigma_t \approx h_n u_f t = d_1,t < t \sigma_d_1,t \geq t \sigma\)，其中\(d_1\)、\(d_2\)和\(t_{\sigma}\是从noh等人[13]中包含的过去地震的残差数据中经验性得出的。

给定\(x=x\)，nuf通过边缘化联合后验\(f_{n_{\infty}|x_n^{\infty}\alpha_x\)来生成总死亡人数\(n_{\infty}\)的后验分布，根据贝叶斯定理描述为：
(2.4) \(f_{n_{\infty},a|x_n^{\infty},\alpha_x \sim f_x|n_{\infty},ax_n^{\infty},\alpha f_{n_{\infty},a,n_{\infty}\alpha\)
其中，右边的第一项是似然，第二项是先验，\(n_{\infty},\alpha\)分别是\(n_{\infty}\)和\(a\)的实现。nuf假设先验参数彼此独立。pager估计被用作\(n_{\infty}\)的先验分布，而\(a\)的先验假设遵循从过去地震的死亡人数行为中得出的对数正态分布[13]。nuf和提出的hduf假设\(n_{\infty}\)是总死亡人数。然而，在最后一部分中，我们指出了最终报告的数字不一定是事件发生几个月后发布的官方统计数字这一事实。

用于定义似然项的分布可以通过结合方程(2.1)和(2.2)得到。给定\(n_{\infty}=n_{\infty}\)和\(a=\alpha\)，\(n_t\)是一个确定性函数，导致：
(2.5) \(x|n_{\infty},a = n_te_t \sim mvln_l\sigma_t\)
其中\(n_t = n_t^1…n_t^{k_t}\)，\(d_2\)是一个协方差矩阵。nuf假设报告的损失残差随时间是独立的，因此\(d\)是一个对角矩阵，其条目由向量\(h_n u_f t = h_n u_f t^1…h_n u_f t^{k_t}\)的对数标准差给出。

最后，可以通过边缘化联合后验来获得条件于报告的\(n_{\infty}\)的后验分布：
(2.6) \(f_{n_{\infty}|x_n^{\infty}\alpha_x = \int af_{n_{\infty},a|x_n^{\infty},\alpha_x\)

**2.2. 局限性和改进领域**
我们将nuf应用于2023年土耳其/叙利亚地震（结果如图2所示）以及其他几次过去的事件。通过这项分析，我们发现包括土耳其/叙利亚地震在内的几次地震揭示了nuf在准确协调报告死亡人数方面的局限性或不一致性。这些发现表明，在类似未来事件中应用nuf时可能存在潜在挑战。从这些地震中，我们对nuf做出了几个关键观察：
1. 在首次报告后，中位数发生了显著变化，95%分位数区域也大幅下降，表明当只有单一报告可用时，先前的pager死亡人数估计的影响减弱了。
2. 围绕估计的总死亡人数的不确定性通常太小，当预测模型不准确时，它可能产生的总死亡人数估计与最终报告相差多个标准差。
3. nuf难以协调与方程(2.2)中的指数cdf显著偏离的报告死亡人数趋势。
4. nuf假设残差噪声过程（方程(2.3)）在所有事件中都是同分布的。然而，由于方程(2.3)是基于过去事件的残差过程的平均值得出的[13]，个别地震可能在幅度和时间依赖性上表现出不同的异方差性。
5. nuf假设残差过程随时间是独立的。这一假设没有准确捕捉到残差相对于各自投影模型的实际变异性，特别是对于报告密集的事件（见2023年土耳其/叙利亚地震；图2）。

**下载：**下载高分辨率图像（65kb）
**下载：**下载全尺寸图像

**图2.** 2023年土耳其/叙利亚地震的报告死亡人数（黑色圆圈）以及nuf对总死亡人数的估计和最终死亡人数预测模型。紫色线是所有报告死亡数据给出的中位数投影曲线。由于非常狭窄，后验投影曲线的95%置信区域（紫色阴影部分）无法区分。蓝色线和阴影区域分别对应于给定时间的中位数和95%置信区域，以及根据截至该时间的报告更新的总死亡人数估计。 noh等人[13]的方法假设乘法效应\(e_t\)围绕投影曲线呈对数正态分布，中位数为1，时间变化的自然对数标准差为\(\sigma_t\)（\(\ln e_t\)的标准差），即\(e_t \sim \ln_0\sigma_t\)。noh等人[13]通过使用方程(2.2)拟合过去的地震并评估这些事件的残差整体行为来确定\(\sigma_t\)： (2.3) \(\sigma_t \approx h_n u_f t=d_1,t < t \sigma_d_1,t \geq t \sigma\)，其中\(d_1\)、\(d_2\)和\(t_{\sigma}\是从noh等人[13]中包含的过去地震的残差数据中经验性得出的。给定\(x=x\)，NUF通过边缘化联合后验\(f_{N_{\infty}|X_n^{\infty}\alpha_x\)来生成总死亡人数\(N_{\infty}\)的后验分布，根据贝叶斯定理描述为： (2.4) \(f_{n_{\infty},a|x_n^{\infty},\alpha_x \sim f_x|n_{\infty},ax_n^{\infty},\alpha f_{n_{\infty},a,n_{\infty}\alpha\) 其中，右边的第一项是似然，第二项是先验，\(n_{\infty},\alpha\)分别是\(n_{\infty}\)和\(a\)的实现。nuf假设先验参数彼此独立。pager估计被用作\(n_{\infty}\)的先验分布，而\(a\)的先验假设遵循从过去地震的死亡人数行为中得出的对数正态分布[13]。nuf和提出的hduf假设\(n_{\infty}\)是总死亡人数。然而，在最后一部分中，我们指出了最终报告的数字不一定是事件发生几个月后发布的官方统计数字这一事实。用于定义似然项的分布可以通过结合方程(2.1)和(2.2)得到。给定\(n_{\infty}=n_{\infty}\)和\(A=\alpha\)，\(N_t\)是一个确定性函数，导致： (2.5) \(x|n_{\infty},a=N_tE_t \sim mvln_l\sigma_t\) 其中\(n_t=N_t^1…N_t^{K_t}\)，\(D_2\)是一个协方差矩阵。NUF假设报告的损失残差随时间是独立的，因此\(D\)是一个对角矩阵，其条目由向量\(h_N u_f t=h_N u_f t^1…h_n u_f t^{k_t}\)的对数标准差给出。最后，可以通过边缘化联合后验来获得条件于报告的\(n_{\infty}\)的后验分布： (2.6) \(f_{n_{\infty}|x_n^{\infty}\alpha_x=\int af_{n_{\infty},a|x_n^{\infty},\alpha_x\) **2.2. 局限性和改进领域** 我们将nuf应用于2023年土耳其叙利亚地震（结果如图2所示）以及其他几次过去的事件。通过这项分析，我们发现包括土耳其叙利亚地震在内的几次地震揭示了nuf在准确协调报告死亡人数方面的局限性或不一致性。这些发现表明，在类似未来事件中应用nuf时可能存在潜在挑战。从这些地震中，我们对nuf做出了几个关键观察： 1. 在首次报告后，中位数发生了显著变化，95%分位数区域也大幅下降，表明当只有单一报告可用时，先前的pager死亡人数估计的影响减弱了。 2. 围绕估计的总死亡人数的不确定性通常太小，当预测模型不准确时，它可能产生的总死亡人数估计与最终报告相差多个标准差。 3. nuf难以协调与方程(2.2)中的指数cdf显著偏离的报告死亡人数趋势。 4. nuf假设残差噪声过程（方程(2.3)）在所有事件中都是同分布的。然而，由于方程(2.3)是基于过去事件的残差过程的平均值得出的[13]，个别地震可能在幅度和时间依赖性上表现出不同的异方差性。 5. nuf假设残差过程随时间是独立的。这一假设没有准确捕捉到残差相对于各自投影模型的实际变异性，特别是对于报告密集的事件（见2023年土耳其叙利亚地震；图2）。 **下载：**下载高分辨率图像（65kb） **下载：**下载全尺寸图像 **图2.** 2023年土耳其>
noh等人[13]的方法假设乘法效应\(e_t\)围绕投影曲线呈对数正态分布，中位数为1，时间变化的自然对数标准差为\(\sigma_t\)（\(\ln e_t\)的标准差），即\(e_t \sim \ln_0\sigma_t\)。noh等人[13]通过使用方程(2.2)拟合过去的地震并评估这些事件的残差整体行为来确定\(\sigma_t\)：
(2.3) \(\sigma_t \approx h_n u_f t = d_1,t < t \sigma_d_1,t \geq t \sigma\)，其中\(d_1\)、\(d_2\)和\(t_{\sigma}\是从noh等人[13]中包含的过去地震的残差数据中经验性得出的。

给定\(x=x\)，nuf通过边缘化联合后验\(f_{n_{\infty}|x_n^{\infty}\alpha_x\)来生成总死亡人数\(n_{\infty}\)的后验分布，根据贝叶斯定理描述为：
(2.4) \(f_{n_{\infty},a|x_n^{\infty},\alpha_x \sim f_x|n_{\infty},ax_n^{\infty},\alpha f_{n_{\infty},a,n_{\infty}\alpha\)
其中，右边的第一项是似然，第二项是先验，\(n_{\infty},\alpha\)分别是\(n_{\infty}\)和\(a\)的实现。nuf假设先验参数彼此独立。pager估计被用作\(n_{\infty}\)的先验分布，而\(a\)的先验假设遵循从过去地震的死亡人数行为中得出的对数正态分布[13]。nuf和提出的hduf假设\(n_{\infty}\)是总死亡人数。然而，在最后一部分中，我们指出了最终报告的数字不一定是事件发生几个月后发布的官方统计数字这一事实。

用于定义似然项的分布可以通过结合方程(2.1)和(2.2)得到。给定\(n_{\infty}=n_{\infty}\)和\(a=\alpha\)，\(n_t\)是一个确定性函数，导致：
(2.5) \(x|n_{\infty},a = n_te_t \sim mvln_l\sigma_t\)
其中\(n_t = n_t^1…n_t^{k_t}\)，\(d_2\)是一个协方差矩阵。nuf假设报告的损失残差随时间是独立的，因此\(d\)是一个对角矩阵，其条目由向量\(h_n u_f t = h_n u_f t^1…h_n u_f t^{k_t}\)的对数标准差给出。

最后，可以通过边缘化联合后验来获得条件于报告的\(n_{\infty}\)的后验分布：
(2.6) \(f_{n_{\infty}|x_n^{\infty}\alpha_x = \int af_{n_{\infty},a|x_n^{\infty},\alpha_x\)

**2.2. 局限性和改进领域**
我们将nuf应用于2023年土耳其/叙利亚地震（结果如图2所示）以及其他几次过去的事件。通过这项分析，我们发现包括土耳其/叙利亚地震在内的几次地震揭示了nuf在准确协调报告死亡人数方面的局限性或不一致性。这些发现表明，在类似未来事件中应用nuf时可能存在潜在挑战。从这些地震中，我们对nuf做出了几个关键观察：
1. 在首次报告后，中位数发生了显著变化，95%分位数区域也大幅下降，表明当只有单一报告可用时，先前的pager死亡人数估计的影响减弱了。
2. 围绕估计的总死亡人数的不确定性通常太小，当预测模型不准确时，它可能产生的总死亡人数估计与最终报告相差多个标准差。
3. nuf难以协调与方程(2.2)中的指数cdf显著偏离的报告死亡人数趋势。
4. nuf假设残差噪声过程（方程(2.3)）在所有事件中都是同分布的。然而，由于方程(2.3)是基于过去事件的残差过程的平均值得出的[13]，个别地震可能在幅度和时间依赖性上表现出不同的异方差性。
5. nuf假设残差过程随时间是独立的。这一假设没有准确捕捉到残差相对于各自投影模型的实际变异性，特别是对于报告密集的事件（见2023年土耳其/叙利亚地震；图2）。

**下载：**下载高分辨率图像（65kb）
**下载：**下载全尺寸图像

**图2.** 2023年土耳其/叙利亚地震的报告死亡人数（黑色圆圈）以及nuf对总死亡人数的估计和最终死亡人数预测模型。紫色线是所有报告死亡数据给出的中位数投影曲线。由于非常狭窄，后验投影曲线的95%置信区域（紫色阴影部分）无法区分。蓝色线和阴影区域分别对应于给定时间的中位数和95%置信区域，以及根据截至该时间的报告更新的总死亡人数估计。>在首次报告之前的总死亡人数分布对应于PAGER的总死亡人数分布[8]。（关于此图例中颜色参考的解释，请参阅本文的网页版本。）3. 高维更新框架提出的HDUF泛化了NUF，并以三种不同的方式解决了上述五个观察结果：1. 它在损失预测模型中添加了一个额外的参数，并将所有参数（包括位移参数c）视为随机变量。2. 它重新定义了残差过程的关键组成部分：a. 异方差标准差函数σt被建模为随机变量的随机函数。b. 引入了时间相关性，包含一个相关距离随机变量。3. 它包括物理约束，以基于过去地震报告的死亡人数的典型行为来限制可能的损失预测曲线。3.1. Weibull型CDF损失预测模型位移指数CDF损失预测模型（方程（2.2）的一个后果是其限制性，因为它假设c是确定的，并且在整个过程中指数率是恒定的。遵循Fujimoto等人[5]的方法，我们提出使用Weibull CDF的另一种参数化来模拟报告的死亡人数趋势，该参数化通过估计的死亡人数N∞进行缩放。这种Weibull型CDF泛化了指数CDF，并在塑造损失预测曲线方面提供了更大的灵活性，使其能够表示更广泛的预测死亡人数趋势。HDUF中使用的Weibull型CDF定义为：（3.1）Nt=gHDUFt=N∞1?e?At?CB在方程（3.1）中，位移参数被视为随机变量C，并被限制在首次死亡报告时间之前发生。形状参数B也是一个随机变量，它有效地非均匀地拉伸或压缩指数过程。3.2. 随机残差过程异方差NUF假设所有地震的报告死亡人数都以相同的方式分布在损失预测曲线周围。通过假设事件之间的均匀异方差，更新框架可能会显著高估或更严重地低估残差分布，这取决于具体的地震。为了考虑残差过程的变异性，我们对NUF提出了以下两个修改：1. 引入一个修订后的函数形式来更好地描述异方差。2. 我们允许这个新函数形式的参数存在不确定性。提出的HDUF使用以下函数，其中包含三个正的随机参数Θ1,Θ2,Θ3：（3.2）σt≈hHDUFt=Θ1+Θ2tC?Θ3在这种形式中，对数标准差在t=C时为Θ1+Θ2，并且随着t→∞而单调减少到Θ1。方程（3.2）中的函数形式被选用来模拟残差标准差随时间的幂律衰减，其中Θ1代表大t时的基线残差噪声，Θ2缩放t=C时的初始不确定性，Θ3控制衰减率。这些参数被视为随机变量，并使用表1中指定的先验从贝叶斯更新过程中推断出来。3.3. 随机时间相关性NUF假设在损失预测模型条件下，残差随时间是独立的。然而，与异方差一样，地震报告的死亡人数并没有表现出关于预测模型的相同残差相关性。为了解决这个问题，我们在残差过程中引入了时间相关性结构。结合残差相关性增强了HDUF解释报告死亡人数的灵活性。我们使用具有随机相关长度的指数相关函数来建模这种相关性。具体来说，该函数应用于任何两次报告之间时间比的自然对数，基于几次密集报告事件的观察结果。我们根据报告时间t定义残差过程的相关矩阵R，其条目为：（3.3）Ri,j=e?Λlnti/tj=titj?Λ,iHMC是一种基于梯度的方法，用于在给定数据集的情况下对模型进行推断。PyMC能够高效地计算这些梯度，并通过使用No-U-Turn Sampler [6] 方法来增强HMC，该方法可以自适应地调整HMC算法 [15]。对于图6和图7中的每次地震，我们使用PyMC生成了4000个后验参数实现，包括HDUF和NUF，从而得到了本文其余部分中呈现的结果。为了使HDUF在操作上可行，计算效率至关重要。完整的贝叶斯推断过程，利用HMC-NUTS（四个链，总共4000个实现，包括2000个燃烧期），通常在标准桌面CPU（例如Intel i7）上3到5分钟内就能收敛并提供更新后的后验分布。这种计算速度确保了该框架能够提供及时且准确的预测更新，以跟上灾后死亡人数的实时报告周期，满足紧急响应场景中的快速评估需求。

3.7. 应用于2023年土耳其/叙利亚7.8级地震
我们首先在2023年土耳其/叙利亚7.8级地震上展示了HDUF，并将其更新结果与NUF的结果进行了比较（见图2）。2023年2月6日，土耳其-叙利亚边境靠近地中海海岸发生了一次7.8级地震，随后不久又发生了一次7.7级余震。这些地震影响了大约900万人，导致土耳其和叙利亚有5万至6万人死亡，超过10万人受伤[17]。图5显示了此次事件的报告死亡人数以及HDUF的更新结果。HDUF的表现优于NUF（见图2），其N∞的后验分布更快地收敛到最终的死亡人数。此外，在整个更新过程中，N∞的中位数估计值相对稳定地保持在最终报告值附近。尽管HDUF的后验不确定性下降速度比NUF慢，但这一特性使其对早期报告和异常值不太敏感（例如，在图5中的2到4天内）。

下载：下载高分辨率图像（86KB）
下载：下载全尺寸图像

图5. 应用于2023年土耳其/叙利亚7.8级地震报告死亡人数的NUF（a）和HDUF（b）的更新结果。紫色线条和紫色阴影区域分别对应于基于全部报告条件的后验损失预测曲线的中位数和95%区间。每个时间点的蓝线和阴影区域是截至该时间点的N∞的后验中位数和95%区间。（关于此图例中颜色的解释，请参阅本文的网络版本。）

4. 评估预测性能的方法
我们现在评估NUF和HDUF在图1所示过去地震报告的死亡数据集上的整体预测能力。有几种指标可以描述预测性能。例如，我们可能想知道NUF或HDUF：
1. 能够预测未来的M=1,2,3,...次报告。
2. 能够预测整个未来的数据集。
3. 能够预测最终的报告死亡人数xfinal。
在本节中，我们将为每个预测指标提供三个定量分数。
有许多方法可用于评估概率模型的性能。然而，许多方法不适合HDUF，因为它们要么要求数据是独立的，要么需要较大的样本量，要么只关注报告死亡人数分布的均值[2]。留一法（LOO）和留未来法（LFO）交叉验证（CV）是两种不受这些限制的方法[2]。然而，LOO方法不适用于评估时间模型的预测能力，因为它经常低估了未来预测的不确定性。因此，我们使用LFO CV方法来评估NUF和HDUF的预测性能。
准确的死亡人数估计必须在地震发生后尽早获得，以指导搜救和恢复工作。在某个时间点之后，提供更新的死亡人数估计的收益会逐渐减少，因为它们往往太晚而无法影响恢复工作。因此，我们基于地震发生后t~时间之前的死亡人数观察结果来评估更新框架的预测性能。我们选择t~=36小时，因为这足够早，可以及时通知恢复工作，同时至少允许两个早晨和一个晚上的新闻周期（或相反）。

4.1. 留未来法交叉验证
设x=x1…xK表示某次地震报告的全部死亡人数，假设只观察到一部分x1:i=x1…xi直到某个时间ti。我们的目标是估计给定x1:i的M次未来报告xi+1:i+M=xi+1…xi+M的后验预测密度（PPD）。这由总概率定律给出：
(4.1)fXi+1:i+M∣X1:ixi+1:i+Mx1:i=∫ΦfXi+1:i+M∣X1:i,Φxi+1:i+Mx1:i?fΦ∣X1:i?x1:id?
这种预测过程称为M步预测（M-SAP，[1,2]）。在方程(4.1)的被积函数中：
1. fXi+1:i+M∣X1:i,Φxi+1:i+Mx1:i?是在参数?和过去报告x1:i的条件下观察到下一次M次报告的似然。
2. fΦ∣X1:i?x1:i是在过去报告x1:i的条件下参数Φ的后验分布。
假设?1,?2,…,?S是一组fΦ∣X1:i?x1:i的S个实现。那么方程(4.1)可以数值近似为：
(4.2)fXi+1:i+M∣X1:ixi+1:i+Mx1:i≈1S∑s=1SfXi+1:i+M∣X1:i,Φxi+1:i+Mx1:i?
方程(3.5)表明，在Φ=?s的条件下，X1:i和Xi+1:i+M都是MVLN随机变量。因此，方程(4.2)中的求和项是一个MVLN密度，这是由于MVN分布的性质。一般来说，对于任何Y1~MVLNμ1Σ11和Y2~MVLNμ2Σ22，且Σ12=CovlnY1lnY2，则Y1∣Y2=y2~MVLNμ1∣2Σ11∣2，
其中
(4.3)μ1∣2=μ1+Σ12Σ22?1y2?μ2
(4.4)Σ11∣2=Σ11?Σ12Σ22?1Σ21

4.2. M步预测（M-SAP）
方程(4.2)中的PPD表示在给定x1:i的条件下观察到xi+1:i+M的估计似然。我们为每个i∈1,…,minK?MKt~估计PPD，其中Kt~是t~之前的最后一次报告的索引。然后可以将这些PPD结合起来，得到一个称为预期对数预测密度（ELPD）的分数，该分数描述了框架在t~之前的整体表现。M-SAP LFO方法的ELPD为：
(4.5)ELPDM=∑i=1minK?MKt~lnfXi+1:i+M∣X1:ixi+1:i+Mx1:i
在方程(4.5)中，ELPDM是基于M-SAP的PPD的自然对数之和，反映了框架在t~之前的整体预测性能。可以通过比较NUF和HDUF的ELPD来评估它们在同一事件上的表现。

4.3. 完整未来报告预测
虽然M-SAP方法评估了更新框架的局部性能，但我们还希望评估框架预测t~之前的所有未来报告的性能。为此，我们引入了一种替代的LFO-CV方案，该方案使用不同的PPD集合的ELPD来评估完整的未来报告预测。这些替代PPD与方程(4.5)中的PPD不同，因为它们预测每个时间步的所有未来报告，而不仅仅是接下来的M次报告：
(4.6)fXi+1:K∣X1:ixi+1:Kx1:i≈1S∑s=1SfXi+1:K∣X1:i,Φxi+1:Kx1:i?s
与M-SAP类似，方程(4.6)中描述的PPD可以汇总起来得到ELPDFull，它是衡量整个数据集预测性能的指标：
(4.7)ELPDFull=∑i=1minK?1Kt~lnfXi+1:K∣X1:ixi+1:Kx1:i

4.4. 最终报告死亡人数预测
之前的LFO-CV方法评估了死亡人数报告过程的预测性能，有时很少或完全不受最终报告死亡人数xfinal=xK的影响。为了解决这个问题，我们引入了另一种PPD和相应的ELPD来评估更新框架预测最后一次报告xfinal的能力，给定t~之前的报告。最终报告死亡人数xfinal被视为X∞=N∞E∞的一个实现，每个更新框架根据它们对X∞∣x1:i的后验估计来评分，对于每个i=1,…,Kt~。
然后X∞∣x1:i的PPD为：
(4.8)fX∞∣Xxfinalx≈1S∑s=1SfX∞∣X1:i,Φxfinalx1:i?
可以从每个Kt~的PPD计算出ELPD：
(4.9)ELPDX∞=∑i=1Kt~lnfX∞∣X1:ixfinalx1:i

5. 比较过去地震的预测性能
我们将HDUF和NUF应用于83次过去地震的数据集，并计算了每种事件的三种不同ELPD类型。图6显示了NUF和HDUF之间的ELPD差异，每个子图对应于不同的ELPD类型。负ELPD差异表示HDUF在预测未来数据方面表现更好的事件。ELPD差异的标准误差与相应的ELPD差异一起显示。图6还突出了九次地震（红色圆圈），在这些地震中HDUF在大多数ELPD类型上的表现显著优于NUF。这九次地震及其更新结果在图7中有详细说明。

下载：下载高分辨率图像（281KB）
下载：下载全尺寸图像

图6. 对83次过去地震应用不同ELPD指标的ELPD差异：ELPD5（a）、ELPDFull（b）和ELPDX∞（c）。ELPD差异的标准误差由条形和须状线表示，圆圈的大小与事件报告的数量成正比。用红色标记的事件对应于图7中选中的事件，这些事件是HDUF表现显著优于NUF的例子。垂直轴的刻度是对称的对数刻度，将[?1,1]视为线性区域。（关于此图例中颜色的解释，请参阅本文的网络版本。）

下载：下载高分辨率图像（521KB）
下载：下载全尺寸图像

图7. 在前36小时内，HDUF在ELPD5、ELPDFull和ELPDX∞方面的差异上总体上优于NUF的几场地震的死亡人数更新结果。黑色圆圈代表条件下的报告，而白色圆圈代表用于计算不同ELPD项的未来报告。HDUF随时间更新的中位数N∞估计和前36小时内报告的中位数损失预测曲线分别由绿色和红色线条表示。黑色和蓝色线条分别对应NUF的中位数N∞和损失预测曲线。阴影区域对应于每个时间点不同量的95%分位数区间。（关于此图例中颜色的解释，请参阅本文的网络版本。）
图6总结了HDUF相对于之前框架的比较优势。正条形的高度表示HDUF提供的“信息增益”。较大的正值表示之前的模型在存在有偏媒体报告或不规则更新周期的情况下表现较差，而HDUF成功保持了统计准确性。相反，在NUF略有优势的少数情况下（负值较小），这些值接近零，表明尽管NUF在这些特定的简单报告趋势下更“高效”，但HDUF仍保持了功能上的准确性。
总体而言，图6表明HDUF在大多数事件中的表现优于NUF。此外，HDUF表现更好的事件往往表现出更大的ELPD差异（在幅度上）。5-SAP指标（顶部行）与完整未来报告指标（中间行）表现出类似的行为，除了完整未来报告指标由于预测的未来报告数量较多而显示出更大的差异幅度。通常，HDUF在报告数量较多的事件中表现更好，这些事件主要是高死亡人数的地震。我们在图6中观察到的一个有趣特征是ELPD差异的双峰性质。这表明有一部分事件中，无论总死亡人数如何，HDUF都能更准确地模拟报告的死亡人数。图7详细总结了图6中突出显示的9次地震的三种不同ELPD类型。这些事件被选中是因为它们在大多数ELPD类型中显示出最显著的正面ELPD差异。在这些事件中，HDUF的表现最好。

在NUF表现优于HDUF的地震子集中（图6中ELPD差异为正），发现更新轨迹在初始报告阶段几乎相同。分歧通常只在新的报告突然且永久停止后发生。在这些“突然的平台期”事件中，NUF缺乏层次约束，导致其中位数估计更急剧地崩溃到最终报告值。相比之下，HDUF保持了更宽的可信区间，反映了报告暂停后数据可能再次激增的历史可能性。在这些案例中，ELPD差异的幅度较小，这表明即使HDUF在这些特定、低复杂性的报告序列中的“效率”略低于NUF，其预测在统计上仍然是合理的。图7详细展示了HDUF表现优于NUF的几个事件。在阅读这些图表时，关键的观察点是HDUF的中位数估计（绿色和红色线条）与未来报告（白色圆圈）的对齐情况。请注意，在这些案例中，NUF（黑色和蓝色线条）往往收敛得太快或偏离了实际结果。此外，在NUF的不确定性范围（黑色/蓝色阴影）未能捕捉到最终报告趋势的图表中，HDUF的范围（绿色/红色阴影）仍然足够宽，可以包含真实路径，并且随着时间的推移更可靠地缩小。这种视觉差异展示了HDUF在事件发生后的前36小时内保持“安全”而准确的不确定性范围的能力。

6. 最终报告的死亡人数与官方统计的死亡人数之间的差异
地震发生后报告的最终死亡人数往往与事件发生几周或几个月后确定的官方或经过整理的总死亡人数不同。这些差异的产生原因多种多样，包括对缺失数据的处理、重伤人员的状况以及重复计数的情况。 pager的估计基于过去地震的最终整理死亡人数，而不是事件发生后实时报告的数字。HDUF和NUF使用死亡总数的分布——将pager的估计作为参数N∞的先验信息，N∞代表损失预测模型的饱和点。这假设实际死亡人数直接由基础预测曲线给出，报告的死亡人数围绕该曲线分布。然而，我们认为这种假设可能过于严格。我们认为实际死亡总数与最终报告的死亡人数关系更为密切，而不是与损失预测模型给出的最终值关系更为密切。虽然总死亡人数应该与N∞相关，但我们怀疑这种相关性主要是因为两者都与X∞有关。本节探讨了将最终报告的死亡人数与最终整理的死亡人数之间的差异纳入HDUF结果的影响。

6.1. 模型扩展
假设Y∞是事件的总死亡人数，乘法残差ξ∞~LN0τξ描述了Y∞围绕最终报告的死亡人数X∞的分布：
(6.1) Y∞ = X∞ξ∞
由于X∞ = N∞E∞，我们建议修改先验假设：将pager的估计作为Y∞的先验，而不是N∞的先验。这种修改将N∞与pager的估计分开，减少了报告的死亡数据对最终更新死亡人数估计的影响。尽管随着更多报告的获取，解释数据的可能预测曲线范围可以缩小，但它们对Y∞的影响被稀释了，从而限制了最终Y∞估计的不确定性降低。

这种对HDUF的扩展总结如下：
Y∞ = X∞ξ∞
X∞ = N∞E∞
Xt = N∞1?e?At?CBEt
Y∞~LNμ
PAGERζ
PAGERξ∞~LN0τξ
(6.2)
τξ~Γ
mean=.2
std=.1
为了演示目的，对ξ∞的对数标准差τξ应用了一个较弱的先验。

6.2. 应用于2023年M7.8土耳其/叙利亚地震
我们将这一扩展整合到HDUF中，并应用于2023年M7.8土耳其/叙利亚地震的报告死亡数据。图8显示了基于报告的预测损失模型分布，以及N∞（蓝线和阴影区域）和Y∞（红线和阴影区域）的分布。通过放宽N∞代表真实死亡人数的假设，并引入残差项ξ∞，该框架考虑了过去地震中报告死亡人数与整理死亡人数之间的差异。这个例子说明了输入或输出中的额外不确定性如何影响更新框架。最终报告的死亡人数与最终整理的死亡人数之间的不确定性程度可能因地区、总死亡人数以及导致总体生命损失的连锁灾害的存在而有所不同。

下载：下载高分辨率图像（62KB）
下载：下载全尺寸图像

图8. 说明了最终报告的死亡人数X∞、预测模型总死亡人数N∞和实际总死亡人数Y∞之间差异的示例。报告的死亡人数（圆圈）来自2023年M7.8土耳其/叙利亚地震。任何时间的蓝线和阴影区域分别对应于基于截至该时间所有报告的N∞的更新中位数和更新后的95%分位数范围。同样，任何时间的红线和阴影区域分别对应于基于截至该时间所有报告的Y∞的更新中位数和更新后的95%分位数范围。（关于图中颜色参考的解释，请参阅本文的网络版本。）

7. 讨论
在大多数过去的地震中，HDUF在不同ELPD指标上的表现优于NUF。然而，在一部分事件中，较简单的NUF表现更好。尽管如此，ELPD差异（图6）在HDUF表现优于NUF的地震中要大几个数量级。具体来说，这些差异出现在NUF难以协调死亡报告的情况下。对于这些事件，NUF预测的死亡人数非常不准确，往往几乎没有代表观察数据的可能性。另一方面，HDUF能够适应特定事件中的异常死亡报告模式，同时保持合理的预测性能。

在报告的死亡行为偏离T95预期轨迹的情况下（图3），NUF也可能优于HDUF。例如，有些地震在第一天死亡人数迅速上升到约1000人，随后出现一个平台期，之后不再增加。在某些情况下，NUF正确预测了这种早期饱和现象，而HDUF则更为保守，估计的死亡人数更高但确定性较低。虽然这种保守的方法可能导致这些较少发生的事件的预测略微偏高，但在操作上是有利的，因为它有助于防止在其他情况下严重低估死亡人数。

图6中显示的性能不对称性——HDUF的优越性表现为指数级的增长，而其对NUF的“损失”则很小——突显了敏感性和鲁棒性之间的根本权衡。NUF表现更好的事件（例如，在<24小时内死亡人数迅速达到约1000人的事件）并不代表HDUF逻辑的失败，而是复杂且鲁棒的模型在面对可能具有误导性的早期数据时需要承担的“代价”。对于操作性应急管理来说，这种“保守偏见”更为可取：显著低估死亡人数（NUF的已知失败模式）比对于一个迅速稳定的事件保持稍微宽泛、更为谨慎的估计要糟糕得多。

需要进一步的研究来理解最终报告的死亡人数X∞与总死亡人数（Y∞）之间的典型关系，以及它们与预测的总死亡人数N∞之间的关系。然而，引入这种额外的总损失不确定性引入了预测模型直接模拟实际总死亡人数的认知不确定性。这种扩展可以进一步推广到其他相关量，如地震引起的伤害、保险成本和所需援助。如果能够准确建模，报告的死亡数据可以用来改进这些变量的早期估计。

HDUF中的预测不确定性主要由三个来源驱动：（1）关于最终计数的参数不确定性；（2）观察噪声，它解释了媒体报告趋势的方差；（3）残差过程（相关性），它捕捉了错误的时间依赖性。随着更多报告的摄入，参数不确定性的贡献减小，剩余的不确定性主要由残差过程噪声控制。HDUF通过将总不确定性分解为三个相互作用的部分来提高可解释性。首先，通过关于N∞和T95的层次先验捕捉认知不确定性，反映了我们对类似事件的历史知识。其次，由相关长度Λ控制的残差过程解释了媒体报告的结构依赖性，确保报告的“爆发”不会导致过早收敛。第三，随机观察噪声表征了实时数据更新的固有波动性。通过整合这些部分，该框架确保了由于数据缺乏而导致的早期不确定性适当较大，而后期不确定性准确反映了报告过程中的剩余抖动，而不仅仅是模型偏差。

类似于Y∞、X∞和N∞之间的区分，与报告的死亡人数相关的时间戳也带有显著的不确定性。有几个因素导致了这一点，包括死亡人数更新向媒体的传播方式、从媒体传递给公众的方式，以及通过网络抓取技术收集的方式。此外，维护死亡人数和时间戳的历史记录具有挑战性，因为媒体来源经常用新的数字替换旧数字——有时更新新的数字和时间戳，有时保留旧的时间戳和新的死亡人数。最近的努力试图通过结合网络抓取和大型语言模型的自然语言处理来自动化收集报告的死亡数据[18]。虽然仍需要人工监督来确定多个报告中的哪个最可靠，但自动化的网络抓取方法有助于标准化死亡数据的收集。

尽管当前的HDUF使用媒体报告的数据显示出显著的改进，但仍有可能进行其他改进。首先，区域适应可以涉及调整报告率先验，以反映灾难通信中的特定行政或文化差异。其次，通过根据来源可靠性对报告进行加权来更细致地处理数据质量，可以进一步减少噪声。最后，该框架非常适合整合实时地面观察数据，如震动图或建筑物损坏评估作为次要证据。通过将社会报告与物理传感器数据融合，即使在通信中断的情况下，模型也能保持准确性，将HDUF从一个媒体跟踪工具转变为一个全面的多源数据融合引擎，用于灾难响应。

该模型的主要用途是在事件发生后的“前72小时”时间框架内。用户应使用后验分布的95%上限进行最坏情况资源规划（例如，城市搜救部署），而中位数估计则代表最可能的影响情景。在12小时窗口内稳定的中位数通常表明模型具有较高的置信度。该框架在报告基础设施有限的地区的鲁棒性根植于残差过程与层次先验之间的关系。在记录良好的地区，一致的数据使可能性迅速占据主导地位，从而缩小了不确定性。然而，在报告碎片化的地区，残差标准误差（Θ）和时间相关性（Λ）捕捉了潜在的噪声和数据频率的缺乏。在这些情况下，HDUF进行了“安全检查”：如果早期报告高度不一致或稀少，模型会防止95%可信区间崩溃。这防止了过度自信的偏见，确保预测的死亡人数范围包括了更高影响的情景，直到可以摄入更可靠的地面真实数据。

8. 结论
我们提出了一个高维更新框架（HDUF），它更好地捕捉了最近和过去地震中报告的死亡人数趋势的变异性。特别是，HDUF能够准确模拟[13]框架（NUF）表现不佳或无法提供有用总死亡人数估计的一部分事件的报告死亡人数趋势。我们使用各种留出未来数据的交叉验证（LFO-CV）方案来评估预期的对数预测密度（ELPD），这些方案提供了一个单一值分数，以便直接比较两种更新框架。允许总死亡人数与最终报告的死亡人数之间有额外不确定性的扩展，使得最终计数估计更加准确，且不那么依赖于损失预测曲线。随着NLP方法用于自动化死亡人数报告的收集，我们正在努力标准化报告收集过程，并评估报告的及时性，允许包括报告时间中的不确定性。随着未来地震中更密集的报告损失数据的出现，这种标准化的数据收集方法可以更好地调整先验分布。总体而言，这项工作突出了建模死亡报告过程中涉及的复杂性，并展示了HDUF作为协调这些复杂性的手段。HDUF能够为非典型的死亡报告模式提供合理的估计，同时在与NUF预测行为更为吻合的事件中保持出色的性能，从而提高了其总体死亡估计的可靠性。我们评估了应用于2023年土耳其/叙利亚地震的死亡更新框架中的马尔可夫链蒙特卡洛（MCMC）后验参数实现的收敛性。对于不同数量的更新报告，我们生成了16,000个HDUF随机变量参数的后验实现。为了评估收敛性，我们使用不同数量的实现子集（125、250、500、1000、2000、4000和16,000个）计算了每个参数的标准误差。标准误差是通过将参数实现的样本标准差除以样本大小的平方根来计算的。结果标准误差在图9中展示了不同参数、MCMC样本量和报告数量的情况。如图所示，所有参数的标准误差随着MCMC实现数量的增加而一致地减小（在对数尺度上），这与报告数量无关。这表明蒙特卡洛方法的表现符合预期。

下载：下载高分辨率图像（325KB）
下载：下载全尺寸图像

图9. 不同死亡报告数量下2021年海地7.2级地震的MCMC后验参数实现的标准误差收敛性

本手稿仅用于科学同行评审的目的。其内容是讨论性的和预决策性的，因此不得由评审者披露或发布。由于该手稿尚未获得美国地质调查局（USGS）的出版批准，它不代表任何官方的USGS发现或政策。

**作者贡献声明**
Davis Engler：写作——审阅与编辑、写作——初稿撰写、可视化、验证、软件开发、方法论、调查、形式分析、数据管理。
Kishor Jaiswal：写作——审阅与编辑、写作——初稿撰写、可视化、验证、监督、项目管理、方法论、调查、概念化。
Mahadevan Ganesh：写作——审阅与编辑、写作——初稿撰写、监督、软件开发、资源管理、项目管理、方法论、概念化。

热点排行