缺失数据下广义极值分布的块最大值建模方法及其在环境健康风险估计中的应用

《Environmetrics》：Accounting for Missing Data When Modelling Block Maxima

【字体：大中小】 时间：2026年01月31日 来源：Environmetrics 1.7

编辑推荐：

　　本文提出了一种针对广义极值分布（GEV）块最大值建模中缺失数据问题的新方法。通过引入缺失比例依赖的位置和尺度参数函数，该方法在保持模型简洁性（仅三个参数）的同时，有效校正了因数据缺失导致的块最大值低估偏差。仿真研究和实际应用（海平面涌浪、臭氧污染）表明，该方法在参数估计偏差、回报水平（return level）估计准确性和置信区间覆盖率方面均优于传统忽略缺失或直接删除区块的朴素方法，为环境健康风险评估提供了更可靠的理论工具。

引言：极端事件统计建模的重要性与缺失数据挑战

精准的统计建模在理解极端事件中扮演着关键角色，有助于我们更好地准备和减轻其影响。在环境应用领域，从研究热浪、干旱等天气相关事件，到评估空气污染对健康的影响，存在大量实例。极值分析领域提供了丰富的、具有理论依据的技术，可用于此类场景，并且 importantly，允许对数据中先前未观察到的水平进行预测。

在单变量背景下，一个经典且广泛使用的方法是模拟一系列块中每个块的最大观测值。这些块通常被视为连续的年份，从而产生一系列需要研究的年最大值。极值理论指出，这些块最大值的一个合适模型是广义极值分布。除了提供对极端事件行为的洞察外，该方法还可用于估计回报水平，即在一个特定时间段内预期被超过一次的值，这对应于适当GEV分布的特定分位数。

虽然使用GEV分布对块最大值进行建模的技术常被批评为浪费数据，因为在每个块中只有一个观测值对统计分析有贡献，但在各种应用领域它被常规实施，例如在气候科学和水文学中。此外，与主要的替代方法——峰值超过阈值方法——的最新比较表明，在某些情况下块最大值方法实际上是更可取的。然而，一个实际的问题是如何处理包含缺失值的数据集。这个问题在实践中经常被忽视，尽管在环境设置中经常遇到，但如果忽略它，可能会对结果的可靠性产生严重后果。特别是，如果给定块中的部分数据缺失，则无法确定其真实的最大值是否已被记录。也就是说，在缺失情况下提取的块最大值将小于或等于真实的块最大值；这有可能使我们的统计分析产生偏差，并 crucial 导致回报水平的低估。

虽然块最大值建模中缺失数据的问题在以前的文献中已被承认，但处理这些问题的尝试往往显得有些随意。直到最近，方法主要限于丢弃缺失比例被认为“过高”的块；例如，参见Vandeskog等人，他们对降水最大值使用了混合GEV模型。虽然这是一种合理的方法，与完全忽略问题相比可能减少偏差，但结果可能对被认为可接受的缺失水平敏感，并且一些负向偏差的块最大值仍然存在。此外，由于缺失而移除一些可用块只会加剧通常与块最大值建模相关的数据稀缺问题，从而可能导致估计不确定性增加。Hossain等人也提到了插值和空间池化作为块最大值建模中缺失数据问题的可能解决方案，但他们没有提供太多关于其过程的具体细节。时间序列插值在一般的缺失数据文献中很常见，但这种方法在极值建模的背景下可能存在问题，因为插值被限制在可用数据的范围内。因此不太可能纠正块最大值，并且相同的回报水平低估问题将持续存在。另一方面，空间池化是一种潜在合理的方法，但仅限于有适当数据可用的情况，而这绝非必然。与这项工作独立且同时，McVittie和Murphy也最近考虑了在块最大值建模中处理缺失数据的挑战。他们以模拟极端波浪涌为动机，提出了通过审查和加权似然技术来估计通常的GEV参数。

上述问题为本文提供了动机。我们的目标是开发一种新的GEV模型拟合方法，用于存在缺失数据的情况，避免依赖补充数据集的可用性。我们的方法通过考虑每个块中缺失值的比例，对通常的GEV分布进行简单调整。这避免了丢弃任何信息或对可接受的缺失程度做出主观决定的需要，同时仍然为参数和回报水平估计提供了稳健的方法。我们强调，我们在相当理想化的独立同分布数据且缺失为非信息性的设置下工作，但相信我们的方法是解决这一重要问题的合理第一步。

广义极值分布与块最大值建模基础

广义极值分布概述与极值类型定理

本节概述了使用GEV分布对块最大值进行建模的主要思想。这些思想可以追溯到Fisher和Tippett、von Mises和Gnedenko的工作，并已被广泛用于单变量极值建模。

假设我们有n个独立同分布的随机变量X₁, …, X_n，具有共同的分布函数F，并考虑它们的最大值，记为M_n。极值类型定理指出，如果经过适当标准化的M_n的极限分布是非退化的，则它必须属于一个特定的模型类，称为广义极值分布。也就是说，我们假设存在标准化函数a_n> 0和b_n，使得当n趋于无穷大时，有特定的极限形式，其中G(z)是GEV(μ, σ, ξ)分布的分布函数。该分布函数的形式由位置参数μ、尺度参数σ和形状参数ξ定义。

在实际应用中，考虑n趋于无穷大通常不具实用性。相反，这个极限结果通常被当作对足够大的n值的近似。对于这样一个固定的n，可以“撤销”标准化，从而假设块最大值M_n本身近似服从一个GEV分布，其参数是n的函数。为简单起见，在下文中我们去除GEV参数的下标n，对于指定的（大的）n值，令M ~ GEV(μ, σ, ξ)。

块最大值建模方法与回报水平估计

使用GEV分布对最大值进行统计推断需要随机变量M的多个观测值。假设我们从底层变量开始有N个观测值，通常称为原始数据。标准方法是将这些值分成m个连续且不重叠的块，每个块长度为n，并考虑每个块中的最大值。这些值统称为块最大值。

对于环境应用，通常取块长度为一年。例如，如果原始数据是在日尺度上测量的，则对应于n=365（或闰年n=366）。这样做的原因是此类数据通常表现出季节性，但在获取年块最大值的过程中可以消除这种季节性，并且对这些值的GEV假设通常仍然是合理的。如果年块长度不足以满足极限结果，则可以考虑每个块包含多年，但需要权衡这会减少m的值，从而增加估计不确定性。在这种情况下，还应仔细选择块之间的断点，使得最大值通常出现在每个块的中心附近，减少某些块最大值依赖的可能性。

给定块最大值的观测值，可以使用多种技术来估计GEV分布的参数，例如通过最大似然估计或贝叶斯方法。

进行块最大值建模的目的通常是评估极端值的行为或发生情况，通常是在超出先前观察到的水平。一个有用的量是回报水平，可以将其视为在指定数量的块（称为回报期）中预期被超过一次的值。假设我们对对应于T块的回报期感兴趣，将相应的回报水平表示为z_T。T块回报水平z_T在任何单个块中被超过的概率为1/T，因此是感兴趣GEV分布的1-1/T分位数。

通过将方程中的GEV模型参数替换为其估计值，可以获得回报水平估计值。在频率论设置中，一种等效方法是相对于z_T对对数似然函数进行剖析，并直接最大化结果函数以估计所需的回报水平。由于置信区间估计更可靠，剖析通常比标准似然推断更受青睐。

处理缺失数据的GEV模型扩展：新策略与诊断

缺失数据问题的说明与通用策略

为了强调在块最大值建模背景下仔细考虑处理缺失数据的必要性，我们从一个使用标准GEV方法的例子开始。

我们模拟来自标准指数分布的原始数据，取m=50个块，每个块长度n=90；这些数据显示在图的左面板中。提取块最大值，并拟合GEV分布，得到估计的GEV密度。在这种情况下，估计的GEV参数是(μ, σ, ξ)。然后我们随机删除50%的原始数据，并在缺失情况下重新计算50个块最大值。这些受缺失影响的块最大值的GEV拟合结果显示在图中，GEV参数估计现在变为(μ', σ', ξ')。

在缺失情况下，很明显，块最大值的负偏差导致了有偏差的GEV拟合，在这种情况下尤其通过位置参数表现出来。这将导致相应回报水平的低估，并证明了在块最大值建模中忽略缺失数据的风险。在本节的其余部分，我们提出了一种解释这种缺失的方法。

设n表示最大块大小，即无缺失情况下的块大小，并回顾m表示可用块的数量。我们认为底层随机变量X是独立同分布的，因此当n足够大且无缺失时，我们做出标准假设，即块最大值M服从分布函数为G的GEV分布。

现在让k_i表示第i个块中非缺失观测值的数量，其中i=1, …, m。我们假设在每个块中，观测值是完全随机缺失的。缺失机制可以在块之间变化，但必须是非信息性的，这意味着观测值是否缺失不依赖于其值。受前述假设的推动，我们处理块最大值建模中缺失数据的一般方法是允许GEV位置和尺度参数依赖于k_i值，即让参数是k_i的函数，而形状参数ξ保持不变。在实践中，这种方法要求已知每个块的非缺失观测值数量，例如通过访问带有缺失数据标志的原始数据。

考虑到在极限假设中可能出现的各种标准化函数，一种可能性是对函数施加灵活的非线性参数形式，例如利用Box-Cox函数。这使我们可以将缺失数据问题视为回归任务，将非缺失值的数量作为协变量。在我们的研究中，我们发现这是一种有前途的方法，但也有一些缺点。首先，为了参数的可识别性，我们需要在各个块中观察到一定范围的缺失比例，这并不总是有保证的。此外，取块最大值本身会导致观测值数量有限；在环境应用中，拥有大约30-50年的时间序列并不少见，增加模型参数数量会使估计变得更加困难。最后，我们发现与标准GEV方法相比，这些回归类型模型的估计在计算上要慢得多，如果要在实践中采用，这是一个缺点。

或许可以改进上述方法以解决所强调的问题，但这有过分复杂化方法的风险。相反，我们提出了一种替代方法，它避免了引入额外的模型参数，同时仍然考虑了每个块中的缺失量。

一种更简约的调整方法与诊断图构建

作为缺失数据问题的一种更简约的解决方案，我们提出直接从k_i推断每个M_i的近似分布。这种近似允许我们利用GEV分布的极大稳定性。进一步的直觉来自于考虑，对于大的n，块最大值M的分布可以近似表示。因此，当第i个块中只有k_i个观测值可用时，我们应该考虑调整后的块最大值分布。我们证明了这个假设等价于让M_i遵循一个GEV分布，但具有缺失依赖的位置和尺度参数，其具体形式由特定的函数关系给出，涉及参数μ, σ, ξ以及块内观测数量k_i与总块长n的比例。

重申一下，这个模型比概述的通用方法有一个好处，即它只涉及三个参数。因此，它并不比标准GEV模型复杂，但允许在块最大值建模中适当考虑缺失的水平。我们注意到，位置参数采用了一种Box-Cox类型的形式，突出了与上面提出的更通用方法的进一步联系。

我们建议使用标准的基于似然的技术进行估计，并在适当的情况下使用剖析。回报水平估计可以通过考虑相应调整后分布的相關分位数来获得。尽管这种方法很简单，但在模拟研究中，我们显示其性能在与无缺失数据的理想情况相比具有竞争力，并且比完全忽略缺失的朴素方法有显著改进。

为了进行模型检查，我们建议调整R包ismev中为通常的GEV分布提供的视觉诊断工具。这些包括四个图：PP图、QQ图、回报水平图和密度直方图。

在我们的设置中，构建PP图很简单，因为第i个块中观测最大值的模型累积概率就是该观测值在调整后的GEV分布函数下的值。让这些值有序排列，PP图由点构成。众所周知，在研究极值时，PP图可能没有帮助，因为对最大值的拟合问题被隐藏了。QQ图和回报水平图克服了这个问题。在缺失情况下，观测到的块最大值通常不是同分布的，因此为了构建其余图形，我们建议首先通过匹配相关GEV分布的分位数，将观测到的块最大值缩放到等效的完整块最大值。第i个块的调整后块最大值通过一个变换函数得到，该函数利用估计的参数和块内观测数比例。

一旦获得调整后的块最大值，其余诊断图的构建照常进行。对于QQ图，我们考虑调整后块最大值的有序版本，并绘制点。在PP图和QQ图上，我们都添加了点状带，由有序统计量的相关分位数和拟合的GEV分布给出。对于QQ图，标准化观测块最大值到完整块尺度的另一种方法是调整绘制在x轴上的经验点的位置。两种方法可能得出相似的结论，我们更倾向于考虑标准化的块最大值，因为它们也有助于生成回报水平图和密度直方图。

对于回报水平图，我们遵循与Coles类似的方法，但我们的水平轴表示特定的函数，垂直轴仍然显示方程中相应的回报水平。我们对水平轴上的标签做了一个小的调整，显示回报期T的选定值，而不是其函数。这对于大的T近似等效于ismev方法，但也允许我们准确地表示小T的回报期。这样做，我们保留了Coles中直线对应的特征，同时提供了回报期和回报水平之间更清晰的联系。基于剖析的95%点状渐近置信区间也添加到回报水平图中，以帮助比较建模结果和经验结果。

最后，我们的密度直方图简单地由点构成，并叠加一个参数为(μ, σ, ξ)的GEV密度，相当于图中右面板的图。

所有四个图的解释都以通常的方式进行。例如，我们将新模型拟合到图中的缺失影响块最大值数据，获得参数估计和诊断图。PP图和QQ图上的点都靠近对角线，后者仅在最大分位数处有轻微偏差。这些表明模型拟合良好的迹象得到了回报水平图的支持，其中所有经验点都靠近建模的回报水平线，并位于相关的置信区间内。估计的密度也很好地匹配了直方图的形状。作为对我们提出的方法性能的最后检查，我们将估计的密度函数添加到图的右面板中。显然，在这种情况下，我们已经在纠正缺失引起的偏差方面取得了很大进展。我们在模拟研究中提供了对我们方法更彻底的评估。在我们的数据应用中提供了进一步的诊断图示例。

模拟研究与实际案例应用验证

模拟设置、比较方法与性能评估

我们考虑原始变量X的四种不同分布。这些是标准指数分布、标准高斯分布、自由度为2的学生t分布和Beta分布。对于前两种选择，极限收敛导致形状参数ξ=0的GEV分布，第三种ξ>0，最后一种ξ<0，因此这些分布一起允许我们研究一系列不同的尾部行为。在每次迭代中，我们模拟m=50个长度为n=90的块，代表来自单个季节的日数据，时间序列的总长度在实践应用中合理可见。

对于我们的缺失机制，我们为每个块独立地从均匀分布生成一个缺失比例。然后，我们完全随机地从该块中删除这个比例的观测值。总体而言，这导致大约10%的原始数据被屏蔽，但缺失比例在块之间变化；这又是一个现实场景。

我们应用第3节中提出的方法来估计GEV模型参数和100块回报水平，以及它们相关的基于剖析的置信区间。将这些结果与四种替代方法进行比较。第一种是朴素方法，完全忽略缺失拟合GEV分布；第二种是丢弃缺失值超过10%的块，然后照常拟合GEV分布。我们将我们自己的方法称为“调整”。我们还考虑了McVittie和Murphy最近研究产生的两个估计量，他们使用加权的GEV对数似然，第i个块的最大值贡献乘以一个依赖于块内观测数比例的权重。第一种加权方案使用一个权重，第二种使用另一个权重。对于每种加权方案，缺失值数量越大，权重越小。

模拟结果展示了估计量的抽样分布。我们的调整产生的图与基于完整数据集的图非常相似，并且对真实回报水平的估计偏差相似。我们的调整估计量精度较低，直方图显示估计值的分布略广，中位数和均值线相距稍远。考虑到因删除观测值而损失的信息，这是合适的。在学生t分布的情况下，“完整”和“调整”方法都产生近似中位数无偏的估计量，但其抽样分布的正偏态导致均值高于真实回报水平。

正如预期的那样，朴素估计量倾向于相对于“完整”方法低估，但在学生t分布情况下，其均值近似等于真实值。“朴素”方法的估计值比我们的调整产生的估计值变化小，但这种明显的精度是误导性的，因为它基于最大值来自完整原始数据块的假设。“丢弃”方法图的主要特征是估计值比其他方法更可变，这是由于样本中信息减少所致，并且表现出更强的正偏态，特别是在学生t分布情况下，存在一些非常大的回报水平估计值，导致估计量的估计均值远大于其估计中位数。此外，对于少量模拟数据集，一旦块最大值被丢弃，寻找最大似然估计量失败，因此这并不总是一种可靠的方法。

McVittie和Murphy的两种加权似然方法产生了不同的结果。通常，他们的“权重1”方法产生的结果与完全忽略缺失的朴素方法相似。另一方面，他们的“权重2”调整是相当成功的，但就中位数偏差而言，在所有情况下都优于我们的方法。

关于GEV参数推断的表格显示了我们的调整导致比所有其他方法更好的推断，在意义上更接近从完整数据集获得的推断。例如，对于我们的方法，位置参数μ的估计通常非常接近完整数据集的估计。“权重2”方法的尺度参数σ的估计也相当接近完整数据结果，但表现出一些正偏差，其幅度通常大于我们的方法结果。“朴素”和“权重1”方法表现出强烈的负偏差，“丢弃”方法也是如此，尽管程度较轻。估计的标准差对于四种方法非常相似，跨越所有三个GEV参数；例外是“丢弃”方法，它通常具有更大的标准差结果。

关于100块回报水平的表格证实了图的主要发现，即我们的调整产生的估计100块回报水平在平均值上与基于完整数据集的回报水平相似，但可变性更大，反映了数据缺失的事实。“朴素”方法往往导致比我们的方法更大的偏差，而丢弃块最大值导致可变性增加。“权重1”方法再次与朴素方法非常相似，而“权重2”方法更成功，但通常比我们的方法偏差更大。在学生t分布情况下，朴素方法在偏差方面优于其他方法，但在使用中位数偏差判断时是最差的。其原因可以从支持信息中推断。在学生t分布情况下，100年回报水平估计量的抽样分布比其他情况更强烈地正偏，因此这些抽样分布的均值远大于其中位数。对于我们的调整，抽样分布的中位数略小于真实回报水平，并且接近回报水平的次极限近似，但其均值大得多，因此存在正偏差。相比之下，使用“朴素”方法时没有向上调整，导致其抽样分布的均值更接近真实值，但其中位数小得多，导致相对较大的负中位数偏差。我们的调整产生的基于剖析的95%置信区间，其估计覆盖率接近基于完整数据集的覆盖率，而“朴素”和“丢弃”方法的估计覆盖率较低。“朴素”方法的估计覆盖率相对较低是其低估统计不确定性的结果。在指数和Beta分布情况下，“完整”、“调整”和“权重2”方法的覆盖率最接近名义上的95%，但在高斯和学生t分布情况下，“权重1”和“朴素”方法的估计覆盖率分别最接近。

案例研究一：布雷斯特海平面涌浪分析

海平面涌浪分析结果与不同方法比较

由极端天气事件产生的海平面涌浪可能导致生命损失并产生巨大的经济影响，最近海平面上升加剧了这种风险。我们分析了法国布雷斯特潮汐测量站1846年至2007年（共162年）高潮时测量的海平面涌浪高度。这些数据的提供者已对原始数据进行去聚类，以创建一系列独立的海平面涌浪，每个涌浪至少间隔两天，并应用校正来解释海平面的趋势。尽管这种去聚类意味着有效块大小小于一年中的天数，但一年中非缺失原始值的比例应提供一个有用的度量，来衡量相应的年最大值可能受缺失影响的程度。

图显示了每年的最大记录海平面涌浪以及各自的非缺失日观测值数量。许多（113年）年份没有任何缺失数据，但总体而言，大约9%的原始数据缺失。有九年没有记录任何数据，包括1945-1951年，即第二次世界大战期间和之后。对于1857年、1859年、1944年和1952年，超过50%的日值缺失。对于其中三年，年最大值相对较低，但并非异常低。图中的诊断图与我们的新模型相关。总体而言，在考虑缺失后，模型的拟合良好，尽管在回报水平图中，最大观测值位于其95%置信区间的上限之上。

表提供了使用我们的调整（第三列）与忽略缺失的朴素方法（第四列）进行的推断比较。对于这些数据，差异并不显著，但它们与第4节中估计的偏差一致。特别是，对于朴素方法，位置参数μ的估计值（52.27厘米）小于我们方法的估计值（52.89厘米）。使用朴素方法估计的回报水平也略小于进行调整后的估计。表的第六列给出了“丢弃”方法的结果，即丢弃四个日值缺失超过50%的年份，而不进行任何其他调整。正如我们预期的那样，这减少了位置参数μ估计值相对于我们调整的下降量。第五列中的结果是通过删除这四年的数据并应用我们的调整策略产生的。如果我们的调整即使在某些块最大值具有高缺失水平时也能提供合理的调整，那么我们预计第三列和第五列的结果相似，后者的标准误略有增加。这正是我们观察到的。

案例研究二：普利茅斯臭氧水平评估

臭氧数据建模与缺失处理效果对比

众所周知，高水平的空气污染可能对人类健康有害。空气污染的一个被广泛研究的成分是臭氧（O₃），它与慢性呼吸道疾病等病症有关。最近的一项研究表明，臭氧的全球健康相关风险可能先前被低估了。这强调了监测臭氧水平的重要性，估计未来极端值可能有助于缓解努力和指导政策实施。

在第二个案例研究中，我们考虑了1998年至2024年（共27年）在英国普利茅斯测量的臭氧水平。原始数据以微克/立方米（μg m^-3）为单位测量，记录了日最大观测值。总体而言，大约10%的原始数据缺失，每年缺失比例有些变化。在图中，我们显示了每年记录的最大臭氧值，以及各自的非缺失日观测值数量。图中的诊断图与我们的新模型相关。在这种情况下，由于可用的块最大值观测数量少，密度直方图不是最有用的，但其他图证实，当我们考虑缺失时，实现了良好的拟合。

我们在表中提供了我们建模方法对GEV参数和选定回报水平的估计，以及另外三组建模选择的结果。与模拟研究一样，一种选择是完全忽略原始数据中的缺失，并将标准GEV模型拟合到观测到的年最大值。在这种情况下，我们看到相当不同的参数估计，特别是形状参数，将估计的GEV分布从一个具有轻尾、无上界的分布（ξ≈0）变为一个具有有限上界的分布（ξ<0），并突出了未能解释缺失可能导致虚假结果。类似地，使用朴素方法对100年回报水平的点估计是192 μg m^-3，显著低于其他方法的估计。100年回报水平的95%置信区间的上限远低于其他方法的上限，这是强烈负估计ξ的结果。

对于这个数据集，有两年观测值远少于其余年份：2001年有105个日记录，2006年只有50个。可以理解，这些也是观测到块最大值最低的年份，如图中突出显示。与前面的案例研究一样，很自然地研究从我们的分析中删除这些观测值的影响。表也显示了这个减少数据集的参数估计，包括我们的新方法和标准GEV模型。在这两种情况下，点估计都更接近我们最初为我们的提议方法获得的结果，尽管删除一些观测值导致了更大的标准误，并导致回报水平的上置信限大得多。特别是，这些结果支持了ξ接近零的结论，该分布没有有限的上端点。

为了进一步便于比较，我们在图中绘制了所有四种方法的估计GEV密度。我们观察到，如果我们采用标准GEV建模方法并包括所有观测到的块最大值，两个最小的观测值（由于缺失不太可能准确代表真实的年最大值）显著影响结果。从参数估计预期，删除2001年和2006年产生的估计GEV密度与我们的提议方法在两种情况下相似；这在分布的上尾尤其明显，表明它们将导致非常相似的回报水平估计。这强调了我们方法相对于应用于所有27年的标准GEV模型的可靠性，因为对于给定的模型，当删除一些观测值时，我们理想上应该看到稳定的参数估计。它也强调了在块最大值建模中完全忽略缺失的潜在缺陷。为了理解图中的两个最低块最大值对GEV参数和回报水平的估计有如此大的影响，考虑影响函数是有用的，它衡量改变样本中的一个观测值对参数估计量的影响；

尽管删除有问题的观测值并照常拟合GEV分布给出了与我们提议方法相似的结果，但我们的好处是不需要选择可接受缺失的阈值，并且我们不需要依赖这么多年的数据接近完整来获得可靠的结果。考虑到一开始只有27年的数据可用，保留尽可能多的观测值以避免不必要地增加我们估计中的不确定性也是可取的。

讨论：方法局限性与未来扩展方向

本文旨在介绍一种处理块最大值建模中缺失数据的初步方法。我们提出了一个简单而有效的模型，它建立在现有理论的基础上，调整GEV分布以适应具有不同观测值数量的块。我们的模型具有简洁性的优点，因为我们只需要与标准块最大值方法中使用的完全相同的三个参数，但尽管简单，即使在与所有数据都被观察到的理想场景相比也具有竞争力。

我们将我们的贡献视为处理极值背景下缺失数据的第一步，并承认可以进行各种扩展。特别是，我们在可能在某些实际应用中过于严格的假设下工作，即底层数据是独立同分布的，并且缺失是非信息性的。在某些情况下，违反这些假设可能不会影响结果，但在其他情况下，需要进一步的工作来正确建模缺失。我们在下面讨论一些可能的扩展。

违反数据同分布假设的一种方式是通过季节性，这在环境应用中很常见。在块最大值建模中，这个问题通常通过取等于一年长度的块（如果需要证明极限结果，则取一年的倍数）来处理。即使底层数据表现出季节性，GEV分布通常也能为块最大值提供一个好的模型。在我们的情况下，只要缺失水平在一年中大致平稳，同样成立。如果缺失比例在一年中变化，例如，通常具有较高观测值的季节也具有较高的缺失水平，则方程中的模型将被错误指定，再次导致有偏差的参数和回报水平估计。这里的一个选择，通常在极值文献中使用，是将分析仅集中在最可能发生极端事件的年份中的时间，从而在原始数据中实现近似平稳性，同时仍然提供有用的推断。正如我们的模拟研究所见，使用我们的方法可以对对应于单个季节的块实现可靠的推断。对于其他类型的非平稳性，例如数据中的整体时间趋势，在GEV模型参数中包含协变量是常见的；在非信息缺失的情况下，可以在我们的建模框架内使用相同的技术。

独立性假设通常是不现实的，数据表现出短期时间依赖性，导致极值聚集。如果时间序列数据遵循一个平稳序列，满足一个限制依赖性对极值的长期影响的条件，并且其边缘分布适用极值类型定理，那么这些依赖数据的块最大值的极限GEV分布仍然出现。因此，即使预期存在短期依赖性，极限GEV分布也常规地用作平稳时间序列块最大值的模型。如果缺失是非信息性的，那么我们期望我们的调整的好处能在这个更一般的设置中实现。我们在支持信息中提供了一个小的模拟研究来进一步研究这一点。事实上，虽然我们的模型由于未能正确解释时间依赖性而引入了一些偏差，但它仍然优于替代方法。进一步研究这个问题并适当调整我们的方法留待未来的工作。

在环境应用中也很可能发生信息缺失，但这在我们当前的方法中没有考虑。很容易想象这样的情况：最极端的事件是最难可靠记录的，例如，流量计被快速流动的水损坏，并且需要能够捕捉这种现象。为了解释这一点，可以尝试明确地对缺失机制进行建模，并将其纳入GEV模型。一种选择是采用基于回归的方法，利用有助于解释值是否缺失的协变量。

我们将注意力集中在单

热点排行

新闻专题