《Ecological Modelling》:Strategies for calculating confidence limits in forest inventories
编辑推荐:
准确置信区间估计对可持续森林管理和环境监管至关重要。本研究通过广泛模拟,评估了四种统计方法(t-Student、百分位Bootstrap、Jackknife-z、中位数变体)在估计置信限时的稳健性。数据库包含64种情景(2植被类型、2样本分布、4样本量、4变异性水平),额外测试28种Gamma和Weibull分布情景。结果表明,传统t-Student方法(A)在正态、对数正态、伽马和韦伯分布中均保持最佳覆盖精度(85.5%-96.0%),显著优于其他方法,尤其在n=5小样本时优势明显。中位数变体(D)存在较大偏差,Bootstrap(B)和Jackknife-z(C)覆盖不足。证明t-Student方法在复杂分布和小样本下仍可靠,无需昂贵计算。
Bruno Oliveira Lafetá | Rafael Gomes Le?o | Ana Clara Gomes de Queirós | Caroline Junqueira Sartori | Natália Risso Fonseca | Ivan da Costa Ilhéu Fontan
巴西米纳斯吉拉斯联邦大学(IFMG)林业工程系,S?o Jo?o Evangelista校区,Primeiro de Junho大街1043号,Centro,39705-000,S?o Jo?o Evangelista,MG
摘要
在可持续森林管理和环境监管中,准确的体积置信区间对于规划和决策至关重要。本研究通过大量模拟评估了用于估计置信限的统计方法的稳健性。数据库包含了来自64种情景的模拟数据集,这些情景结合了两种植被类型、两种样本分布(正态分布和对数正态分布)、四种样本量(5–20个单位)以及四种变异性水平。使用伽马分布和韦伯分布,在另外28种情景中评估了方法的泛化能力,以模拟湿润森林的条件。置信限(90%概率)通过四种方法进行估计:(A) 经典t-Student方法;(B) 百分位数自助法(Percentile Bootstrap);(C) Jackknife-z方法;以及(D) 基于中位数的方法A的变体。我们的结果表明,经典方法A具有更强的稳健性。它在所有分布下都能始终提供接近名义90%水平的覆盖概率,包括对称分布(正态分布)、正偏态分布(对数正态分布、伽马分布)和负偏态分布(韦伯分布)。即使在最小样本量(n=5)的情况下,方法A也能保持可靠的覆盖率(85.5–96.0%),而重采样方法显示出显著的覆盖率不足(通常≤85%),基于中位数的方法则引入了较大的偏差。我们得出结论,对于存在采样限制的清查工作,基于经典t分布的方法能够提供最可靠的置信限,且在数据高度变异和非正态情况下无需复杂的计算技术即可实现。这些发现基于受控模拟得出,为研究提供了稳健的方法论框架;将其应用于实际数据时,应考虑目标群体的具体特征。
引言
在森林清查中估计体积的置信区间对于制定关于可持续管理的规划和做出明智的决策至关重要。这些置信区间提供了关于采样精度的定量信息,有助于识别可能与管理目标之间的偏差,并指导不同生产力条件下的预防和纠正措施。
置信区间的下限和上限是从样本中计算出的统计范围,它们共同定义了一个区间,在该区间内真实总体参数具有预定义的概率被包含其中,这一概率被称为置信水平(Mokhtar等人,2023年)。然而,在木质植被清查中,对于不同采样分布计算这些置信区间的影响尚未得到充分阐明。减少清查过程中的采样工作并不能保证子样本均值始终落在计算出的区间内。值得注意的是,忽视样本的代表性和变异性会导致不准确性,尤其是在植被类型内部生物测量不对称性较大的情况下,因为置信区间估计的是总体参数而非子样本均值。
传统上,清查中收集的定量数据的处理依赖于t分布来计算置信区间(Campos和Leite,2017年;Johnson,2000年)。这些置信区间代表了绝对采样误差(或误差范围),通过将表格中的临界t值乘以均值的标准误差来估计。由于t分布是对称的,在正态性假设下,这些区间与样本均值等距(Mokhtar等人,2023年;Zalsha和Wolter,2024年)。
要应用这种经典方法和其他参数化方法,必须事先了解估计量的采样分布(Johnson,2000年;Severiano等人,2011年)。然而,当这种分布未知、不对称或包含异常值时,已经提出了重采样方法作为对不对称性的不敏感替代方案(不对称稳健性),用于构建区间限(Cheung等人,2023年;Mair和Wilcox,2020年)。Jackknife和Bootstrap是通过重采样或对原始数据集进行子采样来进行总体推断的示例程序。
Bootstrap是一种带有替换的重采样技术,它基于从原始样本中抽取的多次重采样生成一个经验分布(Efron,1979年)。百分位数自助法(Percentile Bootstrap)则是一种简单且广泛使用的估计置信区间的方法,该方法利用模拟经验分布的百分位数。例如,通常使用该分布的2.5%和97.5%百分位数来定义95%置信区间(Cheung等人,2023年;Mokhtar等人,2023年;Wang等人,2022年)。
Jackknife方法由Quenouille(1949年)提出,并由Tukey(1958年)改进,它被认为比Bootstrap及其变体计算成本更低、速度更快(Severiano等人,2011年)。Jackknife估计量是通过系统地每次排除一个观测值来获得子样本计算得出的,从而产生比原始数据集更小的子样本(Caro-Carretero等人,2024年)。由于Jackknife-t方法在确定自由度方面存在挑战,Jackknife-z方法被广泛用于构建置信区间(Zalsha和Wolter,2024年)。使用z统计量的原因是Jackknife的渐近性质,即使在非对称分布下,随着样本量的增加也能提供稳健的置信区间近似值(Severiano等人,2011年)。
基于以上内容,测试了以下假设:(i) 基于t分布的传统方法在估计非对称样本的置信区间时是否保持精度?(ii) 在这种情况下,重采样技术是否提供更稳健的估计?本研究旨在评估不同策略在森林清查中计算置信区间的效果,特别是对于不遵循正态分布的样本。
数据集
初始数据库是通过针对不同假设情景的森林清查计算模拟构建的,按照2 × 2 × 4 × 4的组合方案组织。分析了两种植被类型、两种采样分布、四种样本量(样地或采样单元数量,su)以及四种木质成分的体积变异性水平。总共模拟了64种情景,每种情景包含200个样本。
典型塞拉多(Typical Cerrado)的参考值为30.67 m3 ha?1
正态分布或对数正态分布下森林类型的置信区间
初始数据库在R环境中包含了12,800个模拟的森林清查数据,其中6,400个样本来自正态分布的总体,其余样本遵循对数正态分布。第一种分布的平均偏度系数为0.01(峰度= -0.56),第二种分布的平均偏度系数为0.26(峰度= -0.46)。模拟包括了160,000个采样单元。
在90%概率下,置信区间的下限和上限的离散度随着变异性的增加而增加
讨论
考虑不同植被类型、样本量和变异性的模拟森林清查数据,使我们能够详细分析与具有不同偏度水平的分布相关的置信区间的影响。
在所有评估的统计方法中,正态分布下的置信区间更接近样本均值(见图1和图2),这可以归因于该分布的内在对称性
结论
基于t分布的传统统计方法在估计具有正态分布、对数正态分布、伽马分布和韦伯分布的样本的置信区间时具有稳健性,即使在高变异性和小样本量的情况下也是如此。用中位数代替均值作为中心趋势度量并未提高置信区间的准确性,特别是在样本分布不对称的情况下。
百分位数自助法和Jackknife-z方法在估计置信区间方面显示出潜力
CRediT作者贡献声明
Bruno Oliveira Lafetá:撰写——原始草稿,项目管理,方法论,正式分析,数据管理,概念构思。
Rafael Gomes Le?o:撰写——原始草稿,方法论,正式分析,数据管理。
Ana Clara Gomes de Queirós:撰写——原始草稿,方法论,正式分析。
Caroline Junqueira Sartori:监督,研究,概念构思。
Natália Risso Fonseca:撰写——审稿与编辑,可视化,验证,研究。
Ivan da Costa Ilhéu