过离散多项数据的多重比较：方法评估与在毒理学和流式细胞术中的应用

《Pharmaceutical Statistics》：Multiple Comparisons With Overdispersed Multinomial Data: Methods, Properties and Application

【字体：大中小】 时间：2026年01月21日 来源：Pharmaceutical Statistics 1.4

编辑推荐：

　　本文系统评述了针对聚类多项数据中过离散（overdispersion）问题的多重比较校正方法。研究通过模拟实验比较了四种拟似然估计量（quasi-likelihood estimators）和狄利克雷-多项（Dirichlet-multinomial, DM）模型在控制族系错误率（family-wise error rate, FWER）、统计功效（statistical power）和覆盖概率（coverage probability）方面的表现。结果表明，Afroz估计量在需要严格错误控制时表现最佳，而DM模型（MGLM实现）在追求高统计功效时更具优势。文章还探讨了零计数类别的处理策略，并通过毒理学和流式细胞术的真实数据集验证了方法的稳健性。

摘要

过离散是聚类多项数据分析中的常见问题，若不妥善处理会导致标准误估计偏差并损害统计推断的可靠性。本研究描述了一套完整的流程，用于构建感兴趣的多种比较并对聚类且可能存在过离散的多项数据应用多重性校正。我们研究了四种拟似然估计量和一种狄利克雷-多项模型以处理过离散。通过模拟研究，我们在多种情境下评估了这些方法的性能，重点关注族系错误率、统计功效和覆盖概率。我们的研究结果表明，当需要严格的错误控制时，推荐使用Afroz拟似然估计量；而当追求较高的统计功效时，狄利克雷-多项模型更可取，尽管其对假阳性的容忍度略高。此外，我们还解决了组内零计数类别的挑战，证明加入伪观测值可以有效缓解相关的估计困难。对来自毒理学和流式细胞术的真实数据集的实际应用突显了这些方法的稳健性和实用价值。

1 引言

分类数据广泛收集于临床实验、毒理学、基因组测序、流行病学以及生命科学与社会科学等多个研究领域。例如，在临床前研究中，实验动物的组织样本损伤可能被分为多种组织病理学类别，而临床或临床前试验中的细胞样本可通过视觉评估或流式细胞术分为众多类别。此类数据通过将每个实验单元的状态分类到几个不同类别之一而得出。本研究侧重于名义数据，即文献中常称的多项数据。

此类研究中的典型目标是估计和比较不同实验或观测条件下每个类别的相关概率。当存在多个感兴趣的对比时，可能会检验多个假设，从而导致多重检验问题。在此推断问题中，Schaarschmidt等人描述了构建同时置信区间的渐近方法。

一个常见的挑战是过离散，即变异性超过基本多项模型预测的方差。忽略过离散会导致有偏的标准误、过窄的置信区间以及可能无效的结论。导致过离散的原因很多，从复杂的数据收集程序到个体响应之间的内在相关性。建议在证明不存在之前先假定存在过离散。

存在多种方法可适应多项数据中的过离散。拟似然方法通过一个乘性因子扩展方差，该因子量化了离散程度并可从数据中估计。此外，扩展分布，如狄利克雷-多项分布和其他复合分布，本身就能解释过离散。其他方法涉及利用混合模型通过纳入随机效应来处理过离散，或应用广义估计方程。

本文扩展了Schaarschmidt等人的工作，研究了处理多项数据过离散的各种方法，并将这些调整纳入多重比较程序，以得出经过适当调整的p值和同时置信区间。

2 方法

2.1 数据结构

考虑一个完全随机设计，有g个不同的处理组。因变量是名义变量，代表每个组中可被分配到几个类别之一的实验单元的计数。每个实验单元属于一个聚类，这可能导致聚类内的观测值不独立。

2.2 感兴趣参数

分析此类数据通常涉及基于比值比的对数变化比较组别。根据不同科学问题，不同的比较或参数可能令人感兴趣。根据Schaarschmidt等人，给定组内一组感兴趣的比值对数可以使用对比矩阵来定义。随后这些比值在组间的比较会产生对数比值比。

2.3 过离散

在分析多项数据时，经常观察到数据中的变异大于多项模型预期的变异，即过离散。过离散可能由多种因素引起，包括未观察到的异质性、实验变异性的额外来源或固有的模型缺陷。它也可能源于聚类内实验单元之间的相关性，而这在基本的多项框架中未被考虑。

几种方法可用于解释多项数据中潜在的过离散。这些包括拟似然方法和替代或扩展分布，如狄利克雷-多项分布。在本研究中，我们评估并比较了四种拟似然估计量以及作为处理过离散的参数化方法的DM分布。

在拟似然框架内，估计一个离散参数来量化数据中观察到的额外方差并相应缩放方差。除了拟似然方法，DM分布为处理多项计数数据中的过离散提供了一种参数化替代方案。

2.4 估计

为了拟合普通多项模型并估计其参数，我们使用VGAM包中的vglm函数。本研究比较了四种拟似然估计量。第一种由Wedderburn提出，基于Pearson的χ2统计量，由全模型的自由度归一化。第二种基于偏差统计量计算。另外两种由Afroz等人描述，结合了自由度调整。

DM模型通过固有地解释数据中的过离散引入了一层额外的复杂性。在vglm函数中，使用参数family = dirmultinomial来假定数据服从DM分布。

2.5 多重比较调整

如第2.2节所述，可以进行组间关于类别比值对数的比较。这些比较涉及检验参数向量的某个元素是否偏离指定值（通常为零）。我们使用Hothorn等人的方法，该方法适用于假设检验中的p值调整以及为参数生成同时置信区间。

3 模拟研究

3.1 模拟设置

进行了一项全面的模拟研究，以研究所描述完整程序的性质。比较了四种拟似然方法和两种DM模型。模拟保持了3个类别和4个处理组。考虑了60种不同情境，其中类别的真实比例在处理组间恒定或变化。

3.2 模拟结果

图1展示了按方法分层、跨所有情境、参数设置和两组比值比的族系错误率。总体而言，普通多项模型显示族系错误率随离散度增加而增加。结合过离散使用拟似然方法导致估计量之间不同的行为。Afroz、Pearson和Farrington估计量能一致控制族系错误率。关于DM实现，VGAM版本对离散度不敏感，但经常无法充分控制族系错误率。相比之下，MGLM实现表现更好。

图2比较了Pearson、Afroz和Farrington拟似然估计量与DM模型的统计功效。功效结果与先前关于族系错误率的观察基本一致。与DM模型相比，Afroz估计量在离散度约为1时具有更高的功效，而DM模型在离散度高于1时 consistently 具有更高的功效。

一项额外的模拟调查了在最初缺乏观测值的类别和组中，向随机选择的聚类添加单个观测值的效果。对于拟似然估计量，数据集修改通常会导致功效提升。DM模型同样受益于修改，通常表现出更大的功效提升。

补充模拟进一步评估了方法的稳健性。引入可变的聚类大小对族系错误率控制影响最小。然而，模拟组间异质性离散导致拟似然方法的族系错误率膨胀。当数据生成过程改为逻辑正态多项分布时，所有方法都表现出 substantially liberal 的族系错误率。

4 实际数据应用

4.1 示例1：血细胞分类计数

第一个例子涉及一项关于大鼠白细胞计数的毒理学研究。该研究比较了四个处理组：一个对照组和三个暴露于不同剂量毒素的组。主要研究问题是，在雄性和雌性大鼠中，不同白细胞分类的比例在对照组和毒素剂量水平之间是否存在显著差异。

4.2 示例2：发育毒性

该数据集源自美国国家毒理学计划关于母体毒性的研究。目的是探讨DYME对胎儿发育和后代存活的影响。后代被分类为存活、畸形或死亡。

4.3 示例3：四种细胞类型的流式细胞术计数

在本例中，利用流式细胞术分析不同处理组的细胞特性。实验涉及四位供体。为了展示回答广泛问题的能力，我们假设对两种培养基类型之间以及两种培养类型之间的比值比较感兴趣。

5 讨论

本文强调了在分析聚类多项数据时，处理潜在过离散和进行多重比较调整的重要性。我们采用了Schaarschmidt等人的方法，并通过使用拟似然框架中的四种离散参数之一或使用DM模型来结合潜在的过离散，对此进行了扩展。

我们的主要模拟结果表明，四种离散估计量表现出相似的性质。除了偏差估计量，其他所有估计量在我们研究的大多数情境和设置中都能有效控制族系错误率。然而，DM模型的性能取决于所使用的实现。

我们的功效模拟表明，即使存在高度过离散，使用所有离散估计量也能实现高功效。Pearson估计量通常表现出最高的功效，其次是Farrington估计量。Afroz估计量虽然功效稍低，但在估计离散参数时偏差最小。

我们还调查了违反假设和可变聚类大小的影响。当聚类大小根据泊松分布变化时，拟似然和DM方法的性能与主要发现基本一致。然而，引入组间异质性离散揭示了潜在的局限性。

目前，在处理过离散多项数据时，计算感兴趣的多种对比并应用多重性调整的过程尚未在R中直接实现。因此，我们在GitHub上提供了示例分析和模拟研究的自定义代码。

在整篇文章中，我们专注于控制族系错误率的多重比较程序。这一选择是由确证性研究中的应用所驱动的。在其他更具探索性的背景下，控制错误发现率可能提供一种更有效的替代方案。

在本文中，我们通过采用在聚类水平上解释过离散的模型，解决了多项数据中的超额变异问题。社会和行为科学中一个替代且互补的观点将超额变异归因于个体水平上未观察到的异质性。

在我们的模拟和实际数据分析中，类别组内的零计数通常会导致极端估计量和膨胀的标准误。类似地，我们研究了在零计数组内向随机聚类添加一个计数的效果。我们承认这种实用方法具有临时性元素。虽然这些方法在理论上更优越，但它们在过离散多项框架内进行同步推断的应用和验证非常复杂，超出了本文的范围。

我们的模拟仅限于涉及三个类别和四个组的情境，因此方法在涉及更多类别的情况下的性能仍不确定。增加类别数量可能会加剧计数稀疏的问题，需要进一步研究。

总体而言，所有呈现的方法都能够处理具有附加子结构或协变量的更复杂模型。然而，在此类模型中为多重比较定义合适的对比矩阵可能很快变得具有挑战性。

摘要