计算效率高的贝叶斯捕捉-标记-重捕模型(考虑物种迁移现象),应用于人工饲养的非洲企鹅的生存研究
《Methods in Ecology and Evolution》:Computationally efficient Bayesian capture–mark–recapture models with transients, applied to survival of hand-reared African Penguins
【字体:
大
中
小
】
时间:2026年05月11日
来源:Methods in Ecology and Evolution 6.2
编辑推荐:
**摘要**
标记-重捕模型是估计野生动物种群参数的主要框架。复杂的生命历程和采样过程要求使用复杂的模型公式,但这些模型容易受到实施错误和意外偏差的影响。模拟是诊断潜在问题的强大工具,但随着模型和数据规模的增加,基于模拟的模型评估的计算成本可能会阻碍其使用。在标记-重捕研究中,
**摘要**
标记-重捕模型是估计野生动物种群参数的主要框架。复杂的生命历程和采样过程要求使用复杂的模型公式,但这些模型容易受到实施错误和意外偏差的影响。模拟是诊断潜在问题的强大工具,但随着模型和数据规模的增加,基于模拟的模型评估的计算成本可能会阻碍其使用。在标记-重捕研究中,一个常见的现象是“短暂存在个体”:只被捕获一次的个体数量超过了模型的预期。为了避免对存活率估计产生偏差,应该考虑这些短暂存在的个体。混合模型提供了一种灵活、可扩展且易于解释的方法来处理这个问题,但目前将短暂存在个体纳入多事件模型的实现可能需要很长时间才能完成对于大规模数据集的计算。在这里,我们描述了一种新的似然计算方法,用于短暂存在个体的混合模型,该方法允许任何具有高效乘积-多项式似然的多状态模型以几乎不增加额外计算成本的方式考虑这些个体。所得到的“扩展乘积-多项式”(EPM)似然在推断上等同于多事件似然,但拟合速度通常快一个数量级或更多。我们提供了在R和Stan中实现的指南。我们通过一个比较野生抚养和人工饲养的非洲企鹅(Spheniscus demersus)存活率的案例研究来说明我们的方法。借助我们的EPM似然,我们使用模拟来评估模型在考虑数据中的陷阱依赖性和短暂存在个体的同时,区分存活率差异的能力。
**1 引言**
标记-重捕模型通常需要复杂的公式来表示物种的生命历程和产生数据的采样过程。越来越多的情况下,贝叶斯推断被用来处理这些模型,因为它能很好地处理不确定性,并且可以轻松扩展模型,例如,包括随机效应或成为综合种群模型的一部分(Schaub & Kéry, 2021)。像JAGS(Plummer, 2003)、NIMBLE(de Valpine et al., 2017)和Stan(Carpenter et al., 2017)这样的灵活语言使得贝叶斯实现变得可行,但使用定制模型和代码也存在风险。例如,由于参数可识别性弱,模型可能会产生意外偏差,而大型代码库可能会隐藏实施中的错误。为了诊断这些问题,建议在稳健的贝叶斯工作流程中使用基于模拟的模型评估(Gelman et al., 2020; Wolkovich et al., 2024)。其思想是使用一系列参数值在模型下生成许多数据集,对每个数据集进行模型拟合,并将估计值与“真实”参数值进行比较。然而,重复拟合复杂模型在计算上可能非常昂贵,这可能是这些方法在生态学中应用有限的原因之一(DiRenzo et al., 2023)。在标记-重捕分析中,即使定义了相同的统计模型,不同的似然计算也可能具有非常不同的计算成本。例如,多状态模型通常可以使用乘积-多项式(PM)似然进行拟合,这种似然使用所谓的m-数组来减少数据表示(Burnham, 1987; Williams et al., 2002),或者使用“多事件”似然,通过隐马尔可夫模型来模拟每次捕获的历史(Pradel, 2005)。后者更为通用,但前者通常更快,尤其是在有数千个独特捕获历史的情况下。不幸的是,某些类别的标记-重捕模型(尤其是多事件模型)不支持PM似然(Pradel, 2005; Choquet et al., 2009;但参见King & McCrea, 2014)。经常需要考虑数据中的短暂存在个体(Oro & Doak, 2020; Pradel et al., 1997)。短暂存在个体违反了这样一个假设:即在给定情况下被捕获的所有个体都有相同的再次被捕获的概率,无论它们是新标记的还是之前已经被标记的(Genovart & Pradel, 2019; McCrea & Morgan, 2014; Pradel et al., 2003)。这个名称来源于一种导致这一假设失败的机制,即如果有“经过”并仅在某个特定时刻可被捕获的个体访问了目标种群。然而,这个假设也可能通过其他机制被违反,其中一些机制在生物学上很有趣,而有些则仅仅反映了采样过程。前者的一个常见例子是,如果个体作为幼体被标记,它们的存活概率低于较年长的个体。后者的一个例子是个体在一个新地点被标记,对那个地点有很高的忠诚度,但之后没有在该地点进行重新捕获的努力。无论它们的起源如何,短暂存在个体现了一种极端的捕获(或表观存活率)异质性,如果不加以考虑,可能会偏倚对居民存活率的估计(Abadi et al., 2013)。有两种主要的基于模型的方法来处理短暂存在个体(Genovart & Pradel, 2019; Pradel et al., 1997)。第一种也是最常见的是使用自标记以来的时间(TSM)模型,这些模型为新标记和之前被标记的个体指定不同的存活概率。这些模型特别适用于个体总是作为幼体被标记的情况,因为预计它们的存活率会与年龄较大的个体不同。在这种情况下,新标记和之前被标记的存活率具有明确的生物学意义,分别对应于幼体和成体的存活率。在其他情况下,新标记的存活率可能缺乏生物学解释,例如当所有个体都被标记为成体时,这种情况下它可能对应于成体存活率与短暂存在概率的乘积。第二种方法是明确通过混合模型来纳入短暂存在概率(Genovart & Pradel, 2019)。如果短暂存在个体具有生物学解释,或者希望使用协变量或层次先验来建模短暂存在概率,这种方法通常是首选(Genovart & Pradel, 2019)。然而,目前的实现使用多事件模型,这使得它们相对计算成本较高。对于大规模数据集,使用模拟来验证这些模型的计算负担可能将是禁止性的。在这里,我们 introducer 了一种新的似然计算方法,它允许将任何带有PM似然的“基础”模型扩展为考虑短暂存在个体的混合模型,而且对似然计算的成本影响可以忽略不计。我们的“扩展乘积-多项式”(EPM)似然在计算上比现有的处理短暂存在个体的多事件框架方法有显著的优势。结合Pradel和Sanz-Aguilar(2012)对陷阱依赖性的处理方法,我们展示了如何扩展多状态模型以同时考虑陷阱依赖性和短暂存在个体,同时保持PM似比的效率。我们在一个需要大量模拟的案例研究中展示了这种方法的实用性。该案例研究估计了野生抚养和人工饲养的非洲企鹅(Spheniscus demersus)之间的存活率差异。数据显示存在陷阱依赖性和短暂存在个体,且人工饲养和野生抚养的群体在其他方面也有系统性的差异。考虑这些因素需要复杂的标记-重捕模型,这些模型可能具有较差的可识别性和混杂效应。模拟对于评估我们模型估计关键参数的能力至关重要,而我们的EPM似然大大降低了计算成本。我们的论文分为两部分。在第一部分中,我们描述了我们的似然计算方法,将其应用于三个例子,并展示了其在计算上的优势和与现有方法的推断等效性。我们简要讨论了这些例子中最简单的一个的Stan实现,并在我们的在线材料中提供了在R和Stan中实现所有三个模型的详细指南(Christian et al., 2026b; https://github.com/MurrayChr/cmr_transients_examples/)。在第二部分中,我们介绍了非洲企鹅案例研究,重点介绍了单个短暂存在模型的开发、基于模拟的评估和结果。
**2 考虑短暂存在个体的标记-重捕模型**
根据定义,短暂存在个体在初次标记后永远不会被再次捕获,因此其捕获历史只有第一次捕获。然而,单次捕获历史的存在并不直接表明存在短暂存在个体,因为这些历史也可能源于“常住”个体由于(表观的)死亡和未被检测到而产生的。实际上,短暂存在个体的统计特征是相对于模型预期而言单次捕获历史的数量过多。可以使用R2ucare(Gimenez et al., 2017; Pradel et al., 2003)中实现的拟合优度测试来正式诊断短暂存在个体,或者使用后验预测来检查每个群体的单次捕获历史数量。一旦诊断出短暂存在个体,有几种方法可以用来处理它们(Genovart & Pradel, 2019; Pradel et al., 1997)。我们遵循Genovart和Pradel(2019)的方法,该方法规定目标种群是“常住”个体和“短暂存在个体”的混合体。在每次采样时,新标记个体中常住个体的比例由常住概率给出,而短暂存在个体的概率则是其补数。
**2.1 似然计算**
我们考虑一个初始的标记-重捕模型,即基础模型,需要扩展这个模型以考虑短暂存在个体。为了简单起见,我们从一个单状态的基础模型开始,然后指出扩展为多状态模型所需的修改。
**2.1.1 单状态基础模型**
**符号说明**
考虑一组捕获历史。考虑到单次捕获历史的重要作用,我们将它们表示为,下标表示个体属于某个组(即在某个时刻首次被捕获)。我们将索引分为对应于单次捕获历史的和多次捕获历史的,后者在首次捕获后至少有一次再捕获。设为组中个体是常住个体的概率,为个体的常住指示符;因此。
#### 似然计算
首先,我们考虑单个捕获历史的似然,并对其常住状态进行平均:
如果是一个多次捕获历史,它不可能来自短暂存在个体,因此和第二项消失。如果是一个单次捕获历史,它可能来自常住个体,概率为,或者来自短暂存在个体,概率为,因为对于短暂存在个体来说,单次捕获历史是唯一可能的情况。因此,每个个体的似然有两种形式:
所有个体的似然是各个个体似然的乘积,我们将它们分为单次捕获和多次捕获个体的乘积:
在这些乘积中,和是组中所有个体的共同因子。设和分别为组中的单次捕获和多次捕获历史的数量,我们可以重新排列表达式为
这里的 key observation 是,条件于常住状态的概率与没有短暂存在个体的基础模型的概率完全相同。因此,第一个因子中的多次捕获历史可以简化为m-数组,并且它们的似然可以使用PM似本来计算,假设基础模型中存在这样的m-数组。在PM似然所需的单元格概率中包括这些概率,因此它们可用于计算方程(1)中的第三个乘积。在下文中,我们将这种公式称为短暂存在混合模型的EPM似然。
**2.1.2 多状态基础模型**
对于多状态基础模型,还需要考虑初始捕获时短暂存在个体的状态。自然地,我们希望根据这个状态来建模常住概率。例如,如果状态代表不同栖息地质量的地点,那么假设常住概率取决于个体首次被捕获的位置是合理的。为了纳入状态信息,设
为在某个时刻首次在状态中被捕获的个体的常住概率,
为在状态下的单次捕获历史,
为在首次捕获时状态为的组中的单次捕获和多次捕获历史的数量。方程(1)在多状态情况下的类似表达式为
其中最后两个乘积是对状态和组进行的。EPM似尔的计算与单状态情况完全类似,但现在使用多状态m-数组和PM似然(Williams et al., 2002, Chapter 17; Schaub & Kéry, 2021, Chapter 4.5.2.2),假设这些对于基础模型是可用的。
**2.2 实现**
给定基础模型的实现,只需要进行少量的修改即可纳入短暂存在个体。首先,将捕获历史分为多次捕获和单次捕获历史,并计算每个组(以及在多状态情况下的每个状态)的数量。其次,仅为多次捕获数据构建一个m-数组。最后,像在基础模型中一样实施PM似然,并用方程(1)(或方程2)中的最后两个乘积对应的项来调整似然。图1展示了扩展单状态Cormack–Jolly–Seber基础模型的短暂存在混合模型的Stan实现。更多详细信息可以在我们的在线材料中找到,其中包含使用R和Stan实现三个不同复杂度示例的指南,包括对基础模型的概率质量(PM likelihoods)的解释,以及扩展这些模型以纳入短暂存在(transients)所需的所有模型和数据准备代码(请参见https://murraychr.github.io/cmr_transients/examples/ 和 https://github.com/MurrayChr/cmr_transients_examples/)。图1(在图查看器中打开)
Stan代码实现了Cormack–Jolly–Seber(CJS)‘基础’模型的乘积多项式似然(a),以及扩展了基础模型的短暂混合模型的乘积多项式似然(b)。对于这两种模型,最复杂的代码是用于计算多项式单元概率的代码,该代码包含在get_multinomial_probs函数中。为基础模型编写了这个函数后,可以原样重用于短暂混合模型的扩展;有关该函数的详细信息,请参阅我们的在线材料(https://murraychr.github.io/cmr_transients_examples/ 和 https://github.com/MurrayChr/cmr_transients_examples/)。在CJS模型(a)中,代码块如下:(i)数据块声明了年数T和m数组marr,我们在R中计算这些值并在拟合模型时将它们传递给Stan;(ii)参数块声明了随时间变化的检测和存活概率;(iii)模型块指定了先验和乘积多项式似然,使用存储在pr矩阵中的多项式概率。实现短暂混合模型(b)只需要额外几行Stan代码。(i)数据块包括每个队列的单次捕获和多次捕获的历史记录数量。重要的是,这里使用的m数组必须仅由多次捕获的历史记录组成。同样,我们在R中准备数据并在拟合模型时将其传递给Stan。(ii)参数块声明了随时间变化的停留概率pi_r(即短暂存在的概率补数)。(iii)模型块增加了指定停留概率先验的额外一行代码,以及对似然的两个关键修改:第34行和第36行对应于方程(1)中的第二个和第三个因子。更准确地说,语法target += 使用其后的表达式来增加对数似然,这些表达式是方程(1)中第二个和第三个乘积中每个单独因子对数。在对数概率尺度上,这些乘积对应于总和,这是通过将target += 语句放在for循环中的t上实现的。最后,我们注意到第36行的pr[t][T]项表示在初次捕获后队列中的个体不会被再次捕获的概率。
2.3 计算效率和推断等价性
2.3.1 多事件似然
目前,短暂混合模型是使用多事件似然来拟合的(Genovart & Pradel, 2019),该方法将每次捕获历史视为一个隐藏马尔可夫模型,其中状态特定的存活、检测和其他参数在个体间共享(Pradel, 2005)。因此,我们可以互换使用“层次隐马尔可夫模型”(HHMM)或“多事件模型”这两个术语。这些似然是根据转移矩阵和观测矩阵来定义的,分别描述了状态转移概率和状态特定的可观测事件分布。为了纳入短暂存在,状态中包含一个“短暂”状态,该状态在首次捕获后立即转变为“死亡”状态(Genovart & Pradel, 2019)。短暂存在的概率影响了状态的初始分布:当个体首次被捕获时,其潜在状态是“居住”状态的概率为,短暂存在的概率为。在贝叶斯分析中定义多事件似然时,可以选择将每个个体的潜在状态都包含在参数集中,或者对这些潜在状态进行平均以获得边际化似然。当使用马尔可夫链蒙特卡洛采样器进行推断时,潜在状态的采样通常效率较低(Turek等人,2016),并且由于它们是离散的,这种方法不能与需要可微似然的哈密顿蒙特卡洛采样器一起使用(McElreath, 2030; Monnahan等人,2017)。基于这些原因,我们始终使用边际化多事件似然,在这种方法中,每个个体的潜在状态是使用前向算法平均得到的(Zucchini & MacDonald, 2009)。前向算法在计算上相对昂贵,每次捕获历史需要大约次操作,其中是捕获历史的长度,是状态的数量。因此,我们只考虑唯一的捕获历史,并根据它们的重复次数调整似然(Turek等人,2016)。
2.3.2 效率与等价性
我们比较了在一系列研究规模下,三种不同复杂度的短暂混合模型使用EPM(Extended Product-Multinomial)似然和HHMM(Hierarchical Hidden Markov Model)似然的运行时间。每个短暂模型都是以下基础模型的扩展:(i)单状态的Cormack–Jolly–Seber模型;(ii)具有两个站点的双状态模型;(iii)具有两个站点和陷阱依赖性的四状态模型。我们考虑了由采样次数和每次采样中新标记的个体数量定义的研究规模。对于每个研究规模和短暂模型,我们模拟了一个数据集,然后使用EPM和HHMM似然对该数据进行了模型拟合。计算效率
在考虑的所有模型和研究规模中,EPM似然将模型运行时间减少了4到170倍,中位数为28倍(见图2)。HHMM似然的计算需要大约次操作,而EPM似然需要大约次操作。特别是对于固定的和,预期的唯一捕获历史数量,因此加速因子随着每次采样中新标记的个体数量的增加而增加;这在图2的大多数轨迹中都清晰可见。图2(在图查看器中打开)
在一系列研究规模和模型复杂性下,扩展乘积多项式(‘EPM’)似然与层次隐马尔可夫模型(‘HHMM’)似然的计算效率比较。每个场景模拟了一个数据集,并计算了HHMM运行时间与EPM运行时间的比值作为加速因子。在所有情况下,每种似然生成的有效样本大小是相似的。未绘制的是一些较大研究中加速因子在115到170之间的值。
从EPM似然的推导可以看出,它们定义了与HHMM似然相同的数据分布,只是常数不同,这些常数不依赖于模型参数。因此,它们在推断上是等价的,因为两种方法得到的后验分布是相同的。支持信息中的附录1的图1展示了带有短暂存在的单状态模型的所有参数的边际分布,其他模型的类似图表也可以从我们的代码中生成。
3 饲养非洲企鹅的存活率
我们开发EPM似然的动机是一个应用项目,该项目旨在估计饲养和野生繁殖的非洲企鹅之间的存活率差异。在这里,我们介绍了我们的模型开发过程,说明了模拟的必要性,并强调了EPM如何使我们能够轻松扩展多状态模型以有效纳入短暂存在的个体。我们简要讨论了单个短暂混合模型的模拟评估和结果,但 rapidly 表明我们的目的是为了说明方法论,而不是为了建立可以可靠地指导保护实践的结果。
3.1 非洲企鹅
非洲企鹅是南非和纳米比亚冰冷Benguela上升流系统特有的物种。从大约1900年的数十万(如果不是数百万)对减少到2025年的不到10,000对,该物种被列为极度濒危(Birdlife International, 2024; Sherley等人,2024)。像其他企鹅一样,它们每年都会经历一次繁殖后的换羽,以保持羽毛的完整性和防水性。在换羽期间,它们无法觅食,而在陆地上禁食,会失去大约50%的体重,包括驱动游泳的肌肉的显著萎缩(Wilson, 1985)。如果父母在雏鸟离巢前开始换羽,雏鸟将被遗弃,存活机会很小。此外,雏鸟和蛋容易受到极端天气事件的影响,如洪水和热浪(Vanstreels等人,2019)。为了增加企鹅的数量,南非沿海鸟类保护基金会(SANCCOB)在人工环境中饲养被遗弃或提前救援的企鹅雏鸟。成功释放的比例取决于雏鸟的健康状况,但通常很高,有70%–90%的企鹅被放归野外(Sherley, Waller等人,2014)。正在进行的一项标记-重捕研究旨在监测人口动态并评估昂贵的人工饲养措施的保护效果。特别是,一个关键问题是人工饲养的鸟类与野生繁殖的鸟类是否有相似的幼年和成年存活率。
3.2 标记-重捕数据
自2013年以来,非洲企鹅的幼鸟和成鸟通过皮下植入被动集成应答器进行标记,并使用固定地面读取器和手持读取器在繁殖地重新捕捉。当标记的鸟类靠近读取器时,其应答器会被激活并发出包含其唯一身份号码的信号,该信号会被读取器接收并保存。这里我们分析了2013年至2023年在南非西开普省的三个主要繁殖地(Robben Island、Boulders Beach和Stony Point)标记的7571只鸟类的数据(以下简称Robben、Boulders和Stony)。在这些鸟类中,1456只是野生繁殖的成年鸟,1704只是野生繁殖的离巢雏鸟,4411只是在其中一个繁殖地被标记后在释放前的人工饲养雏鸟(尽管不一定来源于这些繁殖地)。不同年份和繁殖地的重捕工作有所不同。在Robben,整个研究期间一直都有持续的巢穴监测方案,并且自2015年以来至少有一个地面读取器。在Stony,整个研究期间进行了不同强度的巢穴监测,自2017年以来有两个地面读取器。在Boulders,巢穴监测始于2017年,并在同年安装了一个地面读取器。通过定义如果一只鸟在给定年份的3月至10月(包括这两个月)内被再次捕捉,则认为该鸟被重捕,从而从原始的相遇数据中提取了标记-重捕数据(更多详细信息见支持信息中的附录2.1)。这一时期与主要繁殖季节以及大多数相遇发生的月份重合。
3.2.1 许可证
用于用被动集成应答器标记鸟类并进行田间工作以重新捕捉它们的研究许可证由南非林业、渔业和环境部(RES2013/66, RES2014/114, RES2015/12, RES2016/06, RES2017/09, RES2018/39, RES2019/04, RES2020/24, RES2021/33, RES2022/01, RES2023/04, RES2024/09, RES2025/18)、SANParks(CRC/2016/2017/001–2016/V1, CRC/2017-2018/001–2016/V1, CRC/2018-2019/001–2016/V1, CRC/2019-2020/001–2016/V1, CRC/2020-2021/001–2016/V1, CRC/2022-2023/001–2016/V1, CRC/2023-2024/001–2016/V1 和 LUDY-K/2019-027)以及CapeNature(0056-AAA007-00120, CN44-59-6559 和 CN44-87-27312)授予。所有研究方法都得到了布里斯托大学动物福利和伦理审查机构(UINUB/14/007)、开普敦大学科学学院动物伦理委员会(2013/V10/RSREV1, A1/2014/2013/V10/RS, 2017/V12/Ludynia 和 2020/2017/V23/KL)、康沃尔研究伦理委员会以及埃克塞特大学动物福利和伦理审查委员会(2017/1594, 2018/2404 和 eCORN001760, 528178)的批准。
3.3 标记-重捕模型
3.3.1 初始多状态模型
作为起点,我们考虑了一个多站点、多年龄模型,包括三个繁殖地的三个年龄类别:幼年(0岁,第一年)、未成熟(1岁)和成年(2岁或以上)。生存概率按年龄、地点和年份进行了结构化处理,以考虑幼鸟和成年鸟之间的已知存活差异以及由于环境因素导致的生存时间的时空变化(Sherley, Abadi等人,2014)。特别是,我们将年度、特定地点的存活参数在未成熟和成年年龄类别之间共享,因为先前的研究表明这些参数是相似的(Sherley, Abadi等人,2014)。检测参数按地点、年份和年龄进行了结构化处理,未成熟和成年鸟的检测概率是分开的,因为未成熟鸟经常不在繁殖地出现(Sherley等人,2017)。我们根据年龄和繁殖地(但不包括年份)对群体间的移动进行了建模。幼鸟和未成熟鸟的分布范围很广,我们将它们的移动参数分开,而成年鸟的移动概率则高度依赖于繁殖地(Sherley等人,2017; Whittington等人,2005)。为了测试模型的拟合度,我们首先对数据进行了子集处理,移除了所有标记为幼年的个体,只保留了标记为成年的个体。由于幼鸟的存活率低于成年鸟,并且在作为未成熟鸟的次年检测率非常低,因此在包含标记为幼年的数据中可能会标记出短暂存在和陷阱依赖性的测试。我们的模型通过考虑年龄结构化的存活率和检测率来解释这些现象,因此我们将拟合优度测试限制在标记为成年的鸟类上。在这个子集中,模型未能通过陷阱依赖性(测试M.ITEC)、短暂性(测试3G.SR)和记忆性(测试WBWA)的拟合优度测试(所有这些测试都是作为后验预测检验实施的,请参见支持信息中的附录2.2)。在这里,我们讨论了成年状态下的陷阱依赖性和短暂性,但没有进一步探讨记忆性。为此,我们分两个阶段扩展了模型:首先在模型中加入了陷阱依赖性,然后在模型中加入了短暂性。我们对标记为成年的鸟类中的陷阱依赖性和短暂性的解释是,它们是由于抽样过程造成的。实际上,由于鸟类倾向于在不同年份在殖民地的相同区域筑巢,因此使用地面读取器或定期进行巢穴检查时,那些在某一年被检测到的鸟类更有可能再次通过这些路径进入殖民地,或者筑巢在经常被检查的区域内,这使它们在后续年份被检测到的可能性更高。在我们能够测试短暂性的30个地点-年份组合中,只有少数情况出现了明显的假设违反(见图3——支持信息中的附录2.2)。此外,大多数标记为成年的鸟类也被标记为繁殖鸟类,已知这些鸟类对其繁殖殖民地有很高的忠诚度(Sherley, Abadi等人,2014;Whittington等人,2005)。这些事实表明,短暂性是由于这些年份中的特殊标记程序造成的,而不是种群的持久性生物特征。
3.3.2 具有陷阱依赖性的多状态模型
模型采用了Pradel和Sanz-Aguilar(2012)的方法来处理陷阱依赖性,该方法将重新捕获事件纳入每个个体的状态,并将重新捕获概率纳入这些状态之间的转移概率中。个体是否意识到陷阱取决于它们之前是否被捕获,而下一次捕获时的重新捕获概率则取决于这一状态。在模型的九个状态中,有三个成年状态被复制,从而在扩展模型中形成了十二个状态。我们将其实现为一个具有不可观测的“未意识到陷阱状态”的多状态模型,并使用了概率质量(PM)似然函数。用第2节的术语来说,这就是我们的“基础”多状态模型,我们在此基础上进一步扩展以包括短暂性。
3.3.3 扩展到包含短暂性的混合模型
模型通过使用我们的EPM似然函数(见第2节)进行了扩展,以考虑短暂性。我们允许居住概率(及其互补属性,即短暂性)随地点和年份而变化。最后,我们在模型中加入了人工饲养对存活率的协变量。这些协变量随年龄而变化,以考虑人工饲养效应可能与长期效应不同的可能性。我们假设人工饲养的差异在年份和殖民地之间是对数几率(logit)尺度上的恒定值。因此,对于“幼年”和“成年”年龄类别,表示在年份中在殖民地中人工饲养和野生饲养鸟类的存活率。
3.3.4 估计存活率差异
比较人工饲养和野生饲养鸟类的存活率时,由于两组之间存在系统性的差异而变得复杂。首先,出于物流原因,几乎所有人工饲养的鸟类都被释放到大陆上的殖民地Boulders和Stony。这可能会造成空间混淆,我们的模型试图通过允许存活概率随殖民地而变化来解决这一问题。其次,所有人工饲养的鸟类都被标记为幼年,而野生饲养的鸟类则被标记为幼年和成年。结果,幼年鸟类在人工饲养组中的比例高于野生饲养组,这使得我们的模型对“幼年和成年存活率相等”的假设非常敏感。如果这一假设被违反,可能会导致成年存活率的估计出现偏差,从而影响两组之间成年存活率差异的估计。我们在其他地方更全面地讨论了这些问题(这里仅提及这些问题,以说明无偏的存活率差异估计远非必然)。需要进行模拟来证明模型能够在正确指定的情况下估计这些参数。
3.4 模型评估和估计
为了便于比较,我们在Stan中实现了两种似然函数:HHMM似然和EPM似然。EPM似然将运行时间减少了八倍,从大约2小时缩短到了15分钟(同时保持了相当的有效样本量),从而使得我们的模拟研究能够在合理的时间内完成。
3.4.1 模型的模拟评估
我们在该模型下模拟了100个重复数据集,其中一个“重复”数据集具有与真实数据相同的队列规模和组成(标记年龄、殖民地和人工饲养状态)。我们从基于模型对真实数据的边际后验分布建模的分布中选择了“真实”的数据生成参数值,但对数几率尺度上的人工饲养差异除外,这些差异是从其他分布中抽取的。最后,我们对每个重复数据集进行了模型拟合,并将估计值与真实值进行了比较,评估了其在偏差、覆盖率和均方根误差(RMSE)方面的表现。模型能够以合理的精确度和准确性恢复特定年龄的人工饲养差异(见支持信息中的附录2.3中的图7)。对于对数几率尺度上的人工饲养差异,估计的(绝对)偏差最大为0.02,估计的RMSE最大为0.1,无论是对幼年还是成年鸟类。在概率尺度上,这些值分别转化为估计的偏差和RMSE最大为0.005和0.025(因为概率尺度上的差异最多是对数几率尺度上的1/4;例如参见Gelman等人,2021年,第13.2章)。后验90%可信区间的覆盖率与名义值一致,分别为幼年和成年鸟类的0.88和0.91。年度存活率估计通常是无偏的,并且覆盖范围适当,尽管存在一些例外情况(见支持信息中的附录2.3中的图8和图9)。这些例外情况包括无法识别存活参数的年份,例如(i)2023年的存活率与2024年的检测结果混淆,这是数据的最后一年;以及(ii)在之前没有多少成年鸟类被标记的年份中,成年鸟类的存活率与居住概率混淆。然而,RMSE表明在许多情况下年度存活概率的估计值有些波动。
4 讨论
我们的工作提出了一种新的、计算效率高的方法,用于处理一类考虑短暂性的标记-重捕模型。我们展示了当使用混合模型和明确的短暂性概率来建模短暂性时,似然函数可以以一种方式分解,从而利用基础模型的快速概率质量(PM)似然函数。这将短暂性混合模型的处理方法从“HHMM”(或多事件)似然函数转移到EPM似然函数,同时几乎不增加实现成本。通过减少计算负担,我们促进了这些复杂模型的模拟评估,这是稳健工作流程中的一个重要步骤(Gelman等人,2020;Wolkovich等人,2024)。实际上,即使在拟合特别大的数据集时,或者在标记-重捕模型是集成模型的一部分时,单次模型运行也可能受益于这种改进。我们在一个案例研究中展示了我们的方法,该研究比较了人工饲养和野生饲养的非洲企鹅的存活率。在这里,进行了广泛的模拟,以测试我们的模型同时考虑陷阱依赖性、短暂性以及这些组之间潜在混淆差异的能力。
4.1 EPM似然的优点和局限性
M-数组和PM似然函数以其计算效率而闻名(例如Schaub & Kéry,2021)。它们的应用依赖于(i)知道个体在捕获时的状态,以及(ii)个体共享状态依赖的存活率和重新捕获概率。这些条件对于广泛的多状态模型是成立的,但不适用于多事件模型(Pradel,2005),后者允许在捕获时存在状态不确定性。由于当前的短暂性混合模型被构建为多事件模型(Genovart & Pradel,2019),这似乎使它们超出了PM似然函数的适用范围。然而,两个属性使得由短暂性引起的状态不确定性(即居民与短暂性)可以在似然函数中得到规避(通过方程(1)和(2)中的分解)。这两个属性是:(i)只有初次捕获与状态不确定性相关联,以及(ii)短暂性只有一种捕获历史(在多状态情况下每个状态只有一个捕获历史)。对于一般的多事件模型,这些属性不成立,因此无法直接将EPM似然函数扩展到它们。然而,适用于EPM似然函数的模型类别仍然相当广泛:它可以被描述为任何可以使用PM似然函数扩展的多状态模型(下面会有更多介绍)。在EPM似然函数中,由于在m-数组中对个体捕获历史进行了汇总,计算效率优于HHMM似然函数。实际上,计算HHMM似然函数的成本与独特捕获历史的数量成线性关系,而PM似然函数及其衍生的EPM似然函数的计算成本与研究中的个体数量无关。因此,随着个体数量的增加,计算效率也会提高,这对于大型研究或使用模拟来理解大样本的模型行为特别有用。然而,由于无法对个体随机效应或协变量进行汇总,我们的方法不能与这些模型结构结合使用(这也是它与PM似然函数共同的限制)。有几种方法可以建模短暂性,最常见的是TSM模型,它们很容易被构建为多状态模型,因此适合使用PM似然函数。那么,我们为什么专注于短暂性混合模型呢?在TSM模型中,居住概率(及其互补属性,短暂性)只能作为一个衍生参数来估计,即在同一时间间隔内新标记与之前标记的存活率之比(Pradel等人,1997)。如果需要进一步建模短暂性,这会使建模变得更加复杂。相比之下,在混合模型中包括明确的居住概率允许这些概率可以直接用连续协变量(例如Genovart & Pradel,2019)或在贝叶斯框架中的先验来建模。
4.2 软件和工作流程
我们比较了使用Stan拟合的HHMM和EPM似然的性能,读者可能会好奇我们的结果如何转移到其他软件上,例如JAGS和NIMBLE。虽然绝对效率(就每秒的有效样本量而言)会随着不同的软件和不同的马尔可夫链蒙特卡洛(MCMC)算法而变化,但我们预计相对加速因子(HHMM与EPM运行时间的比率)将是相当相似的,因为效率提升来自于每次MCMC算法迭代时都需要进行的似然计算。当适用时,EPM似然不仅提供了计算上的优势,还简化了贝叶斯标记-重捕分析中可能繁琐的编码步骤。我们考虑的是一种工作流程,即通过一系列较为简单的模型逐步构建出一个复杂的模型。在我们的案例研究中,这一流程始于一个基于年龄和地点结构的多状态模型,该模型的设计是基于我们希望进行的生存比较以及对该物种人口统计学的先验知识。在对这个模型进行检验的过程中,发现需要纳入陷阱依赖性和模型的瞬变性。在多状态框架内,我们可以实现陷阱依赖性的整合。之后,将模型扩展为具有瞬变性的模型只需要对代码进行少量修改(使用EPM似然函数),而使用HHMM似然函数则需要进行新的实现。
**作者贡献**
Murray Christian开发了扩展的产品-多项式似然函数;Katrin Ludynia、Barbara Barham、Peter Barham和Richard B. Sherley设计了标记-重捕研究并收集数据;Murray Christian分析了数据并负责撰写手稿,得到了W. Chris Oosthuizen、Katrin Ludynia、Barbara Barham、Peter Barham、Richard B. Sherley和Res Altwegg的支持。所有作者都对初稿提出了重要的修改意见,并最终同意发表该论文。
**致谢**
我们感谢管理机构的后勤支持和允许我们在Boulders Beach(SAN Parks)、Robben Island(Robben Island Museum, RIM)和Stony Point(Overstrand Municipality和CapeNature)进行研究,同时感谢RIM提供了住宿和渡轮服务。Sabelo Madlala(RIM)、Inga Sipuka(RIM)、Monique Ruthenburg(原SAN Parks员工)、Cuan McGeorge(CapeNature)、Lauren Waller(原CapeNature员工)和Sue Kuyper对实地工作给予了支持。自2013年以来,许多学生、志愿者和合作者帮助我们在三个研究地点收集了企鹅的标记-重捕数据,尤其是Nola Parsons、Jennifer Grigg、Cuan McGeorge、Lizanne van Eerden、Gavin Peterson、Corlie Hugo、Andile Mdluli、Nicholas Ngcathu和Yandisa Cwecwe。我们还要感谢SANCCOB的工作人员和志愿者为企鹅的康复工作所做的努力。资金支持来自动物园和水族馆协会的“拯救动物免于灭绝”(SAVE)项目(包括为M.C.提供的博士后研究奖学金)、布里斯托尔动物学会、林业、渔业和环境部、地球观察研究所、皮尤慈善信托基金(通过“皮尤海洋保护研究员计划”为R.B.S.提供资助)、莱顿保护基金会(通过博士后研究奖学金为R.B.S.提供支持)、SANCCOB和圣地亚哥动物园野生动物联盟。
**利益冲突声明**
Res Altwegg是《Methods in Ecology and Evolution》的副主编,但并未参与本手稿的处理或审阅工作。作者声明不存在其他利益冲突。
**同行评审**
本文的同行评审记录可访问:https://www.webofscience.com/api/gateway/wos/peer-review/10.1111/210x.70314
**数据可用性声明**
我们的案例研究的数据和代码可在此链接获取:
- 数据:https://doi.org/10.5281/zenodo.19570525 (Christian等人, 2026a)
- 代码及实现指南:https://doi.org/10.5281/zenodo.19570504 (Christian等人, 2026b)
- 示例代码及实现指南:https://github.com/MurrayChr/cmr_transients_examples/