编辑推荐:
本研究提出一种基于密度比率加权的泊松点过程模型,以解决训练区域与测试区域环境协变量分布不匹配导致的模型可转移性问题。理论证明该方法在模型误指定情况下仍能有效,并通过模拟和欧洲苔藓类物种数据验证了其性能提升。
作者:Saigusa Yusuke、Komori Osamu、Eguchi Shinto
日本神奈川县横滨市,横滨市立大学医学院生物统计学系,福浦3-9,邮编236-0004
摘要
对物种分布的可靠预测对于保护规划、入侵物种管理和气候变化评估至关重要。我们通过解决在某一地区训练的模型应用于另一地区时出现的外推问题来提高模型的可转移性,这一问题的产生是基于生态过程的稳定性假设。在常用于物种分布预测的泊松点过程模型中,当强度模型设定错误且训练区域与测试区域之间的协变量分布不同时,标准最大似然估计方法会变得不可靠,从而导致系统偏差和强度估计不准确。为了解决这个问题,我们将重要性加权方法应用于空间点过程。每个训练位置的权重是根据其在目标区域的协变量密度与源区域协变量密度的比值来调整的,然后通过最大化加权后的似然值来进行估计。这种调整使推断更符合测试区域实际存在的协变量分布,从而提高了模型的可转移性。我们建立了所得估计量的理论性质。在温和的规则条件下,该估计量会收敛到在测试区域最小化Kullback–Leibler散度的伪真实参数,具有渐近正态性,并且其协方差具有封闭形式。随后,我们通过模拟研究和针对欧洲苔藓植物的实证应用来评估该加权估计量的预测性能,证明了其在协变量变化情况下提高模型可转移性的能力。
引言
物种分布建模(SDM)在生态学中起着核心作用,为生物多样性保护、栖息地管理和气候变化影响评估提供信息。准确预测物种出现情况以及对驱动这些出现的环境条件的理解,有助于制定关于保护区、入侵物种控制和生态恢复的决策。在各种SDM方法中,泊松点过程(PPP)框架提供了一种基于似然理论的原则性方法(Warton和Shepherd,2010;Streit,2010;Chakraborty等人,2011;Komori等人,2023)。从数学上讲,PPP模型在评估相对栖息地适宜性方面与MaxEnt等效(Renner和Warton,2013),并能够生成物种在景观中的出现强度函数。在本文中,我们研究了用于SDM实践的PPP模型的似然估计方法的改进。
可转移性指的是在某一条件下训练的模型在应用于新区域或新时间时保持预测准确性的程度。在过去二十年里,由于需要预测气候变化的影响、在新栖息地规划保护区和控制入侵物种等应用,可转移性的重要性日益增加。随着物种分布模型越来越多地在某一区域或一组条件下进行校准,然后转移到其他区域或未来气候中,由此产生的不确定性和预测误差变得更加明显,这突显了解决可转移性问题的必要性(Sequeira等人,2018)。有两个主要因素会降低可转移性(Rousseau和Betts,2022)。首先,生态过程可能缺乏时间或空间稳定性,导致物种-环境关系发生变化。其次,外推程度可能过大;也就是说,新区域或未来情景中的环境特征与训练数据中的显著不同。即使模型设定正确,如果超出观测到的协变量范围进行外推,也可能导致预测性能不佳。一种缓解外推误差的策略是采用机制模型(Higgins等人,2020),这种模型可以包含在更广泛条件下成立的生物过程。相比之下,我们专注于通过改进似然估计中的协变量偏移来提高相关PPP模型的可转移性。
在统计学和机器学习中,当模型应用于新领域时预测性能下降的挑战促使了各种迁移学习技术的发展(Sugiyama和Kawanabe,2012;Yang等人,2020)。特别是Shimodaira(2000)提出了一种密度比加权方法,通过纠正训练分布和目标分布之间的不匹配来解决协变量偏移问题。在这里,我们将这一原理应用于PPP框架,提出了一种密度比加权估计量,并通过模拟研究和实证分析证明了其性能。我们假设目标区域或目标时间期的环境数据是可用的。鉴于包括气候、土壤和地形变量在内的全球环境数据数据库的不断扩展,这一假设变得越来越可行。
从可转移性的角度来看,有时更倾向于使用简单的模型,而不是过于复杂的机器学习方法(Duque-Lazo等人,2016;Haulsee等人,2020)。简单模型通常具有更好的外推能力,同时也能更清晰地解释环境条件与栖息地适宜性之间的关系。然而,现实世界的物种分布不太可能完全遵循简单的模型。因此,我们考虑了模型设定错误的情况,并展示了我们提出的估计量在模型设定错误的情况下仍能实现最佳预测。
本文的其余部分组织如下:第2节介绍空间PPP模型。第3节提供了PPP模型的密度比加权估计量,并证明即使在模型设定错误的情况下,它也能产生最佳预测。第4节通过模拟研究比较了最大似然估计量(MLE)与所提出的估计量在模型设定错误情况下的性能。第5节对欧洲苔藓植物物种进行了实证分析。最后,第6节讨论了研究结果。
章节摘录
空间泊松点过程模型
在这项研究中,我们考虑了两个感兴趣的区域,分别称为训练区域和测试区域。训练区域是观察到目标物种出现位置的区域,模型将在该区域进行拟合。测试区域是分析师打算预测目标物种出现的区域,用于在模型估计后评估预测性能。考虑一个泊松点过程在