编辑推荐:
位置误差对生态推断和管理决策的影响及多物种数据优化方法研究。
詹姆斯·A·史密斯
新南威尔士州初级产业与区域发展部波特斯蒂芬斯渔业研究所,澳大利亚新南威尔士州尼尔森湾邮政信箱1号,2315
摘要
物种的观察位置可能存在不确定性,例如在渔业中,虽然捕获量记录准确,但位置信息较为粗略或不准确。这种位置上的不确定性可能会影响生态推断,并阻碍那些依赖于空间精确数据的管理决策。在这种情况下,观察到的物种组成中的空间信号可以帮助识别和修正不确定的位置。本研究探讨了三种从物种组成中估计位置的方法:1)层次物种分布模型(SDM),该模型同时估计物种分布和位置不确定性;2)逆向预测方法,利用拟合的SDM来确定新物种数据的最可能位置;3)将位置直接作为响应变量进行建模。每种方法都需要一部分准确的位置数据来量化物种分布的空间模式。所有三种方法都具有一定的实用性,并且相对准确:对于模拟数据,平均距离误差为域大小的15%;而对于真实数据,这一误差在20至100公里之间。当只有部分位置不确定时,层次方法因其对位置和物种参数的综合估计而具有价值;当许多位置不确定时,其他方法似乎更合适。当有先验信息可以用来约束估计时,逆向预测方法较为理想。直接建模(尽管可能存在因果关系上的偏差)适用于大型数据集,其中多变量随机森林通常能最准确地估计位置。这些方法可以提高生态监测中的空间数据质量,并有助于开发改进不准确或故意误报的捕鱼位置的工具。
引言
在许多生态数据集中,物种的观察位置可能是未知的或记录不准确的(Naimi等人,2014年),这种现象有时被称为位置误差或地理参考误差(Moudry和Devillers,2020年)。这种误差会导致模型性能下降、估计结果偏差(Graham等人,2008年;Osborne和Leit?o,2009年;Hefley等人,2014年),并影响依赖于精确空间数据的管理策略(Maina等人,2016年)。通常,位置误差问题主要集中在单个物种上,因此潜在的解决方案集中在识别(并移除)有问题的观测数据(Naimi等人,2014年;Robertson等人,2016年)、增加样本量(Smith等人,2023年)、基于启发式或统计模型对观测数据进行约束(Brost等人,2015年;Robertson等人,2016年;Zhang等人,2018年)、通过额外回归校正位置(Hefley等人,2014年)。尽管这些方法很有价值,但它们通常应用于单一物种的问题。当记录包含多个物种时,物种组成的联合空间信号为改进位置估计提供了新的机会,然而很少有研究探索这种多变量数据流来解决位置误差问题。
在商业渔业中,位置误差问题尤为突出,因为捕获位置往往不确定。其原因包括缺乏报告要求、空间报告要求粗糙、故意或意外地报告不准确以及非法捕鱼(Bastardie等人,2010年;Sampson,2011年;Mangi等人,2015年;Emery等人,2019年;Brown等人,2021年;Watson等人,2023年)。澳大利亚新南威尔士州的海洋渔业通常以0.1度为单位报告捕获位置(新南威尔士州初级产业与区域发展部,2025年),但有证据表明有时这些单元格被错误记录,历史上捕获位置是用更粗略的1度单元格来报告的。虽然可以使用船舶跟踪设备(如船舶监控系统VMS)和轨迹解码算法(Lee等人,2010年;Russo等人,2018年)获取准确的捕鱼位置信息,但并非所有渔业或船舶都使用这些设备。科学观察员调查也可以提供准确的位置信息,但这些调查通常是偶尔进行的,且覆盖的捕鱼活动范围较小(Yin等人,2024年)。较少被研究的是利用多物种捕获中的内在空间信号来识别和修正捕鱼位置(Russo等人,2016年)。准确的位置对于各种管理和监测目标非常重要,例如绘制捕鱼影响图(Welch等人,2024年),因此改进这些位置具有很大价值。
这一观点的基础是,被捕获的物种具有独特的空间关联性和栖息地偏好,这些内在的空间分布会在样本物种中留下信号(Watson等人,2023年)。这与物种分布建模的思想相同,后者通常通过将物种丰度(包括来自捕获的数据)与时空和环境预测因子进行回归来识别这些空间分布(Guisan和Zimmermann,2000年;Smith和Johnson,2024年)。估计捕获位置的方法类似,不同之处在于现在位置成为需要估计的变量,而不是一个假设已知的变量。尽管许多研究在估计捕鱼或捕获分布时将位置作为预测因子(Brodie等人,2020年),但基于捕获模式来估计位置是一项相关但不同的任务。
本研究将位置误差建模从单一物种扩展到多物种数据,并明确关注于修正不确定的位置,而不仅仅是使模型对不确定位置具有鲁棒性(例如Velásquez-Tibatá等人,2016年)。据我们所知,没有研究系统地比较了使用多物种组成来提高空间准确性的不同方法。我们评估了三种此类方法,每种方法都依赖于一部分准确的位置数据(Hefley等人,2014年);这类数据的常见来源是商业渔业的科学观察调查。评估的三种方法是:1)层次测量误差模型,该模型同时估计潜在的真实位置和物种-环境关系(Denham等人,2011年),称为“位置误差”方法;2)逆向预测方法,利用拟合的SDM来恢复新物种数据的最可能位置(贝叶斯逆问题框架的一个例子;Dowd和Meyer,2003年;Waqar等人,2023年),称为“逆向预测”方法;3)将位置直接作为物种组成的函数进行建模的方法(Watson等人,2023年),称为“位置作为响应”方法。
每种方法都有其明显的优点和缺点,本文使用模拟和实际捕鱼数据对这些方法进行了展示和评估。目标是提供一种概念性和数值化的流程,以指导利用多物种观测来估计或修正采样位置的生态分析。虽然这里的重点是在商业渔业上,但该框架也广泛适用于空间精度有限的生态数据。
方法
使用模拟数据和真实数据测试了三种方法。每种方法及其模型实现都在表1中以简化的语言进行了描述,并在下方进行了详细说明。随后介绍了数据模拟过程、性能指标以及用于评估的情景。然后概述了用于评估实际捕获数据准确性的真实数据。这些方法可以修正不确定的位置并估计未知的位置,但由于篇幅限制,这里仅对位置进行了简要描述。
模拟数据
所有三种方法都能从模拟的捕获组成中成功估计位置,但它们的准确性和不确定性各不相同(图3)。在物种空间信号较强的情况下(情景1),所有方法都将空间误差减少了40-50%,并提高了80-90%的报告位置的准确性(图4a)。使用随机森林的位置作为响应的方法减少了最大的误差,但位置误差方法和逆向预测方法改进了最多的位置。
讨论
利用物种组成来估计采样位置的成功与否取决于物种分布中的空间信号强度与报告位置中的空间误差之间的相对关系。需要较强的空间信号才能改善位置误差较小的情况,但即使是较弱或复杂的物种分布信号也可能改善非常不准确的位置。对于我们的模拟数据,由于空间信号相对于模型域的大小较强,平均距离误差为
结论
这三种方法都可用于从物种组成中估计位置,每种方法都有其特定的优势。就简单性和准确性而言,“位置作为响应”的方法似乎非常适合探索和预测。正如其他SDM研究所示(Stock等人,2020年;Smith和Johnson,2025年),随机森林是一种灵活且准确的方法,应该纳入建模工具箱中。我们的研究表明,基于物种信息可以显著提高位置精度。
生成式AI和AI辅助技术的声明
人工智能被用于辅助模型拟合和评估的R代码编写、方程格式化,以及寻找减少文本字数的方法(Claude Sonnet 4、ChatGPT 4.5、ChatGPT 5)。作者对R代码和输出结果负全责。
CRediT作者贡献声明
詹姆斯·A·史密斯:撰写——审稿与编辑、撰写——初稿、方法论、概念化。