面向小样本物种的分布建模:灵活算法比较与集成策略提升预测性能

《Ecography》:Flexible methods for species distribution modeling with small samples

【字体: 时间:2026年01月22日 来源:Ecography 4.7

编辑推荐:

  本文系统评估了针对数据稀缺物种(尤其是个体记录≤20的稀有物种)的三种物种分布模型(SDM)构建方法:即插即用建模(plug-and-play modeling)、密度比建模(density-ratio modeling)和环境范围建模(environmental-range modeling)。研究通过对比多种算法(如MaxEnt、KDE、range-bagging等)在不同样本量下的表现,发现单一算法并非万能,而集成多种算法(如结合高灵敏度与高特异性的模型)能有效表征预测不确定性,尤其适用于采样偏差大或样本稀少的物种分布预测场景,为生态学研究与保护决策提供了更稳健的工具。

  
引言
物种分布模型(SDMs)是预测物种现存或潜在分布区的关键工具,对生态学研究和保护决策至关重要。然而,当前多数SDM方法对稀有或采样不足的物种(这类物种占地球物种的大多数且常具高保护价值)预测性能较差。本研究重点评估了三种专为数据稀缺情境设计的建模方法:即插即用建模、密度比建模和环境范围建模,并将这些方法中的算法与广泛使用的最大熵(MaxEnt)模型进行了性能比较。研究还探讨了模型在训练数据上的交叉验证性能是否能有效预测其在独立存在-缺失数据上的表现。
面向数据稀缺物种的建模方法
研究聚焦的三种方法中,即插即用建模和环境范围建模是专为小样本设计,而密度比建模在特定情况下也表现良好。即插即用建模(图1,上面板)通过分别估计存在分布(f1(z))和背景分布(f(z)),并将相对出现率(ROR, SR(z))计算为两者之比(SR(z) = f1(z)/f(z))来构建模型。密度比方法(图1,中间面板)则直接估计存在分布与背景分布的密度比,代表性算法包括无约束最小二乘重要性拟合(uLSIF)、相对无约束最小二乘重要性拟合(ruLSIF)以及MaxEnt。环境范围建模(图1,下面板)省略了背景分布,直接识别物种生态位的环境限制,例如范围袋装法(range-bagging)和低偏差自举聚合-单类模型(LOBAG-OC)。
算法性能比较:所有样本量
在所有样本量下,MaxEnt(通过Maxnet实现)在接收者操作特征曲线下面积(AUC)方面平均表现最佳,但在72%的案例中,其性能被一种或多种即插即用、密度比或环境范围算法超越。有6种其他算法的AUC分布与MaxEnt无显著差异。对于数据稀缺物种(出现记录≤20),有24种算法的AUC分布与MaxEnt无显著差异。然而,不同算法的输出(在设定阈值后)在灵敏度-特异性梯度上差异很大。训练数据评估的特异性和预测准确性与独立存在-缺失数据评估的结果强相关,而AUC和灵敏度的相关性较弱,仅22%的物种在训练数据和独立数据上表现最佳的模型相同。
算法性能:小样本量
针对小样本物种(n=34),性能最佳的算法有所不同。Range-bagging/range-bagging组合获得了最高的中位数AUC。MaxEnt的平均AUC最高,但仅对26%的物种表现最佳。大多数算法(75%)的AUC分布与MaxEnt无显著差异。研究表明,对于小样本物种,基于训练数据(包括交叉验证)的性能指标难以可靠地预测模型在独立数据上的表现,因此很难预先选择最佳算法。
模型集成以处理不确定性
为应对小样本下的不确定性,研究评估了集成三种在样本量上表现良好且覆盖灵敏度-特异性梯度(图2)的算法(Maxnet-高灵敏度、KDE/KDE-高特异性、ruLSIF-居中)的效果。集成方法包括模型平均和投票计数。投票计数集成在灵敏度、特异性和预测准确性方面优于单个组件模型。当要求所有模型一致同意时才判定为存在时(集成一致支持),特异性和预测准确性最高;当任一模型支持即判定为存在时(集成任意支持),灵敏度最高。模型间的一致性随样本量的增加而提高(图5),表明集成对于样本量极小的物种尤为重要,可以捕捉不同模型假设下的预测不确定性。
讨论与建议
研究发现,没有单一算法在所有情况下都是最优的。算法性能因物种而异,且难以从小样本训练数据中可靠地选择最佳模型。因此,建议根据具体用途(如侧重准确预测存在区还是缺失区)选择在灵敏度-特异性梯度上不同位置的算法进行集成。对于采样质量未知或需要平衡灵敏度与特异性的情况,建议使用涵盖该梯度的算法集成,并分析“所有模型支持”和“任一模型支持”的预测结果,以确定分布范围的上限和下限。集成方法,特别是投票计数法,能有效表征不确定性,并提高预测性能。研究强调,对于数据稀缺物种,考虑算法多样性并利用集成方法来捕捉不确定性是至关重要的。

请注意:
  • 以上总结严格基于您提供的文档内容,未添加文档外的信息。
  • 小标题是根据文档结构提炼的。
  • 专业术语的英文缩写和上下标(如f1(z)、SR(z)、AUC等)已按您的要求处理。
  • 已去除文献引用标识(如2011)和图表标识(如Fig. 1),但保留了图表编号的提及,因为它们是内容的一部分。如果您希望完全删除这些编号,请告知。
  • 已避免使用HTML转义符、SVG标签,并使用表示上下标。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号