《Plants》:Analysis of the Potential Distribution of Solanum rostratum in China Based on the Biomod2 Ensemble Model
Yue Zhang,
Weige Ma,
Quanlai Zhou,
Wei Cao,
Bo Qu,
Jia Guo,
Li Zhou,
Jiaojiao Deng,
Yansong Zhang and
Limin Dai
+ 1 author
编辑推荐:
本研究利用Biomod2集成建模框架,分析了全球性检疫害虫刺萼龙葵在中国的潜在地理分布,识别了以降水季节性(Bio15)、最湿季平均温度(Bio8)和人类足迹(HF)为主的关键限制因子,并精准刻画了其在东北平原、华北平原北部及准噶尔盆地等半干旱-半湿润、人类活动频繁区域的“高度适宜区”,为外来入侵植物的精准监测与早期预警提供了实证数据和理论支持。
引言
刺萼龙葵Solanum rostratum是一种全球性的检疫性害虫和主要入侵物种,原产于墨西哥和美国,现已扩散至北美、亚洲、欧洲、南非和大洋洲。该物种于1982年首次在中国辽宁省朝阳市被记录,现已蔓延至黑龙江、吉林、辽宁、内蒙古、河北、北京、天津、山东、山西、甘肃、宁夏回族自治区和新疆维吾尔自治区等十二个省级行政区。其入侵导致了生物多样性丧失,对人类和牲畜健康构成威胁,并降低了农作物产量,严重影响了中国的生态环境。2016年12月,刺萼龙葵被正式列入中华人民共和国生态环境部发布的《中国外来入侵物种名单(第四批)》,并于2017年6月被增补进《中华人民共和国进境植物检疫性有害生物名录》。近期研究表明,该物种以每年约16公里的速度扩散,因此需要准确预测其潜在适宜区,为针对性防控策略提供信息。
外来入侵植物的潜在适宜区预测主要通过物种分布模型SDM实现。近年来,集合模型框架Biomod2因能有效降低单模型的方差和偏差,提供标准化、可重复的工作流程,已成为预测入侵植物潜在分布全面可靠的方法。传统上,气候变量被认为是物种分布的主要决定因素,但近期研究表明,入侵物种的分布是气候、土壤、地形和人为因素共同作用的结果。本研究整合了多源分布数据与多类环境变量,运用Biomod2集合模型预测刺萼龙葵在中国的潜在适生区,旨在为入侵物种的早期预警和监测提供技术支持和案例研究。
结果
分布现状
基于分布点生成的刺萼龙葵中国分布图显示,该物种主要分布于中国北部的十二个省级区域,约90%的分布点位于海拔1000米以下。其主要栖息在三个区域:东北平原、华北平原北部以及新疆天山山脉山麓地区,这些区域被确定为监测和防控工作的关键目标。
关键环境变量筛选
通过皮尔逊相关分析和方差膨胀因子VIF检验,研究筛选出25个VIF值小于5的环境变量用于建模。分析确定了六个对刺萼龙葵入侵影响最大的生态变量:降水季节性Bio15、最湿季平均温度Bio8、人类足迹HF、最暖季度降水量Bio18、等温性Bio3和最干月降水量Bio14。这六个变量占总相对重要性的92.3%,其中五个水热气候变量贡献了74.4%,人为因素人类足迹占17.6%。其余19个变量仅占总重要性的7.7%。
主要影响变量分析
对六个关键变量的响应曲线分析表明:
- 1.
降水季节性Bio15:值大于或等于117(表示降水月际变化显著)的区域有利于刺萼龙葵生长。该物种在降水月波动显著的区域生长旺盛,能在雨季快速生长,并通过种子休眠度过干旱。
- 2.
最湿季平均温度Bio8:20°C至25°C的范围为刺萼龙葵提供了温暖而非酷热的最佳生长条件。
- 3.
人类足迹HF:HF值超过29的区域,通常是城市郊区、交通走廊和农田,促进了刺萼龙葵的传播。
- 4.
最暖季度降水量Bio18:最热的三个月总降雨量在200毫米至400毫米之间,可确保物种活力,缓解干旱胁迫并防止病害爆发。
- 5.
等温性Bio3:25°C至32°C的值表明温度稳定性适中,无极端季节性寒冷,有利于生长。
- 6.
最干月降水量Bio14:降水量在0至80毫米范围内与刺萼龙葵的生存相关。此范围内降水量越高,生存率越低,当超过80毫米时稳定在约50%。
这些发现表明,气候温暖、无极端低温胁迫、人类活动频繁的半干旱至半湿润地区是刺萼龙葵快速繁殖的最佳条件,应作为防控其扩散策略的优先区域。
Biomod2集合模型的构建与评估
研究评估了十种单模型,其中八种CTA, GAM, GBM, GLM, MARS, MAXENT, RF, XGBOOST达到了AUC> 0.9, TSS> 0.8, Kappa > 0.7的性能阈值。基于这八个模型构建了三种集合模型EMmean, EMca, EMwmean,三者均满足性能标准。其中,EMca表现出最高的预测精度AUC = 0.9838, TSS = 0.887, Kappa = 0.816,因此被选为最优集合模型,用于预测中国刺萼龙葵的潜在分布。
中国潜在分布预测
最优集合模型EMca预测结果显示:
- 1.
刺萼龙葵在中国潜在适生区总面积估计为162.65 × 104km2,占中国国土面积的16.94%,主要集中在内蒙、黑、吉、辽、冀、京、津、鲁、晋、陕、豫、甘、新等地。除澳门外,其他省级区域均有出现。
- 2.
高度适宜区面积约44.63 × 104km2,占国土面积的4.65%,集中分布于内蒙古中东部、黑龙江西部、吉林西北部、辽宁西北部、河北、北京、天津、山东、山西、陕西和新疆北部,在河南和甘肃有零星分布。
- 3.
低适宜区面积约73.02 × 104km2,占7.61%,广泛分布于上述区域。
空间上,高度适宜区主要分布在三个明显区域:1以大、小兴安岭和长白山为界的东北平原;2华北平原北部延伸至山东丘陵和黄河沿岸;3从准噶尔盆地到阿尔泰山的走廊地带。这些区域主要位于中国的半干旱至半湿润气候带。
讨论
环境变量对物种分布的影响
早期研究主要依赖气候变量模拟物种分布范围变化。随着方法学进步,地形、土壤特性和人为影响等其他变量被越来越多地纳入分布模型。仅依赖气候变量可能高估适宜区并忽略局地异质性。整合多类环境变量能够捕捉仅靠气候无法解释的局部分布细节,提高模型精度,并有助于识别气候以外的关键限制变量。本研究表明,刺萼龙葵在入侵区的最适生长条件为:最湿季均温Bio820-25°C,最暖季度降水量Bio18200-400 mm,最干月降水量Bio140-80 mm。最干月降水量代表一年中最干旱时期的最低水分可用性,是许多草本和入侵植物建植与生存的关键限制因素。当超过约80毫米的阈值后,预测的适宜性趋于稳定,表明一旦满足最低水分需求,额外的降水对生存概率的边际增益有限。这些条件共同指向降水季节性明显、温度适中无极端寒冷、人类活动频繁的环境参数,这对应于中国半干旱至半湿润地区的典型水热气候。因此,这些气候带内人类活动相对频繁的区域构成了刺萼龙葵分布的最佳生态位,易受其种群快速扩张影响,应作为未来监测和管理的优先区域。
扩散机制与人为介导的传播
刺萼龙葵具有种子产量高、活力强、能形成持久土壤种子库等利于入侵成功的生活史性状。其带刺的果实易附着于动物和农用设备,促进了短、中距离传播。然而,这些机制主要在局部尺度运作,无法完全解释快速的区域扩张。模型揭示了人为变量的显著贡献,凸显了人类活动在塑造刺萼龙葵当前和潜在分布中的关键作用。路网密度、土地利用强度和人类足迹指数与栖息地适宜性密切相关。交通网络充当了传播廊道,增加了适宜栖息地之间的连通性,并提高了繁殖体压力。在农业系统中,传播可能通过受污染的作物种子、土壤移动、牲畜运输和机械转移发生。认识到这些传播途径为预防策略提供了机制基础。管理努力应优先考虑:1加强检疫和种子检查系统;2强制对农业机械进行清洁;3监测高风险运输走廊;4在气候适宜但尚未入侵的地区进行早期检测和快速响应。将物种分布模型与传播途径分析相结合,可加强主动入侵管理并改进早期预警框架。
Biomod2集合模型分析
与早期主要依赖单一算法如MaxEnt的研究相比,本研究采用了在Biomod2中实现的多算法集合SDM框架,有助于量化算法间的不确定性,并减少对算法特定假设的依赖。此外,研究整合了更广泛的预测因子气候、土壤、地形和人为变量,能够对分布模式进行更具机制性和生态综合性的解释,并在环境协变量采样不均时提高模型的可转移性。模型性能通过多种指标如ROC和TSS在不同算法间进行了一致评估,并基于模型性能构建了集合预测,从而提高了适宜性估计相对于单模型输出的稳健性。在Biomod2中,最常用的三种集合策略是EMmean, EMwmean, EMca。EMmean计算效率高,对极端预测不敏感,可提供平滑的适宜性梯度,但等权重可能稀释性能最佳算法的贡献。EMwmean通过使用评估分数对模型预测进行加权来解决此限制,通常通过强调更强模型来提高整体精度;然而,如果所选指标不能反映真实的泛化能力,加权可能会夸大验证表现并增加过拟合风险。EMca更为保守,优先考虑算法间的一致性;这通常能产生更稳定、与政策更相关的入侵物种筛查图,降低对任何单一模型特异性的敏感性。在本研究中,三种集合方法在预测刺萼龙葵潜在适生区方面均表现良好,但EMca取得了最高的评估分数,表明基于共识的集成最有效地刻画了刺萼龙葵在中国的潜在分布。
刺萼龙葵在中国的潜在分布分析
此前仅有少数研究调查了入侵中国的刺萼龙葵的潜在适生区,且主要集中于中国东北地区。本研究结果与这些早期研究一致。在新疆进行的研究表明,刺萼龙葵已从昌吉回族自治州和乌鲁木齐市向天山以北地区和新疆西部呈放射状扩散,这与本研究结果高度吻合。更广泛的中国范围调查显示,刺萼龙葵的适生区主要集中在东北和西北地区,其中华北平原被确定为潜在传播的高风险区。预测进一步表明,刺萼龙葵在中国的主要分布将集中在中国北方。在前人研究基础上,本研究更精确地将刺萼龙葵的潜在适生区刻画为中国北方半干旱至半湿润、人类活动相对频繁的区域,涉及内蒙古、黑龙江、吉林、辽宁等十三个省级行政区。通过提高区域适宜性预测的空间分辨率和准确性,本研究有效刻画了该物种在异质性环境和人为影响区域的分布,从而为其潜在适生范围提供了更现实、更详细的预测。
在中国的高度适宜区,建议每年至少对刺萼龙葵进行两次调查生长初期和种子散播前,并每月额外检查路边、建筑工地、农田和交通枢纽。可结合无人机/卫星筛查与GPS参考样带和样方搜索,以绘制侵染图并检测新生植株。相关工作应标准化,对地理标记照片进行存档,并将报告记录存储在中央数据库中,以便在清除后4-6周内触发快速响应和后续检查。
材料与方法
分布数据
刺萼龙葵的物种分布数据来自四个主要来源:全球生物多样性信息网络GBIF、中国国家标本资源共享平台NSII、已发表期刊文章和书籍中提取的信息以及研究团队在已知分布点收集的野外调查数据。共收集了377条中国境内的分布记录。为确保与环境预测变量的兼容性并减少空间采样偏差,通过在每个30弧秒网格内保留一个分布点来去除重复记录。使用R中的spThin包通过1公里最小邻近距离进行空间细化,进一步最小化潜在的空间自相关。过滤后,保留了283个分布点。
环境变量
研究共收集了59个环境变量,包括19个气候变量、35个土壤变量、3个地形变量和2个人为变量。气候变量来自WorldClim数据库1970-2000年基线期,空间分辨率30弧秒。土壤变量来自FAO土壤门户提供的世界土壤数据库v2.0,分辨率30弧秒。地形变量海拔、坡度、坡向提取自中国科学院计算机网络信息中心国际科学数据镜像网站空间分辨率25米。人为变量人类影响指数HII和人类足迹HF来自哥伦比亚大学国际地球科学信息网络中心CIESIN。为确保空间一致性,所有数据集在分析前被投影到统一的坐标参考系统GCS_WGS_1984,重采样到统一的30弧秒空间分辨率,并对齐到共同网格。HF数据集使用双线性插值法进行重采样。
建模前,使用皮尔逊相关分析和方差膨胀因子VIF评估预测因子间的多重共线性。最终,25个变量满足选择标准VIF < 5,包括5个气候变量、17个土壤变量、2个地形变量和1个人为预测因子。
Biomod2集合模型的构建与评估
使用R 4.3.1中的biomod2包版本4.2-3进行建模。使用biomod_formating函数格式化物种分布记录和环境预测因子,并随机生成30,000个伪缺失点来校准模型。在模型拟合前,使用biomod_tuning函数优化模型参数。每次建模迭代中,随机选择数据集的75%包括存在点和伪缺失点用于训练,其余25%用于模型评估。分布数据和伪缺失数据被赋予同等权重。建模过程重复五次以确保稳健性。使用三个性能指标评估单模型:受试者工作特征曲线下面积ROC、真实技巧统计量TSS和科恩卡帕系数Kappa。基于筛选出的高性能模型,在Biomod2中实施了三种集合方法:集合平均EMmean、委员会平均EMca和加权平均EMwmean。使用ROC, TSS, Kappa统计量评估集合模型的预测性能和稳定性。选择预测精度最高、不确定性最低的集合模型作为最优模型,随后用于预测刺萼龙葵的潜在分布。
潜在适宜区的划定
应用自然间断点分级法Jenks natural breaks对模型预测的适宜区进行分类。
结论
刺萼龙葵已入侵中国十二个省级区域,约90%的记录分布点位于中国北方海拔1000米以下地区。主要入侵区域包括东北平原、华北平原北部和新疆天山山脉山麓。在气候、土壤、地形和人为这四类影响变量中,气候和人类活动变量被确定为刺萼龙葵在中国境内分布的最关键决定因素。具体而言,五个气候变量对其分布影响最大:降水季节性Bio15、最湿季平均温度Bio8、最暖季度降水量Bio18、等温性Bio3和最干月降水量Bio14。这五个变量共同占变量总重要性的74.4%。人类活动变量是其次重要的影响因素,贡献了模型解释力的17.6%。利用Biomod2集合建模框架,委员会平均EMca模型被确定为预测刺萼龙葵在中国适生区的最佳模型。模型预测显示,高度适宜区集中在包括内蒙古、黑龙江、吉林、辽宁在内的十三个省级行政区中人类活动频繁的半干旱至半湿润区域。这些高度适宜区主要分为三个区域:1以大、小兴安岭和长白山为界的东北平原;2华北平原北部,延伸至山东丘陵和黄河沿岸;3从准噶尔盆地到阿尔泰山的区域。这些发现为刺萼龙葵的精准监测、早期预警和有效防控提供了关键的科学依据和空间指引。