社交媒体数据赋能:追踪全球变化下蝴蝶(Acraea terpsicore)分布区快速迁移的新视角

《Conservation Biology》:Harnessing social media data to track species range shifts

【字体: 时间:2026年02月14日 来源:Conservation Biology 5.5

编辑推荐:

  本文系统评估了整合社交媒体(如Facebook和Flickr)生物多样性数据在追踪物种分布区变化方面的潜力。研究以快速扩张的斑珍蝶(Acraea terpsicore)为模型,发现社交媒体数据可弥补传统数据库(GBIF)在数据覆盖上的地理偏差,显著增加物种出现记录(提升35%),并揭示出仅用GBIF数据未能捕获的、分布于高海拔及低温低降水区域的种群。基于联合数据构建的物种分布模型(SDM)展现了更高的扩张速率,证实了社交媒体数据对于实时监测气候变化引发的生物多样性再分布具有重要价值。

  
1 引言
当今时代正面临着严峻的生物多样性危机,其驱动因素包括农业集约化与扩张、栖息地丧失与破碎化、生物入侵以及气候变化。为应对这些复合环境压力,许多物种已经并正在改变其分布。然而,人类对此现象的理解存在明显的地理和分类学偏差。例如,关于物种分布区变化的系统综述显示,已记录的变化大部分集中于开花植物,而昆虫、鸟类等类群占比不均,且研究地域高度偏向全球北方地区,来自热带和南半球的研究十分有限。评估物种分布变化需要详细的物种分布数据,而这正是南半球国家所缺乏的。这种数据空白导致了对全球范围内受气候变化影响而发生迁移物种的认知偏差。因此,为在真正全球尺度上理解物种再分布,整合所有来源的数据至关重要。
技术快速进步,尤其是智能手机、数码相机和高速互联网的普及,彻底改变了数据收集方式。如今,世界各地的人们都有潜力在各种数字平台上分享其生物多样性观察记录。若能被妥善利用,这类数据可以填补生物多样性分布与监测的知识空白,并帮助解答物种如何响应全球变化的问题。这对于那些缺乏系统性生物多样性监测项目、在全球生物多样性数据库(如GBIF)中代表性不足的国家尤为重要。近期研究表明,社交媒体(如Facebook)上的生物多样性数据可能比GBIF数据更具代表性。将社交媒体数据与GBIF数据结合,可以显著改善保护评估,例如识别优先保护区域。然而,来自社交媒体的生物多样性观测数据很少被用于保护评估或追踪迁移物种。
作为概念验证,本研究旨在通过采集和利用社交媒体数据,评估一种当前正因全球变化而发生快速分布区扩张的生态重要蝴蝶——斑珍蝶(Acraea terpsicore)——的分布模式。选择该物种作为模型,一是因为它正经历有据可查的、由全球变化驱动的活跃分布区扩张,具有生态学重要性;二是因为其高可见度和易识别性,使得其在社交媒体上被频繁拍摄和分享,从而提高了通过社交媒体被检出的可能性。
2 方法
2.1 斑珍蝶
斑珍蝶具有明确的已知地理分布区,且其魅力吸引着社交媒体上的公众高度关注。该蝶原产于印度次大陆,自20世纪80年代以来,已迅速扩张至南亚和东南亚其他地区,并于2012年进入澳大利亚。自抵达澳大利亚后,该物种在该国境内的扩张速率约为每年135公里,同时保持在其原始气候生态位内。该物种能适应广泛的栖息地类型,并能进行长距离迁移,这促进了其向新区域的扩张。
2.2 数据
研究从三个来源收集了斑珍蝶的出现记录和地点数据:GBIF、Flickr和Facebook。为确保可比性,选取了2005年1月至2024年5月期间的数据。通过两种方法去除潜在的重复记录,并使用了经纬度坐标相同的4.65公里2网格单元进行去重。在Flickr和Facebook上搜索数据时,仅使用科学名和英文俗名以确保与GBIF的一致性。
GBIF数据从官网手动下载,仅保留坐标不确定性低于10公里的出现数据。使用基于Flickr API的Python脚本收集相关公开帖子,并手动确认照片中的物种身份。Facebook数据则遵循已发表的协议进行提取,过程分为三个步骤:通过组合分类群和国家名称搜索蝴蝶群组;审查每张照片并验证物种信息;利用Google Maps对地点进行地理配准以获取坐标。在初始数据清理过程中,去除了所有重复记录。
研究使用TerraClimate数据库获取年气候预测变量,重点关注10个与生态相关的生物气候变量,并使用了来自WorldClim的相同空间分辨率的海拔数据。
2.3 数据准备
为分析斑珍蝶的分布变化动态,将2005-2024年期间划分为5个4年间隔。对于每个时间间隔和数据集,每个网格单元保留一个出现记录。最终,将GBIF数据集与社交媒体数据集合并,形成联合数据集,从而得到两个用于后续分析的数据集:GBIF-only数据集与联合数据集。
对于环境变量,裁剪图层至研究范围,并计算每个时间间隔内各生物气候变量(除海拔外)的平均条件。检查了9个生物气候变量与海拔之间的多重共线性,移除了高度相关的变量(|r| > 0.7),最终保留了7个变量用于最终分析。
2.4 栖息地适宜性地图
为获取斑珍蝶的栖息地适宜性地图,研究使用MaxEnt软件拟合了物种分布模型。每个时间间隔运行模型两次,分别基于GBIF-only数据集和联合数据集。模型使用7个预测变量。为控制公民科学观测中的潜在偏差,背景点采用了目标组伪缺值法,使用了另一种类似的范围迁移蝴蝶物种(Papilio demoleus)的出现记录作为伪缺值点。
为改进MaxEnt的建模性能,执行了校准程序,在6种特征类组合和8种不同的正则化乘数下拟合模型。使用最低的校正赤池信息量准则选择最佳模型。利用10%遗漏率阈值将适宜性图转换为二值图,并计算这些二值图的质心位置以估算分布区扩张速率。
2.5 生态位评估
研究使用ecospat R包评估额外的社交媒体数据是否导致物种占据的实现生态位空间出现显著差异。量化了每个时间间隔内GBIF-only数据集与联合数据集之间的生态位重叠度。使用与拟合SDMs相同的7个环境变量,提取对应出现记录的环境数据,并运行主成分分析以降维。通过Schoener's D量化生态位重叠度。
为检验GBIF-only数据与联合数据的生态位是否统计等价,进行了生态位等效性检验。随后,进行了生态位相似性检验,比较观测到的重叠度与通过随机转移一个生态位在另一个背景环境中生成的重叠度零分布。
3 结果
经清理和编译后的数据集包含6459条出现记录,其中65%来自GBIF,35%来自社交媒体。比较不同国家间的数据来源时,发现了显著差异。对于大多数国家,纳入社交媒体数据后,出现记录数量大幅增加(>25%)。在斑珍蝶已知分布的17个国家中,有5个国家从社交媒体获得的数据比例高于GBIF。社交媒体数据比例较高的国家,其总出现记录数通常较低,但比例均在10%以上。
随着时间的推移,出现记录的时间分布存在显著差异。尽管初始时期(2005-2007)GBIF数据比例较高,但随后的年份(2008-2018)社交媒体数据比例更高(2013年除外)。在2017-2022年大幅下降后,社交媒体数据的比例近期趋于稳定。
社交媒体数据的加入,显著有助于识别斑珍蝶潜在的新适宜区域。虽然基于曲线下面积统计量的平均模型性能在使用联合数据时更高,但不同时间间隔的AUC值非常相似。当结合社交媒体数据与GBIF数据时,预测为适宜斑珍蝶栖息的总表面积始终大于仅依赖GBIF数据时。通过社交媒体数据新识别的适宜区域,在2005-2008年间主要分布于南亚,而2017-2020年间则分布在整个研究区域,尤其是向高纬度地区。综合所有时间间隔的适宜性图发现,仅基于GBIF数据的模型预测遗漏了许多高纬度和中高海拔区域。在分布区扩张方面,联合数据捕捉到了更大的扩张区域(除第三个间隔外),在其他间隔中扩张距离增加了201-513公里。
在所有五个连续时间间隔中,结合GBIF与社交媒体数据的模型比仅依赖GBIF数据的模型捕捉到了更广的生态位空间。尽管两者间的生态位重叠度相当大,但在某些时期重叠度较小。生态位等效性检验显示,在大多数时间间隔,观测到的重叠度与随机化重叠度无显著差异。然而,生态位相似性检验在所有时间间隔都发现了一致的生态位保守性,观测重叠度显著大于偶然预期。
PC1和PC2解释了总方差的59-63%。PCA分析确定降水量、最高温度和海拔是决定GBIF-only数据与联合数据所覆盖环境生态位空间差异的最重要环境变量。在所有时间间隔中,GBIF-only数据未能捕获最高温度较低、降水量较低和海拔较高的区域。
4 讨论
社交媒体数据有助于减少全球生物多样性数据短缺,并改善对生物多样性(再)分布的理解以用于保护目的。然而,此类数据很少被用于大规模研究。通过使用标准化协议从社交媒体抓取数据,我们为模拟一个快速扩张物种的潜在再分布收集了比传统SDM研究(仅依赖GBIF数据)更多的出现数据。研究表明,社交媒体数据有助于识别物种分布区的新部分:出现记录增加了35%。近年来,社交媒体数据比例略有下降,这可能与新冠疫情及封锁措施有关。
系统性生物多样性监测项目和公民科学为科学家、保护生物学家、立法者和管理者提供了重要的生物多样性数据来源。我们明确了社交媒体数据在改善对物种再分布和扩散的基本理解方面的关键潜在作用,即使在调查充分的国家也是如此。通过利用社交媒体数据,我们成功识别了许多新地点,这些地点主要分布在更高纬度和更高海拔的地区,代表了GBIF视角下被忽视的、气候条件更寒冷、最高温度更低、降水量更少的区域。研究还表明,社交媒体数据有助于捕捉斑珍蝶所利用的更广泛的生态位空间。
研究使用了两个社交媒体渠道来收集更多关于斑珍蝶的出现数据。我们证明了社交媒体数据对于范围迁移、高可见度和易检测物种的效用。尽管额外数据显著改善了对范围动态的理解,但也面临若干障碍。首先,从Facebook手动提取数据耗时费力。其次,使用Flickr时面临两大数据问题:照片无位置数据以及照片被错误标记。最后,社交媒体上分享的照片可能并非拍摄者认为的物种。为解决这些问题,需要具有分类学专业知识的人员来验证照片内容。
需要战略性思考以从社交媒体数据中获取最大价值。我们使用了Facebook和Flickr,因为它们在目标物种分布的国家普遍流行。纳入其他国家流行的平台可能会提供更多新记录。此外,由于数据质量问题(如位置未指定、照片不清晰),我们不得不删除许多Facebook记录。为解决这些问题,需要群组管理员制定并维护严格的生物多样性观测分享规则。
昆明-蒙特利尔全球生物多样性框架旨在确保为保护评估提供最佳数据,并在2030年前保护地球30%的面积。通过比较最全面的全球生物多样性存储库与社交媒体之间的数据分布,我们表明,社交媒体上分享的物种出现数据可以改善对物种分布的科学认知,即使在GBIF或iNaturalist等全球存储库中代表性良好的国家也是如此。由于环境变化,范围迁移物种(包括入侵物种)正在快速扩张,而社交媒体数据在这种情况下尤其强大,因为它们允许近乎实时的监测。此外,社交媒体出现数据通常可在大的地理尺度和跨国界范围内获取,而这在仅依赖GBIF数据时并非总能实现。这使得社交媒体数据对于建立物种定殖的早期预警系统特别有用。
虽然本研究聚焦于斑珍蝶,但这些发现可推广到其他具有高识别度和拍摄潜力的可见类群。通过提高出现数据的时间和空间分辨率,我们的方法直接有助于实时保护评估,如入侵物种的早期检测、识别气候避难所或完善物种威胁评估。为将这种方法转化为保护实践,研究人员和实践者可以使用图像识别工具挖掘社交媒体平台以获取实时目击信息,与自然摄影社区互动以众包出现数据,并将验证后的记录输入GBIF或iNaturalist等生物多样性数据库,用于监测分布区变化和通知快速响应行动。
除了目前难以访问的其他平台外,还存在附带生物多样性数据。随着自动化物种识别工具的改进,这些数据可能会发挥作用。此类方法有助于更好地理解和追踪正在进行的物种迁移、新的生物相互作用以及未来的生物入侵。当前保护文献存在高度偏见,主要源于北美和西欧,这是由于热带地区长期存在显著的人力资源限制。我们的研究结果表明,结合多来源数据有助于解答关键的生态学问题,特别是对于那些在全球生物多样性存储库中当前生物多样性观测记录有限的国家。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号