《Proceedings of the National Academy of Sciences》:Nine changes needed to deliver a radical transformation in biodiversity measurement
新兴技术带来的数据洪流
生物多样性测量领域正经历快速变革,这主要得益于公民科学、图像识别、声学监测、环境DNA(eDNA)、基因组学、遥感和人工智能等领域的进步。这些变革带来了通过增加生物多样性测量的规模和分辨率来创造机遇,同时也带来了挑战,包括生物多样性监测技术可能破坏隐私的伦理关切,以及对快速移动技术的不平等获取加剧了现有的不平等和权力失衡。
目前对生物多样性数据的需求比以往任何时候都大。企业越来越需要衡量和管理其对生物多样性的影响和依赖性,这受到立法(例如欧盟的企业社会责任指令和毁林法规)以及自愿遵守自然相关财务披露工作组、科学碳目标网络或类似倡议的推动,而这些都源于消费者的压力。人们对于衡量保护政策和实践的有效性也爆发了兴趣,以便为真正基于证据的决策提供信息,包括认识到需要将评估纳入保护行动设计中。对政府而言,一个主要需求是监测其国家立法(例如英格兰的《环境法案》,其中包含阻止和扭转生物多样性丧失的目标)或对国际协议(如《昆明-蒙特利尔全球生物多样性框架》)承诺的进展。
技术的巨大进步与前所未有的社会需求相结合,为变革基于证据的生物多样性政策和实践创造了非凡的机遇。
在数据方面,可用的生物多样性数据量出现了显著爆炸式增长,这反映了新的观测技术的激增以及向数据共享的文化转变。全球生物多样性信息机构(GBIF)每年新增记录超过4.2亿条,现在正整合来自博物馆和植物标本馆、eDNA、公民科学(如eBird)以及环境影响评估的数据。这些不同的数据类型在一个中央数据库中被汇集在一起,然后提供给任何想使用它的人。超过10,000篇科学论文使用了GBIF协调的数据,并且各国政府也广泛将其用于各种目的。
机器人技术和自主系统可能会改变本节中描述的许多技术,例如通过机器人或无人机进行采样。eDNA是生物体释放到环境中的DNA,可以从土壤、水或空气中采样检测,从而实现经济高效地识别存在的物种。它已被广泛用于利用PCR和qPCR检测的特定物种检测研究,以及使用元条形码技术的群落(即多物种)研究。研究人员可以通过对保存的样本(如永久冻土、湖泊沉积物、泥炭或空气样本)进行采样来比较群落,包括微生物群落(它们对环境变化的反应特别快),从而研究长期变化。
除了能够基于eDNA片段识别物种外,测序技术的快速进步使得生成高质量完整基因组(包括参考基因组)成为可能,这有助于物种识别、理解物种遗传多样性以及变体在空间和时间上的分布,以及物种的历史。这些信息可用于识别更具恢复力的保护/辅助迁移基因型以及正在经历压力的种群。
图像和声学信号识别,即AI基于生物的外观或发出的声音来识别物种的能力,正在快速向大规模自动化数据收集发展,例如来自分布式声学传感器或相机陷阱网络。自动识别听觉记录的技术正在迅速改进,适用于陆地和海洋物种。例如,BirdNET使用深度人工神经网络,到2025年可识别的物种数量已增加了两倍。应用于菲律宾青蛙的类似方法既显示出高识别准确率,也具备检测科学家先前未描述物种的能力。改进的方法开发、可用于模型训练的录音的快速积累,以及为从昆虫到鲸类等各种类群创建基准数据集的初步工作,都表明这些方法的使用和复杂程度将迅速增长。
公民科学是另一个快速增长的领域,包括在提供新技术方面。集中式数据库极大地增强了此类数据的效用。eBird在2025年记录数量超过20亿,由110万人收集。同样,截至2025年6月,iNaturalist已积累了近2.5亿次对超过51.8万个物种的观察记录,其中大部分都有照片记录,由超过370万人贡献。
博物馆和植物标本馆的自然历史收藏数字化,有潜力使全球超过30亿份标本中的更多部分变得可访问,将历史收藏与当前观察联系起来。这些记录与博物馆或植物标本馆中的物理凭证有直接联系,并且由专业的分类学家/系统学家收集;标本图像的数字化也将为基于AI的物种识别提供注释良好的数据源。
近年来,遥感技术也取得了长足发展。遥感现在允许对生态系统进行详细测绘,例如全球森林观察和沿海系统。技术不断改进,例如,高光谱卫星和P波段雷达扩展了频率范围,提高了调查和开放获取数据集(如欧洲航天局的Sentinel 2,每5天提供10米分辨率数据)的分辨率和频率。在地球引擎平台等系统内,整合来自光学、雷达、激光雷达和其他来源数据的地理空间基础模型的发展,是改进遥感数据使用前景的途径。这些系统在监测土地覆盖和土地利用变化、树种组成动态、绘制压力图、模拟物种分布以及检验保护措施结果方面具有巨大潜力。这些由AI支持的遥感技术可能极大地改变生物多样性测量。地球观测数据已经帮助政策框架变得可衡量。例如,《全球生物多样性框架》41%的总体指标是空间明确且依赖地球观测的。
低成本可穿戴传感器的发展意味着可以大规模记录动物的运动,从而改进对扩散、迁徙、行为、生理、健康以及个体间相互作用的量化。这些高分辨率、广泛分布的数据有望极大地改进生态预测,例如物种分布模型预测气候变化响应的能力。
关于变革生物多样性测量以帮助应对生物多样性危机的建议
我们提出了九项建议,以充分利用生物多样性测量领域快速变化的格局,确保其能为应对生物多样性危机做出贡献。
1. 利用新技术的整合数据源能力
生物多样性信息通常包括来自单一不同来源的数据,包括听觉、eDNA、基因组学、原住民知识、博物馆标本、遥感和视觉数据。当前的一个重要发展是结合不同信息来源,创建整体模型,以捕捉来自卫星图像的大尺度模式和来自地面测量的精细尺度、生态相关信息,从而产生更全面、更准确的全球生物多样性图景。这些互补的数据源为生物多样性监测提供了可扩展的方法,提供了单一方法无法捕获的详细洞察。
AI的进步,特别是无幻觉的生成式AI,代表了从这些通常互不关联的数据源中获取洞察的机会。生成式AI通过高效地组合和分析现有数据集,增强了我们大规模收集、处理和综合生物多样性数据的能力。这些工具可以揭示通过人工综合难以实现的新模式。例如,AI应用已被用于更准确地模拟物种分布、改进栖息地分类、识别外来物种的入侵途径以及预测人类与野生动物冲突区域。它们还可以通过揭示复杂数据中的隐藏模式来支持对非法野生动物市场贸易路线的分析。
依赖生成式AI洞察的瓶颈在于一个基于准确地面实况的稳健验证流程,特别是在有历史数据空白的空间区域。因此,一个主要的严峻挑战在于为足够大的区域资助和实施综合监测工作,或开发可可靠地外推到更大地理区域的具有成本效益的方法。克服这些后勤和财政障碍对于制定全面和可扩展的全球生物多样性和生态系统状况评估解决方案至关重要。
2. 就数据收集的标准方法达成一致
生物多样性测量方法的不一致阻碍了数据的所有主要用途:全球多样性的比较、变化评估、行动有效性的确定以及绩效报告。例如,在物候变化的一项元分析中,Brown等人发现方法学变异解释的方差几乎与生物变量解释的一样多。更广泛地说——对于国家、企业、非政府组织和社区的用例——需要一种整体方法,为多方利益相关者的全球监测标准提供一个框架。由一个国际机构(如)协调,这样一个框架将开发、认可并推广一个分层和模块化的监测工作流程——从数据采集和管理到分析、指标计算和报告。该框架将包括现有的基本互操作性标准(例如,达尔文核心)以及针对各种生物群落、分类群和技术(例如,eDNA、遥感和AI使用)的更高级、具体的标准。至关重要的是,需要明确的指导、能力建设计划和激励措施(包括与资金和监管要求挂钩),以确保广泛采用。一个遵循FAIR和CARE原则的监测标准框架将确保数据工作流程是可验证、可发现、可审计、可重用和符合伦理管理的,特别是关于原住民和当地社区的知识。
这可以建立在已有标准化过程的现有社区的标准和经验之上,例如美国国家生态观测站网络、美国林务局清单分析、草根全球养分网络、森林GEO和TreeDivNet。在森林生态学中,已经制定了建立森林样地和监测其中树木的标准化方法,这产生了一个产生长期数据的全球站点网络,实现了全球分析,并因一致的数据而大大加强。从生物多样性基因组学界(包括地球生物基因组计划)中也可以吸取教训,该计划建立了国际科学委员会,创建了一套标准,其采用促成了注释、参考质量基因组的快速增长。从这些先例中汲取的关键教训是早期整合、协作性全球治理、跨机构采用的可扩展协议以及鼓励数据重用和综合的强大数据共享精神的重要性。
这些努力的目标是,在有可行替代方案的情况下,尽量减少使用不一致的方法,同时认识到标准化并不总是合适的——特别是在一致性很重要的长期监测中。方法学差异也可能因当地条件或不断发展的技术而合理。为了解决这个问题,标准应提供指导,以开放和透明的方式比较新旧方法。它们的采用依赖于强有力的激励措施、能力建设和包容性数据治理。最终,改变数据的可比性、可靠性和实用性对于基于证据的决策和追踪实现《全球生物多样性框架》2030年目标的进展至关重要。
3. 确保新技术与现有数据校准
尽管上述新方法带来了许多令人兴奋的机会,但整合来自多个来源的数据仍面临一系列挑战以确保可比性。任何观测方法变化的一个主要挑战是,记录到的生物多样性差异可能是由于真实的变化,也可能是方法学的差异。这对于传感器和AI生成的生物多样性测量尤其如此,突显了从传统实地调查到自主和远程方法的观测过程的巨大变化。虽然这对空间比较(例如,一个地点是否特别丰富或采用了新方法?)构成了挑战,但在评估随时间变化时构成了更大的问题。需要确保数据具有足够的互操作性,以进行空间和时间比较。
如果新方案和旧方案没有适当交叉校准,这种变化可能会混淆长期趋势。克服这种多数据源挑战的分析框架发展迅速,但其成功依赖于对每个监测方案的观测元数据进行清晰详细的记录,并且理想情况下,两种方案在重叠地点并行运行一段时间以允许直接比较。例如,英国常见鸟类普查和繁殖鸟类调查并行运行6年,使得新旧数据集得以结合,同时使覆盖范围增加了15倍以上。
当测序或基于传感器的方法提供与现有方案不同的生物多样性测量指标时,类似的交叉比较将尤为重要,例如,当监测从计数个体动物转向计数发声或其他声学指数时,或从传统的观察性实地调查转向eDNA时。为eDNA分析使用的样本和此类监测方案的原始数据进行存档,有助于促进重新分析和理解不断发展的硬件和软件流程的后果。
4. 利用新兴技术并提高能力填补数据空白,特别是在热带地区
生物多样性数据的地理和分类分布显示出深刻而复杂的偏差,这阻碍了就空间模式和时间趋势生成即用型信息。热带地区、土壤、中上层带和深海(这些地方都富含独特的生物多样性,并且都面临人类活动带来的威胁)数据的缺乏,使这些系统在做出影响它们的决策时处于不利地位。
少数魅力类群(最明显的是鸟类,它们主导着最大的全球生物多样性数据库GBIF)数据的丰富性,便于为这些类群定制保护决策,但这些选择对于分布不同的其他类群(例如昆虫)可能不是最优的。无脊椎动物在生物多样性保护思维中的代表性尤为不足。土壤生物群和微生物则更不为人所理解。
除了分类群之外,地理空白也很明显,尤其是在热带地区,那里不仅缺乏训练有素的人员和设备,而且通常也缺乏eDNA参考材料或听觉训练材料。因此,提高热带地区的能力是一个明确的优先事项。由于这些空白和偏差,保护目标、政策和优先事项是基于比地球上大多数物种分布更广、生态通用性更强的物种的信息设定的。
5. 创建可信信息的动态数据库,以降低被AI幻觉或虚假信息污染的风险
伪造标本、创造新物种、非法引入鸟类、从藏品中窃取鸟类标本并重新贴标等欺诈行为历史悠久。同样,虚构研究论文(包括论文工厂制造的问题也日益严重。众所周知,AI算法会生成看似合理但虚构的细节,即AI幻觉。AI带来的第二个问题是,它有助于制造数量不断增加的令人信服但伪造的数据。这可以通过为基于图像的野外观察(或听觉等价物)数据库生成AI图像,或通过创建包含虚构数据的伪造论文来实现。新颖的挑战在于,借助AI,这种伪造可以轻松且大规模地实现。动机包括职业利益、破坏或推进议程(例如,使受项目威胁的“濒危”物种看起来更常见,或声称在先前项目中取得了生物多样性收益或无危害)。这对AI数据分析和证据综合构成了生存危机。
当前的流程似乎不足以应对这个问题。黄金标准的系统评价资源密集,然而许多已经无意中引用了被撤回的出版物,其中89%在被通知撤回一年后仍未更正,随着AI伪造材料数量的增加,这个问题将会加剧。与其依赖分析信息的个人来判断有效性,一个建议的更好的文献方法是建立一个机构联盟的动态证据(即持续更新的)数据库网络,以确保科学结果的完整性。
动态的、专门的、无幻觉的AI系统可以持续收集、筛选和索引与定义主题及其衡量结果相关的文献,自动标记有问题的研究以供学术审查。这可以提供一个稳健、透明和动态的科学知识来源,支持高质量的系统评价。可以通过诸如动态元分析等过程实时进行和更新快速评价。这种方法可以保护证据综合免受可能被污染的文献浪潮的冲击。对于生物多样性数据,可能需要类似的数据库主动审查过程。
6. 确保数据生成得到重视
收集生物多样性数据的过程通常是困难且耗时的,绝不能低估其价值。虽然一些新技术可能减少对基于实地的数据收集的依赖,但本地专业知识仍然发挥着至关重要的作用。即使是记录栖息地范围或状况变化的星载传感器,也需要利用本地实地工作进行精细的地面实况验证。支持公民科学的系统需要投资,因为协调至关重要。尽管越来越多的人呼吁所有生物多样性数据都应公开,但将所有数据公开获取可能导致生产者-觅食者模型,因为没有适当的激励措施,使用数据比生成数据更有利可图。尽管开放科学的重要性得到广泛认可,但支撑科学出版的数据,许多期刊文章(包括生态学领域)仍然未能提供数据,然而,改变正在进行中。从生态学领域增加数据共享的努力中吸取的经验教训如下:i) 需要治理来实现全面变革,在这种情况下通过相关期刊和学会实现;ii) 应给予数据重用的功劳,通过共同作者身份和可引用的来源,如数字对象标识符,以减轻对数据所有权和功劳的担忧;iii) 数据产出本身可以被视为可评估的成果,例如通过资助机构和研究评估的认可;iv) 需要有足够的资源,在这种情况下通过直接资助或学术团体承担存档成本。
许多早期对热带生物多样性的经典描述归功于欧洲探险家,如冯·洪堡、达尔文和华莱士,他们在很大程度上依赖当地和原住民助手来发现、收集和分类标本。Emogor等人描述了一个流程,用于在将贡献者列为作者不合适或违反期刊政策时给予扩展功劳。
7. 确保尊重性地纳入原住民知识
原住民知识是一个集体术语,代表通过与环境互动代代积累的许多地方性知识、创新和实践。虽然每个原住民社区都有独特的文化,因此定义和术语可能有所不同,但这些知识体系与其文化的精神和社会结构密不可分,并包含道德价值观,如与自然的亲属关系、谦逊和互惠。
原住民社区曾面临殖民者要求同化的压力,这导致了医疗、生态和文化信息的丧失。考虑到被迫同化的历史,重要的是由原住民自己、按照他们自己的方式来收集和分享原住民知识。北极地区的Pisuna计划是一个成功的社区监测项目的例子,以文化上适当的方式记录了他们的知识。AI的发展有扩大原住民与科学家之间差距的风险,尽管也有AI与原住民知识结合用于决策的良好例子。
原住民和地方知识的价值在诸如政府间生物多样性和生态系统服务科学政策平台以及《生物多样性公约》等科学政策领域越来越得到认可。例如,《全球生物多样性框架》的“监测框架”为协同纳入原住民知识提供了途径。在这些国际协议中,原住民的声音也越来越多地被听到——例如,通过《生物多样性公约》下的国际原住民生物多样性论坛。这样的倡议至关重要,既有道德原因,也有实际原因,因为原住民是生物多样性的管理者。
8. 确保测量能够量化行动的有效性
在不关注能够洞察解决生物多样性危机行动影响的设计的情况下监测生物多样性结果,被称为“图书馆着火时数书”。这种方法只能描述下降,而不能直接帮助解决生物多样性危机。因此,人们对衡量保护政策和实践有效性的兴趣激增,以便为真正基于证据的政策制定提供信息。
新技术可以帮助提供足够高时空分辨率的生物多样性数据,以估算反事实:如果没有行动会发生什么。然而,大量数据并不能克服对能够将因果关系与相关性区分开来的研究设计的需求。因此,需要更大规模地将影响评估纳入保护行动。
9. 提高全球数据集对技术和社会变革的韧性
保存信息所面临的挑战并非新鲜事,1258年巴格达大图书馆的毁灭就说明了这一点。最近发生的事件,包括2018年巴西国家博物馆火灾摧毁了2000万件物品中的大部分、对大英图书馆的网络攻击,以及关键植物标本馆和博物馆的关闭,都说明了对生物收藏和数据可能造成的潜在损害。我们特别关切地注意到美国政府关闭美国数据集(包括data.gov上的2000多个数据集)的行动。
另一个问题是使用专有软件的数据存储,因为所有软件最终都会过时。数据还应始终以通用格式存储,例如带有相关文本元数据的逗号分隔数据文件。解决方案包括确保以有韧性的形式进行数据备份、多种资金来源以减少对单一来源的依赖、具有多个版本的分布式系统、地理上多样化的托管以减少政治变化的影响,以及在适当情况下受到社会和全球研究人员的谴责。一个重要目标是将生物多样性数据纳入国家或国际规定的、具有明确备份和复原机制的系统,就像国际核苷酸序列数据库协作组织为DNA序列数据所做的那样。
用于生物多样性测量的传感器的全面部署可能很容易包含数千万个部署在地球偏远地区的设备,这些设备需要联网以整理信息。互联网本身作为这个网络的长期载体,其韧性也存在类似的担忧。预计全球网络将在本十年内扩展到一万亿个节点,但面临一系列挑战,包括大量虚假、生成或低质量数据、复杂的AI驱动恶意软件、劫持大量机器发起攻击的僵尸网络,甚至通过操纵物联网设备改变物理世界。Madhavapeddy等人探讨了核心互联网架构如何从生态理论中汲取灵感,以找到确保其保持为一个有韧性、可持续和可信赖网络的方法,鉴于我们对全球生物多样性数字测量的日益依赖,这一点至关重要。受生物学启发的韧性互联网的想法包括确保构成互联网节点的软件栈具有更大的多样性、积极应对挑战、为无法部署对策的主机提供屏蔽。所有这些方法都将有助于确保主要生物多样性测量在更长时间内的安全性和完整性。
最终思考
由于对生态信息需求的增加、更全面和复杂的分析以及惊人的技术发展相结合,生物多样性科学家正处在变革性新数据洪流的边缘。在此,我们提出了一系列建议,以充分利用这些机遇,同时应对挑战。实现这些目标将需要传统上未紧密合作的社区之间进行新颖的合作。计算机科学家、工程师、分子生物学家、数据科学家、野外生态学家、公民科学家、原住民、政策制定者和当地社区需要共同努力,创建严谨、有韧性和可访问的生物多样性信息系统。最终目标是提供实时、本地化但全球可扩展的生物多样性动态评估,以在不同利益相关者所需的时间和空间尺度上为决策提供信息。