结构化机器学习模型助力深海底栖生物多样性保护

《Conservation Biology》：Structured machine learning modeling to support conservation of deep-sea benthic biodiversity

【字体：大中小】 时间：2026年03月13日 来源：Conservation Biology 5.5

编辑推荐：

　　本文介绍了一项针对巴西桑托斯盆地深海底栖生物多样性预测的前沿研究。为建立高效监测框架，研究团队开发了一种新颖的两阶段结构化机器学习（ML）模型。该模型通过模拟环境变量（2M-Sim）和真实环境数据（2M）预测生物多样性，并与传统非结构化模型（1M）进行对比。结果表明，结构化模型在平均准确率上虽有微小降低（约3%），但差异不显著，证明了其在维持预测性能的同时，可优化数据获取、指导未来采样和数据驱动的管理决策，从而为生态系统监测与保护提供了更可行、高效的方案。

引言

海洋生态系统的保护旨在维持其生物多样性、功能性和抵御人为干扰的能力。这需要通过观察和分析多种环境参数来表征生态系统的基线条件，以便将自然变异性与气候变化及其他人为因素引起的变异性区分开来。然而，传统的生态学研究通常采用非结构化方法，即同时使用所有环境、空间和时间变量来建模生物多样性指标。这种方法存在局限性，包括在不收集全套预测因子数据的情况下预测生物多样性的能力有限，以及难以将生物多样性测量推广到研究较少的区域或未来。对于涉及多种生物多样性指标、需要预测不良生态系统变化并及时做出管理决策的生态系统监测项目来说，非结构化方法效果不佳。另一种选择是采用结构化建模框架，其中的建模步骤基于因果关系明确链接。建模方法的选择对于做出与时空模式相关的可靠推断、最小化推断所需的数据量以及指导最佳管理决策至关重要。实施模型导向的生态系统监测项目时，一个关键考虑因素是做出预测所需的信息量。收集和处理生物多样性数据，特别是对于海洋生物多样性，需要大量资源。高效的海洋生态系统监测计划应基于易于获取和处理并能准确预测目标变量的基本环境变量（EEVs）。

本研究旨在开发一个基于层级框架的结构化建模框架，其中空间和时间驱动因素塑造环境条件，而环境条件反过来调节底栖生物多样性。与空间驱动因素结合，结构化建模增加了分析复杂性，这可能降低其相对于非结构化方法的性能，但它使数据获取更容易，并提高了其预测的泛化潜力。明确纳入这种层次结构允许基于空间和时间驱动因素模拟环境条件，然后利用模拟结果来估计生物多样性模式。本研究专注于模型准确性与监测效率之间的实际权衡，特别检验结构化模型是否能够产生与非结构化模型一样好的预测。同时，我们还研究了基于环境条件模拟的结构化模型，其性能是否与基于真实数据生成的模型相当。

方法

研究区域与采样设计

研究区域位于巴西东南部的桑托斯盆地，地处坎波斯盆地和佩洛塔斯盆地之间。盆地面积约350,000 km²，覆盖水深25至2400米的范围。研究数据来自桑托斯项目，该数据集支持巴西国家环境与可再生自然资源研究所为巴西国家石油公司在桑托斯盆地的钻探许可颁发的环境许可证。总共沿8条垂直于海岸的断面和11条等深线分布了100个采样站点。采样分别在2019年和2021年进行。

采样与样本处理

沉积物样本通过箱式取样器或改良的范维恩抓斗采集。为描述底栖生物群落，采集了大型动物和微型动物样本。考虑了12个底栖群落变量，包括总大型动物丰度、微型动物丰度、大型动物科丰富度、微型动物类群丰富度，以及多毛类、环节动物、软体动物、甲壳动物、线虫、桡足类和动吻类的总丰度。同时分析了44个环境变量，包括粒度、有机质参数和底层水柱参数。所有这些变量都是巴西国家环境与可再生自然资源研究所环境特征描述项目所要求的。

建模框架

采用了两种不同的建模框架来从环境驱动因素预测底栖生物多样性模式，以便将新颖的结构化方法与底栖生态学中常用的传统非结构化方法进行比较。非结构化模型（1M）在一个单一的随机森林模型中，直接将测量到的大型动物和微型动物数据与现场测量的环境变量以及地理坐标联系起来。相比之下，结构化模型分为两个阶段。第一阶段，我们开发了独立的环境模型来预测环境变量的空间分布。第二阶段，第一阶段的输出结果被用作预测因子，用于构建单独的生物多样性随机森林模型。这个两阶段设计使我们能够生成并比较两种不同类型的生物多样性预测：一种基于真实环境数据（2M），另一种基于模拟的环境数据（2M-Sim）。后者允许在缺乏实际环境数据的区域进行预测。我们通过交叉验证评估了所有模型，并进行了特征重要性分析以确定主要的环境驱动因素。

分析流程

在分析之前，对每个站点的重复样本取平均值，并使用log₁₀转换生物多样性数据。为进行模型间全面比较，数据集被分为两部分：80%用于模型训练，20%用于模型验证。所有模型均使用随机森林回归算法构建，参数设置保持一致。通过特征重要性分析，检索模型选择的重要环境变量。为确保随机交叉验证未因空间自相关引入偏差，我们使用莫兰I检验了验证集残差的空间独立性。

模型比较与不确定性传播分析

所有模型比较均使用在随机森林模型训练阶段未使用的20%数据进行。首先，评估了1M和2M的绝对误差之间的差异。如果差异呈正态分布，则使用单尾配对t检验，假设误差会从1M增加到2M。否则，执行配对威尔科克森检验。第二个比较评估了2M和2M-Sim模型的误差差异，遵循相同的假设检验程序。此外，还应用了自助重采样程序来估计经验置信区间和单尾p值。为明确量化从环境模拟到生物多样性预测（2M-Sim）的不确定性传播，我们使用了蒙特卡洛重采样程序。该程序考虑了两种不确定性来源：环境模拟误差和生物多样性模型误差。

结果

模型比较

随机森林分析显示，对于12个动物描述指标，非结构化模型（1M）的平均模型性能为72%。性能范围从微型动物动吻类丰度的54%到大型动物总丰度的85%。总的来说，大型动物变量的表现优于微型动物变量。结构化模型（2M）的平均准确率相对于非结构化模型（1M）下降了3%，但这一差异大多不显著。2M-Sim模型的平均准确率为68%。对于2M和2M-Sim之间的配对检验，结果均不显著。自助重采样证实了这些不显著的结果。验证集的残差在邦弗朗尼校正后未显示空间自相关性。

特征重要性

在44个环境变量中，2M的特征重要性分析选择了30个变量，它们对至少一个底栖群落描述指标具有显著性。水密度、水温和水溶解氧是最常在回归模型中出现的三个变量。沉积物叶绿素a与脱镁叶绿素的比值、脱镁叶绿素浓度和碳酸盐百分比也是重要的变量。

生物多样性与环境格局

大型动物丰度平均从每平方米178到16,167个体不等。大型动物类群数量平均每个站点从6.3到17.3个。多毛类是大型动物中最丰富的类群，其次是甲壳动物和软体动物。微型动物丰度平均从每10平方厘米29.88到2623.89个体不等。线虫是优势类群，其次是桡足类、多毛类和动吻类。微型动物和线虫丰度在陆架边缘（25-150米）和大陆架南部区域最高。这些时间变化对微型动物丰富度和微型动物类群丰度更为明显。所有大型动物参数都显示出清晰的深度梯度；数值在大陆架和上斜坡最高，在较深的站点最低。大型动物丰富度在斜坡上特别高。与微型动物不同，大型动物描述指标没有显示清晰的时间趋势。

底层水密度在两个调查期间均高于1028 kg/m³。大陆架南部在第一次调查期间水密度低得多。水温、溶解氧和盐度也显示出清晰的空间和时间格局。它们在大陆架站点、斜坡和圣保罗高原站点之间存在差异。虽然温度和盐度在大陆架上随时间变化，但溶解氧在较深水域随时间变化。沉积物中的脱镁叶绿素浓度、叶绿素a与脱镁叶绿素的比值和碳酸盐含量没有显示出清晰的时间趋势，但具有显著的空间变异性。脱镁叶绿素在100-150米深度较高。叶绿素a与脱镁叶绿素的比值在深海站点最高，碳酸盐在陆架边缘和深海较高。

不确定性

蒙特卡洛模拟结果表明，对于所有生物多样性描述指标，90%预测区间的经验覆盖率均达到或超过了90%的名义目标，这证实了环境模拟和生物多样性模型的综合不确定性得到了准确量化。然而，这些预测区间的平均宽度在不同描述指标之间存在差异。较宽的区间与动吻类和软体动物相关，而较窄的区间则出现在丰富度指标上。在单个站点层面，预测区间成功捕获了大多数描述指标的观测生物多样性值。

讨论

海洋学过程及其对底栖生物群落时空格局的影响

桑托斯盆地的海洋学特征在近年因工业利益得到了深入研究。我们的结果证实了一些先前发现。在盆地尺度上，底栖生物的空间梯度，特别是那些与深度相关的梯度，远强于时间变化。生物多样性的时间波动确实存在，但具有位置和过程特异性。例如，巴西南部大陆架的一个重要海洋学过程是来自亚南极阿根廷大陆架的寒冷、营养丰富、低盐度水团的入侵。这些水体的影响通过一组特定的底栖生物多样性描述指标表现出来。大陆架南部沉积物中脱镁叶绿素浓度高，底栖群落参数密度高。在采样期间，南大西洋中央水占据了北部地区内陆架和中陆架超过50%的水体体积。在400米以下的较深斜坡和圣保罗高原之上，沉积物和水体参数在空间和时间上是均匀的。在较深的陆坡，沉积物中粘土浓度高，水体盐度低。在圣保罗高原，碳酸盐与远洋有孔虫壳沉积物有关。富含碳酸盐的沉积物较大的孔隙空间不利于微型动物类群的生存。

建模框架对环境监测项目的适用性

研究发现，应用结构化建模框架可以从数据中获取更多信息，并使生物多样性测量能够在桑托斯盆地的时空尺度上泛化。结构化和非结构化模型之间缺乏显著差异表明，影响该地区生物多样性的主要环境梯度被建模框架充分捕获。结合不确定性分析，这些结果证实，两阶段结构化模型（2M-Sim）的预测准确性损失最小，与基于观测环境数据的模型相当，并提供了经过良好校准的预测不确定性估计。结构化方法允许识别预测因子之间的因果关系，跨空间和时间模拟预测，从而优化未来监测项目的数据获取。

通过将机器学习算法纳入框架，可以根据最小基本环境变量集选择最佳模型，最重要的是，可以评估模型在未见数据上的性能。地理坐标、水深、时间和水体参数易于获取，在桑托斯盆地可用于预测环境条件和时空底栖群落格局。实施能够指导管理决策的预测性监测项目的下一步，是研究生物多样性相对于人为和环境变化的临界点。这些临界点对于优化采样设计至关重要。对于桑托斯盆地的底栖生物，研究发现，如果持续监测研究中涉及的30个环境变量，生物多样性估计的精度将与同步采样获得的精度相当。这些发现强调了为保护海洋生态系统构建基于可靠基线数据的强大分析框架的重要性。

从方法学角度来看，结构化建模框架被证明对环境监测项目具有重要价值。这些模型有效地捕捉了关键的环境梯度，并使研究结果能够在保持准确性的前提下得以推广。扩大数据集规模并整合来自水层区域的预测因子可以进一步提高预测能力。所提出的层级方法突出了该地区海洋学过程与底栖生物群落之间的相互作用。环境条件的时空变化，如水团、沉积物性质和有机质通量，影响了微型动物和大型动物的分布。研究结果表明，即使是深海浮游植物碎屑的少量增加也会导致底栖生物丰度升高。结论是，基于结构化模型和可靠基线数据的数据驱动监测项目，对于预测由环境和人为变化引起的生物多样性变化至关重要。这种方法对于桑托斯盆地生态系统的可持续管理和保护极为关键。

热点排行

新闻专题