超越生物多样性:将不确定性纳入宏条形码(metabarcoding)数据以改进生态关系推断

《Molecular Ecology Resources》:Beyond Biodiversity: Incorporating Uncertainty Into Metabarcoding Data for Improved Inference of Ecological Relationships

【字体: 时间:2026年05月28日 来源:Molecular Ecology Resources 5.5

编辑推荐:

  环境DNA(environmental DNA, eDNA)的宏条形码(metabarcoding)测序数据正迅速扩展,成为生物多样性调查的一种强有力方法。为了诠释这类数据,需要能够考虑与eDNA采样、测序及分析相关不确定性的工具。eDNA标记基因分析所得数据

  
环境DNA(environmental DNA, eDNA)的宏条形码(metabarcoding)测序数据正迅速扩展,成为生物多样性调查的一种强有力方法。为了诠释这类数据,需要能够考虑与eDNA采样、测序及分析相关不确定性的工具。eDNA标记基因分析所得数据不同于许多传统生物多样性调查方法,因为其具有高度复杂性、稀疏性以及组成型(compositional)特征。方法学偏倚在采样与测序流程的每一个步骤都会产生不确定性。因此,至关重要的是,使用者需要一种解释eDNA结果的方式,该方式既能考虑其组成型本质,又能对斑块化采样、PCR扩增偏倚以及可变测序深度等因素导致的不确定性进行建模。本文介绍MAMBO:基于建模贝叶斯出现概率的宏条形码分析(Metabarcoding Analysis using Modeled Bayesian Occurrences)。MAMBO通过计算机模拟重复(in silico replication),对测序和分析过程周围的不确定性进行建模。此外,该方法利用这些建模后的序列计数数据,通过贝叶斯回归(Bayesian regression)对两组标记基因进行相关分析,从而促进由这些检测体系所针对的不同生物类群之间的联系建立。与相关网络分析(correlational network analyses)相比,MAMBO克服了环境DNA标记基因数据稳健统计分析中的诸多局限,并为揭示时空尺度上的生态格局提供了新的洞见机会。
该文发表于《Molecular Ecology Resources》,核心目标是在环境DNA(environmental DNA, eDNA)宏条形码(metabarcoding)数据分析中系统纳入不确定性,从而提高跨标记基因、跨营养级生态关系推断的稳健性。研究背景在于,宏条形码技术已成为生物多样性监测的重要工具,能够通过扩增特定标记基因、测序扩增子并进行分类注释,从环境样本中重建从原核生物到真核生物乃至脊椎动物的群落组成。然而,这类数据在解释上长期面临一系列结构性难题:其一,eDNA工作流程横跨采样、DNA提取、PCR扩增和高通量测序等多个环节,每一步均可能引入分类群特异性偏倚;其二,测序读数本质上属于组成型数据(compositional data),任一特征的读数变化会影响其他特征的相对比例;其三,数据通常高度稀疏,低频特征和稀有分类群的检测高度依赖测序深度与随机过程;其四,不同样本间测序量差异显著,导致检测概率并不一致。上述因素共同导致宏条形码读数既难以直接反映真实相对丰度,也使不同营养级之间的相关性推断容易受到偶然性和方法学噪声干扰。

现有分析方法对此处理并不充分。常见的方差稳定化、累积和缩放、伪计数添加及对数比变换等方法,在零值众多、低频特征丰富的宏条形码数据中存在明显局限;稀释化(rarefaction)虽然统一了测序深度,却会丢失有效信息;单次排序分析亦无法刻画由采样、扩增和测序随机性所带来的样本位置波动。因此,研究人员提出MAMBO,以显式传播读数不确定性,并在此基础上建立不同标记基因数据集之间的贝叶斯联系模型,用于识别潜在的生态组织关系与群落联动模式。

研究人员开发的MAMBO本质上由两部分组成:首先,将每个样本中每个序列特征的原始读数转换为Beta分布(Beta distribution),以表示该特征在样本中的出现概率或相对发生概率;其次,基于这些分布进行重复抽样,形成多次“计算机内重复”数据集,对每次抽样结果分别开展主成分分析(principal component analysis, PCA)和贝叶斯线性建模(Bayesian linear model)。与传统只分析单一读数表不同,MAMBO把测序深度不足、稀有特征不稳定、零值观测含义不确定等因素转化为概率分布宽度,并在重复分析中持续传播这一不确定性。由此得到的不是单个固定排序结果,而是一组带有置信椭圆的样本位置分布,以及不同主成分之间预测关系的后验支持度。

为验证方法适用性,研究人员分析了3组公开数据。第一组为加州洋流生态系统(California Current Ecosystem, CCE)海洋水柱样本,包含16S rRNA与18S rRNA扩增子数据;第二组为Blackman等发表的欧洲河流季节性淡水eDNA数据,包含COI与12S rRNA数据;第三组为墨西哥湾GOMECC海洋水柱样本,包含16S rRNA与18S rRNA数据。结果显示,MAMBO不仅可重复传统排序中由水深、季节或空间梯度驱动的主要群落结构,还能量化不同样本、不同标记基因在排序空间中的不确定性尺度。例如,CCE与GOMECC数据中,16S和18S群落均主要沿水深分离;但MAMBO进一步显示,16S数据对应的置信椭圆往往比18S更大,提示前者在重复抽样下变异更高,可能反映测序深度、PCR随机性或群落结构本身导致的不稳定性。该信息对于实验设计具有直接意义,因为它提示不同标记基因或不同环境样本可能需要不同的测序深度或重复策略,才能获得足够稳定的生态推断。

方法层面上,研究人员还利用贝叶斯线性模型将一个标记基因数据集中的主成分作为预测变量,评估其对另一个标记基因主成分的解释能力。模型中引入Bernoulli“开关”参数(switch parameter),通过后验分布判断某一预测主成分是否稳定进入模型。该设计使MAMBO能够从群落整体变异结构层面,而非仅从单个ASV之间的两两相关层面,识别不同生物类群之间可能共享的生态组织驱动因子。相较于传统相关网络分析,此方法更适于识别“类群集合对类群集合”的联动关系,即由多个特征共同构成的生物组合及其跨营养级联系。

技术方法概括:研究人员基于3个公开样本队列开展验证,包括CCE海洋水柱样本、欧洲河流季节性淡水eDNA样本及GOMECC墨西哥湾海洋水柱样本。主要方法包括:对原始读数表进行过滤;将每个特征在每个样本中的读数转换为Beta分布以表示出现概率;进行多次重复抽样获得相对发生率矩阵;基于logit转换后的相对发生率实施PCA并保留解释度高于随机特征的主成分;采用带Bernoulli开关的贝叶斯线性模型评估预测标记基因主成分对响应标记基因主成分的显著性;结合离群载荷识别驱动主成分的关键特征并在有分类注释时进行分类学解释。

以下结合原文结果小标题进行归纳。

3.1 Read Count Probability Distributions Provide Uncertainty Estimates
这一部分说明了MAMBO的理论基础。研究人员指出,经验性读数应被视为特征相对丰度的概率分布,而非确定值。Beta分布的宽窄由样本总读数与该特征自身读数共同决定:高读数样本与高丰度特征具有更窄分布,表示更低的不确定性;低测序深度和稀有特征则对应更宽分布,表示更大的估计波动。特别是零读数不应简单解释为绝对不存在,因为在不同测序深度条件下,“未观测到”所代表的真实存在概率并不相同。通过Binomial联系推导Beta分布参数,MAMBO更加合理地表达了零值与低频值背后的不确定性。

3.2 Replicated PCAs Demonstrate Data Set Structure and Variability
这一部分展示了重复PCA在表征群落结构及其稳定性方面的优势。CCE案例中,16S与18S数据均显示样本主要按水深分离,浅层样本组内变异通常高于深层样本;采样水深范围较小的CN18F数据集聚类最弱,主要分离因素转为采样设备差异。Blackman淡水数据中,COI沿PC2按季节分离,12S则未表现出清晰的季节聚类,并且12S较COI具有更低平均读数和更高变异。GOMECC数据中,16S和18S均形成两个主要样本簇,分离主要由深度驱动,经度亦与PC1相关。研究人员强调,MAMBO生成的置信椭圆为传统单点排序增加了不确定性维度,可避免对表面分离格局的过度解释。

3.3 Bayesian Modelling Provides Linkages Between Different Trophic Levels
这一部分是MAMBO相对常规排序分析的关键扩展。研究人员通过汇总Bernoulli开关后验分布,识别哪些预测主成分在多数模型重复中稳定进入模型,从而确定16S、COI等低营养级标记数据中哪些主成分对18S、12S等高营养级标记数据具有显著预测力。随后,可将预测与响应主成分绘制于同一排序图中,检验二者是否存在稳定线性关系。原文指出,这种关系提示:驱动预测群落变异的一组ASV,可能影响响应群落,或与响应群落共同受到相同环境驱动因子控制。由此,MAMBO提供的是可供后续实证研究检验的生态联系假设,而非单纯的相关共现结果。

3.4 Important Features Can Be Identified Taxonomically
这一部分进一步说明,MAMBO不仅能识别主成分层面的关系,还可通过载荷离群值提取驱动这些关系的关键特征并连接分类学注释。在CCE数据中,4个微生物ASV在3个数据集中均被识别为重要预测特征,涉及Flavobacteriales、SAR11、SAR86及Ca. Nitrosopumilus等类群;这些类群此前已被报道与浮游植物群落或深层低氧水团相关。18S响应特征则包括Diplonemea、Acantharia、Cyclotella、桡足类和多种甲藻,且不同载荷符号对应浅层与深层样本分布差异。Blackman数据中,COI预测特征与12S响应特征揭示了部分昆虫与鱼类相关线索,例如Baetis rhodani和Simulium,但12S数据也存在疑似实验室污染或非目标扩增问题。GOMECC数据中,16S预测ASV主要为广泛分布的海洋细菌和古菌类群,如SUP05、SAR324、Nitrosopumilaceae和SAR11 Clade II;18S响应ASV则多为生态功能尚不清楚的原生生物谱系,尤其是Eupelagonemidae。原文据此强调,MAMBO识别出的往往是与特定海洋生境、水团条件和深度梯度相关的类群组合。

讨论部分总结表明,MAMBO通过从Beta分布反复抽样,将不确定性直接纳入线性模型与降维框架,提供了一种约束扩增子测序数据不确定性的新方法。其核心贡献在于:第一,允许基于读数分布而非单点读数理解样本和特征;第二,以重复PCA量化排序结果稳定性;第三,通过贝叶斯建模将两个标记基因数据集联系起来,从群落结构层面识别潜在生态耦合;第四,可进一步提取驱动这些关系的关键分类单元,为多营养级生态假设提供候选对象。研究人员同时指出,MAMBO适用于ASV、OTU或ZOTU等不同层级的特征表,并可用于同一标记基因的两个数据集或不同标记基因的跨群落关联分析,体现出较强的通用性。

研究结论部分可译述如下:环境DNA(eDNA)正日益成为生物多样性监测及环境因子与生物群落组成关系研究的有力工具。然而,其在跨时空尺度识别分类群生态关系方面的能力仍然受限。这在一定程度上源于eDNA序列数据与真实生物多样性之间、包括与物种丰度之间,仍存在不确定性。影响数据生成各阶段的偏倚,对提升管理与保护应用所需的数据置信度构成了重要挑战。该研究聚焦于扩增子序列数据分析这一环节,提出方法以帮助约束读数层面的不确定性。研究同时提出一种连接不同宏条形码数据集以推断生态关系的新途径。与可识别单个ASV两两关系的传统网络分析相比,MAMBO识别的是预测群落与响应群落中的类群组合,因此更有潜力揭示由多个成员构成、且在自然界中可能更常见但迄今更难识别的生物集合关系。总体而言,这些方法有望提升基于分子数据的生物多样性评估准确性,并通过揭示新的分类共现格局推动生态学研究发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号