PhyloRef:基于系统发育异常检测的环境DNA(eDNA)参考数据库半自动化校订工作流

【字体: 时间:2026年02月28日 来源:Ecology and Evolution 2.3

编辑推荐:

  这篇综述系统介绍了PhyloRef,一个基于Snakemake的、半自动化的系统发育引导工作流,用于提升环境DNA(eDNA)参考数据库的质量。通过整合完整线粒体基因组与单基因序列,结合基于聚类的异常检测(而非严格的单系性要求)与“similar_to=”注释机制,PhyloRef有效识别并处理公共数据库(如NCBI)中存在的注释错误、物种误识别和序列污染问题。其在板鳃亚纲(Chondrichthyes)与辐鳍鱼纲(Actinopterygii)数据集上的验证表明,该工具能高效检测并移除异常序列(如软骨鱼类9条、硬骨鱼类401条),并对模糊系统发育位置的序列进行标注,从而显著提高下游eDNA生物多样性评估的可靠性。未来发展方向包括整合机器学习进行异常检测、纳入核标记以提升分类分辨率,并开发自动化更新模块,为eDNA研究和生态监测提供更稳健的参考数据基础。

  
1 引言
环境DNA(eDNA)分析因其在生物多样性监测、入侵物种检测和濒危物种保护中的广泛应用而受到广泛关注。然而,当前广泛使用的公共数据库(如GenBank、BOLD)常存在注释错误、物种误识别和序列污染等问题,导致生物多样性评估结果不可靠。现有质量控制方法多依赖基于规则的过滤或系统发育检查,前者可能遗漏系统发育不一致的记录,后者则难以扩展到大规模数据集且缺乏标准化流程。
2 材料与方法
PhyloRef是一个模块化的Snakemake工作流,接受物种名称列表或登录号列表作为输入,包含数据获取、基因提取、序列比对、系统发育树构建、异常检测、人工校订和最终数据库组装七个顺序模块。其核心创新包括:
  • 数据获取与预处理:支持基于物种名或登录号的批量检索,通过记录级过滤和物种级亚采样平衡分类代表性与数据集规模。
  • 基因提取:基于GenBank注释提取用户指定的线粒体基因(如COX1、12S rRNA),支持多基因串联用于系统发育分析。
  • 系统发育分析与异常检测:序列按分类阶元(默认按目)分组后进行MAFFT比对和FastTree系统发育推断。异常检测基于拓扑结构与分类注释的一致性,将异常分为三类:
    • 类型I(绿色异常):单一序列在其预期属、科或目级分支外聚类,可能源于注释错误。
    • 类型II(蓝色异常):同一物种的两条序列未能聚类在一起,显示不一致的系统发育位置。
    • 类型III(红色异常):物种具有三条及以上序列,其中至少一条明显偏离主支系,可能反映种内分歧、数据污染或物种边界模糊。
  • 人工校订与标签分配:用户可基于PDF树和异常类型进行人工检查,确认错误的序列被移除,而系统发育模糊的序列则记录在similar.txt中,用于后续添加“similar_to=”注释。
  • 数据库构建与版本控制:最终数据库以GenBank和FASTA格式输出,其中FASTA头文件中会为无法区分的序列组添加“similar_to=”标签,以提示下游分析中存在分类不确定性。
3 结果
PhyloRef在板鳃亚纲和辐鳍鱼纲的完整线粒体基因组数据集上进行了验证。初始检索获得2234条软骨鱼类和16,795条硬骨鱼类序列,经过滤和亚采样后,分别保留389条(269种)和7570条(4957种)序列用于分析。
  • 异常检测结果:在软骨鱼类中,PhyloRef标记了7条绿色异常、10条蓝色异常和3条红色异常,经人工确认后共移除9条异常序列。在硬骨鱼类中,标记了102条绿色异常、363条蓝色异常和317条红色异常,最终移除401条异常序列。值得注意的是,即使RefSeq(NC_)条目中也发现了错误序列(硬骨鱼类128条、软骨鱼类6条),表明仅依赖元数据验证不足以保证数据质量。
  • 分类分布与质量评估:对硬骨鱼类前10大科的序列质量评估显示,错误序列(error_seq)比例在1.40%–12.26%之间,模糊序列(similar_seq)比例在4.50%–24.70%之间。其中,Gobionidae、Xenocyprididae和Nemacheilidae等科的问题记录比例较高(约32%、27%和25%)。
  • 系统发育模糊案例:研究还识别了多组系统发育位置模糊的序列,如Epinephelus bruneusE. moaraSomniosus microcephalusS. pacificus以及Carassius属内多个物种,这些案例反映了近期物种分化、线粒体渐渗或不完全谱系分选等生物学过程,而非数据库错误。这些序列被保留并标注“similar_to=”,以提示下游分析中的不确定性。
  • 最终数据库:校订后的数据库包含380条软骨鱼类线粒体基因组(代表266种)和7258条硬骨鱼类线粒体基因组(代表4887种),所有序列均以标准化格式公开提供。
4 讨论
  • 系统发育模糊序列的管理:PhyloRef采用保守的“similar_to=”注释策略,既保留了可能反映重要进化过程(如杂交、近期辐射)的序列,又明确提示了分类不确定性,有助于减少eDNA代谢条形码研究中的假阳性鉴定。
  • PhyloRef的优势与当前局限:其优势在于利用完整线粒体基因组提升系统发育分辨率,提供结构化的异常分类与“similar_to=”注释机制,并通过分组策略提升计算可扩展性。然而,当前方法仍主要依赖线粒体标记,难以检测核基因渐渗或不完全谱系分选导致的冲突;稀疏的分类采样可能影响推断可靠性;且短eDNA扩增子(~200–300 bp)提供的系统发育信号有限,可能增加异常检测的假阳性。此外,尽管自动化程度提高,专家审查仍是解释模糊案例(如杂交或隐存种复合体)的必要环节。
  • 未来发展方向:包括整合机器学习模型以提升异常检测性能、纳入核标记(如ITS、18S)以改善复杂进化历史的解析、开发自动化更新系统以维持数据库时效性,以及通过算法优化和并行计算提升大规模数据集的处理效率。
5 结论
PhyloRef通过将系统发育拓扑分析整合到可重复的Snakemake工作流中,为eDNA参考数据库的校订提供了一个实用且可扩展的工具。其在软骨鱼类和硬骨鱼类数据集上的验证证明了其检测错误注释、模糊系统发育位置及潜在生物学信号(如渐渗或不完全谱系分选)的能力。总体而言,PhyloRef有助于提高参考序列质量,帮助研究人员减少注释错误并更自信地解释分类不确定性。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号