VEHoP:基于组装的同源比对系统发育基因组学新流程——突破数据限制,高效解析进化关系

《Molecular Ecology Resources》:Reliable Inference of Phylogenomic Relationship via Assembly-Based Strategy Accommodating Raw Reads and Proteins

【字体: 时间:2026年03月14日 来源:Molecular Ecology Resources 5.5

编辑推荐:

  这篇综述介绍并验证了VEHoP(一款多功能、易用、基于同源性的系统发育基因组学流程)。该流程创新性地支持从NGS短读长、三代长读长、转录组、草图基因组到完整注释基因组等多种输入数据中自动提取同源编码区,实现同源序列比对、超级矩阵拼接及系统发育树构建的全自动化,为难以获得高质量基因组的稀有物种(如深海生物)的系统发育学研究提供了有力工具,有效扩展了系统发育研究的类群取样范围,并显著降低了此类研究的生物信息学门槛。

  
背景
系统发育学是进化生物学研究中理解生物间关系的基础方法,其数据基础已从少数分子标记(如线粒体COI基因)发展到基于全基因组数据的系统发育基因组学。高质量的基因组和转录组数据的获取通常需要完整的DNA/RNA样本、大量测序投入以及复杂的生物信息学处理(如组装和注释),这对于稀有或难以采集的物种(如深海生物)尤为困难,这些物种通常仅能获得因环境降解或保存条件不佳而产生的片段化DNA序列。为突破上述限制,研究者开发了VEHoP(多功能、易用、基于同源性的系统发育基因组学流程),旨在从多种输入(包括原始读长、草图基因组、转录组、注释基因组)中高效、准确地推断进化关系。
VEHoP的描述
VEHoP是一个用Python编写的自动化流程,其核心优势在于能够灵活处理多种数据输入,包括原始读长、基因组DNA组装、转录组、注释良好的基因组或其任意组合。用户只需提供运行前缀、同源提取参考数据库(当输入DNA组装或转录组时需要)等基本信息,流程即可自动完成从数据预处理到系统发育树构建的全过程,包括自动从NCBI下载序列、原始读长的初步de novo组装、通过miniprot工具从组装结果中预测基因模型、利用TransDecoder提取质量合格的蛋白质序列、通过cd-hit去除冗余序列、通过OrthoFinder鉴定直系同源群、多序列比对、比对区域的修剪与精炼、单基因树构建、通过PhyloPyPruner去除副同源序列,最终生成超级矩阵并进行系统发育树重建。用户可根据需要调整中间步骤(如组装、修剪)和矩阵组装的质量控制参数(如保留基因的最小占有率、最小比对长度等),并可选择不同的建树方法(如IQ-TREE、FastTree、PhyloBayes、ASTRAL)。该流程设置了检查点,支持从中断点恢复运行,避免了重复计算,并可通过Bioconda、Docker、Singularity或Apptainer容器轻松安装部署,确保了环境的一致性与可重复性。
结果:基准测试
为评估VEHoP的性能,研究者在三个具有良好注释基因组的类群中进行了基准测试。
  1. 1.
    牡蛎数据集:测试了从高质量注释基因组、NGS原始读长、转录组读长以及混合数据集中重建系统发育树的能力。结果表明,基于NGS读长的重建树与基于注释基因组的参考拓扑在分支顺序上完全一致,且大多数节点获得100%的自展支持。与主流的无组装方法Read2Tree和基于k-mer的方法MIKE相比,VEHoP在树拓扑与参考树的一致性、生成超级矩阵的缺失基因率、缺口率以及基因一致性因子(gCF)方面均表现更优,尤其是在低覆盖度(小于4G)数据集上运行更快,且能处理更广泛的输入数据类型。
  2. 2.
    鲶鱼和昆虫数据集:这两个测试进一步验证了VEHoP在不同生物类群中的普适性和稳健性。VEHoP在鲶鱼和昆虫数据集上均能准确复现基于高质量注释基因组得到的参考拓扑结构,且节点支持率高。相比之下,Read2Tree、MIKE以及其他工具(如ASTER、ROADIES)的结果则出现了类群单系性被破坏、外群物种被错误嵌套、出现多歧分支等不一致或错误。
  3. 3.
    根到尖距离分析:对上述基准测试结果进行的根到尖距离分析显示,VEHoP生成的树的根到尖距离与参考拓扑高度一致,而其他方法生成的树则表现出明显差异,进一步证实了VEHoP在重建准确进化距离方面的优势。
结果:案例研究——新碟螺目(Neomphalida)腹足类
研究者将VEHoP应用于一个充满争议的深海腹足类群——新碟螺目的系统发育研究。该类群因样本稀少、组织量小、缺乏高质量基因组和转录组数据,其内部系统发育关系长期悬而未决。研究者利用已发表的Illumina测序数据和新测序的Neomphalus fretterae样本,通过VEHoP成功构建了一个包含1899个直系同源基因的超级矩阵。基于此矩阵,采用IQ-TREE(MFP模型)及位点特异性频率模型(C20、C40、C60)和FastTree进行系统发育分析,所有分析均获得了相同且高支持度的树拓扑结构,为新碟螺目内部演化关系提供了一个强有力且一致的系统发育框架,其结论支持了该类群在进化史上存在从非化能合成深海环境向热液喷口、沉木等多种化能合成生境多次过渡的假说。相比之下,Read2Tree和MIKE未能基于相同数据集解析出稳定的拓扑结构。
讨论与结论
VEHoP的开发显著降低了系统发育基因组学分析的技术门槛,使研究者能够利用公共数据库中大量未被充分利用的基因组草图、原始读长等“埋藏”数据,极大地扩展了系统发育研究的类群取样范围。尽管在极低覆盖度(<2×)数据或Windows系统兼容性方面存在局限,但VEHoP凭借其处理数据类型的灵活性、高度的可定制性、流程的自动化与易用性,以及重建树的高准确性和稳健性,展现出巨大优势。该流程的成功应用,特别是在解决深海稀有类群系统发育难题中的表现,预示着它将在未来推动更多生物类群,尤其是那些数据稀缺类群的系统发育学研究,助力构建更为全面和可靠的“生命之树”。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号