针对纳米孔长读长测序的高质量宏基因组组装工具nanoMDBG

《Nature Communications》:High-quality metagenome assembly from nanopore reads with nanoMDBG

【字体: 时间:2026年03月07日 来源:Nature Communications 15.7

编辑推荐:

  针对当前宏基因组组装工具无法有效处理大规模、高错误率的牛津纳米孔测序(ONT)数据的难题,研究人员开发了nanoMDBG。该工具通过在最小化序列空间进行纠错预处理,实现了在显著降低计算资源消耗(CPU时间和内存)的同时,从ONT数据中重建出更多高质量宏基因组组装基因组。这项研究证明,最新的ONT技术能够产生与PacBio HiFi相媲美的组装结果,对推动宏基因组学研究具有重要意义。

在探索地球微观世界——特别是那些复杂且未培养的微生物生态系统时,科学家们像拿着不清晰地图的探险家。宏基因组学(Metagenomics)技术让他们能够绕过传统培养的瓶颈,直接解读环境样本中所有微生物的遗传蓝图。其中,高质量地“拼接”出完整的微生物基因组,即获得宏基因组组装基因组(Metagenome-Assembled Genomes, MAGs),是理解微生物物种、功能及其生态角色的关键。近年来,三代长读长测序技术,如PacBio的高保真(HiFi) reads和牛津纳米孔技术(Oxford Nanopore Technologies, ONT),因其长读长优势,极大地改善了宏基因组的组装质量,使得从单个样本中获得数百个近乎完整的MAGs成为可能。
然而,通往更清晰“微生物地图”的道路上横亘着两大障碍。首先,尽管ONT平台的测序准确率已提升至每个碱基错误率约1-2%,且成本效益更高,但现有主流的宏基因组组装工具主要是为高准确度的PacBio HiFi reads优化的。当面对ONT平台产生的、读长更长但错误率相对较高的海量数据时,这些工具往往“水土不服”,难以有效扩展。其次,对大型数据集(例如一个400 Gbp的土壤样本)进行高效组装,对计算资源和时间提出了巨大挑战。如何让强大的ONT测序能力,转化为同样强大的高质量宏基因组组装能力,是研究人员亟待解决的问题。为此,一项发表在《Nature Communications》的研究推出了新工具nanoMDBG,旨在攻克这些难题。
为了开展这项研究,研究团队主要应用了以下关键技术方法:基于最小化序列空间(minimizer-space)的序列纠错预处理算法,这是nanoMDBG的核心创新,用于高效处理ONT reads的高错误率;针对大规模ONT宏基因组测序数据的de novo组装算法,是工具的主要功能;在包括大型土壤样本在内的多种ONT数据集上进行的基准测试与性能评估,用于验证工具效果;通过与现有最佳ONT组装工具metaFlye等对比,评估组装质量(以高完整性、低污染的MAGs数量为主要指标)以及计算资源消耗(CPU时间和内存占用)。
nanoMDBG的性能评估
为了验证nanoMDBG的有效性,研究团队在多套ONT测序数据集上进行了测试。结果表明,nanoMDBG能够从这些数据中重建出比现有最佳ONT组装工具(metaFlye)多出近一倍的高质量MAGs。这直接证明了其在提升组装产出质量方面的优越性。
计算效率的比较
除了组装质量,计算效率是实际应用中的另一关键考量。评估结果显示,在处理相同数据集时,nanoMDBG所需的CPU时间和内存消耗仅约为metaFlye的三分之一。这标志着nanoMDBG在计算资源利用上实现了显著优化,使其能够更高效地处理大型数据集。
ONT与PacBio HiFi技术的比较
一个关键性的发现是,当使用最新的ONT技术并在相同测序深度下,nanoMDBG能够获得与使用PacBio HiFi reads相媲美的MAGs构建结果。这一结论打破了以往认为HiFi数据在准确性上具有绝对优势的认知,为成本更低的ONT技术在高质量宏基因组研究中的应用提供了有力证据。
大型复杂样本的组装挑战
研究特别测试了nanoMDBG在超大型、复杂性高的数据集上的表现,例如一个大小约400 Gbp的土壤宏基因组样本。面对这一极具挑战性的任务,nanoMDBG依然成功运行并完成了组装,展示了其处理现实世界复杂样本的强大扩展能力和实用性。
综上所述,本研究开发并验证了nanoMDBG这一专门为最新牛津纳米孔测序数据优化的宏基因组组装工具。结论指出,nanoMDBG通过引入最小化序列空间纠错的预处理步骤,有效克服了现有组装器难以处理大规模、有噪声ONT数据的局限性。其显著优势体现在两个方面:一是产出更多高质量、近乎完整的宏基因组组装基因组;二是大幅降低了对计算资源(CPU时间和内存)的需求,提高了组装效率。讨论部分强调了这项研究的重要意义:它不仅仅是一个新工具的发布,更标志着宏基因组学研究方法学上的一次进步。nanoMDBG成功弥合了低成本、高通量ONT测序技术与高质量基因组组装需求之间的鸿沟,使得研究人员能够利用ONT数据获得与PacBio HiFi技术相当的分析结果。这将极大促进大规模、深度微生物组研究的开展,特别是在环境微生物学、人类肠道微生物组等需要处理极端复杂样本的领域,为更经济、更高效地揭示微生物世界的奥秘提供了强大的新工具。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号