
-
生物通官微
陪你抓住生命科技
跳动的脉搏
筛选真相:通过基于KMA的生物信息学流程(KAPTAIN)在纳米孔鸟枪法宏基因组数据中进行高精度的分类鉴定
《BMC Genomics》:Filtering for truth: high-precision taxonomic classification in nanopore shotgun metagenomics data through a KMA-based bioinformatic pipeline (KAPTAIN)
【字体: 大 中 小 】 时间:2026年02月25日 来源:BMC Genomics 3.7
编辑推荐:
纳米孔测序分类流程优化:基于KMA的阈值调整提升物种分类精度,分析测序产量与检测下限(LOD)的关系,验证假阳性减少和召回率平衡,提出500M-1000M bases的适用阈值范围,并公开KAPTAIN管道资源。
霰弹枪宏基因组学技术能够在不受到培养和分离偏见的影响下研究微生物群落,但由于假阳性率较高,将分类精确到物种水平仍然具有挑战性。Oxford Nanopore Technologies通过产生更长的测序读长提供了应对这些挑战的新方法。然而,不同的数据处理流程和工具使用不同的方法来减少假阳性,导致结果存在差异,且对于哪些方法在实践中最有效尚未有充分的探索。相对丰度过滤常被用来通过去除假阳性来提高精度,但同时也会因误判真阳性而降低召回率。在这项研究中,我们优化了一种适用于长读长纳米孔测序数据的通用分类流程,以提高精度。该流程使用KMA工具作为基础分类器,并结合特定的后处理步骤和过滤阈值优化。基于十个定义好的模拟微生物群落,评估了不同的过滤阈值,同时研究了测序产量和检测限(LOD)的影响。
我们优化的流程在性能上显著优于默认的分类器设置以及传统使用的相对丰度过滤方法。随着测序产量的提高,分类准确性得到了提升,至少需要5亿个碱基的测序产量(理想情况下为10亿个碱基)才能获得可靠的结果。当测序产量超过10亿个碱基时,中位精度可提升至95%,同时中位召回率保持在91.62%。进一步将中位精度提高到99%会导致召回率降至79.08%。同样,较高的测序产量也能降低检测限(LOD)。对于测序产量超过10亿个碱基的情况,检测限在达到95%的中位精度时保持稳定;而产量低于10亿个碱基时,检测限为1%。通过对十个益生菌来源的模拟微生物群落的验证,确认了该流程的性能和普遍适用性。
我们优化的纳米孔测序数据分类流程相比传统方法具有更高的精度,适用于多种宏基因组学应用。我们提供了关于最低测序产量及其对应的预期召回率和精度值以及相关检测限的具体指导。我们优化的流程被称为KAPTAIN(基于KMA的宏基因组物种识别流程),已在GitHub(https://github.com/BioinformaticsPlatformWIV-ISP/KAPTAIN)和我们的研究所的Galaxy平台(https://galaxy.sciensano.be)上公开发布,可供其他科学家使用。