编辑推荐:
本文开发了一种基于实时纳米孔测序的现场可部署工作流程(rD+rQ),它整合了针对不同环境基质的高分子量DNA提取方案和带条形码的加标校准(BSINC)策略。该工作流程实现了物种水平的识别和与数字PCR(dPCR)相当的绝对定量结果,其动态检测(LOD)与定量限(LOQ)方法增强了微生物定量的准确性与精确性。这项工作为水处理、废水监测等领域的快速决策提供了便携且高效的解决方案。
一种现场可部署的定量宏基因组学工作流程
在环境微生物学和生物技术领域,对微生物群落进行快速、实时的监测至关重要。传统的定量微生物检测技术,如基于培养的方法和分子技术(如定量聚合酶链式反应[qPCR]),或耗时过长,或需要精心设计的引物和大量参数优化,且无法检测未知或新兴生物体,也无法捕获复杂环境中微生物群落的全部复杂性。尽管鸟枪法DNA测序(即宏基因组学)能够实现对群落的全面分析,但其顺序工作流程(数据分析只能在测序运行完成后才开始)会引入从样本采集到生物学解读之间的显著延迟。相比之下,牛津纳米孔技术(Oxford Nanopore Technologies)提供了一个便携式、实时、长读长测序平台,能够在测序过程中进行碱基识别和分类学分析,从而将样本到答案的周转时间大幅缩短。然而,两个关键因素仍限制了纳米孔测序在水领域决策中的应用:一是缺乏从环境样本中回收高分子量DNA(HMW DNA)的便携式DNA提取工作流程;二是当前的纳米孔测序方法仅提供相对丰度信息,无法实现绝对定量。
为了应对这些挑战,本研究开发了一种基于多重纳米孔测序的便携式快速检测与快速绝对定量工作流程(rD+rQ)。该流程整合了现场DNA提取方法、基于比对的分类学鉴定以及带条形码的DNA加标校准(BSINC)策略,并为不同的应用场景建立了动态的检测限(LOD)与定量限(LOQ)确定方法。
一种经过验证的、适用于不同微生物负载和样本类型的便携式DNA提取策略
研究测试了五种便携式DNA提取策略(PL, PPS15, PPS20, PPW15, PPW20)在三种不同样本类型(混合液[ML]、二级出水[SE]和微藻培养[AL])上的提取效率,并与四种实验室基准方法(PS, PW, PM, ZM)进行了比较。结果显示,除了PL方法外,其余四种便携式方法(PPS15, PPS20, PPW15, PPW20)在所有水基质中提取的DNA产量均超过了纳米孔测序所需的200 ng要求,且其DNA产量与实验室方法相比无显著差异。其中,PPW15方法提取的DNA片段峰值长度(6895.33 ± 210.81 bp)高于其他现场方法和部分实验室方法,表明该方法能在裂解细胞的同时避免DNA链的过度片段化。此外,通过16S和18S rRNA基因扩增子测序分析发现,尽管不同提取方法在Alpha多样性(Chao1指数)上存在差异,但Beta多样性分析和优势类群的相对丰度在不同方法间无显著变化。综合考虑DNA产量、纯度和片段大小,PPW15被选为用于纳米孔测序的现场DNA提取方法。该方法通过单一方案,能够从多样化的环境样本中有效提取原核和真核微生物群落的DNA,并减少了复杂仪器(如高速离心机)的需求,提升了现场部署的可行性。
用于分类学鉴定和绝对定量的条形码加标校准(BSINC)策略验证
研究开发了基于多重纳米孔宏基因组测序的BSINC策略,以实现微生物类群的同步检测与定量。该策略涉及将独特的条形码分别连接到加标对照品和样本DNA上,然后合并并进行测序。使用对数分布(Log Distribution)的ZymoBIOMICS微生物群落DNA标准品II作为加标对照。通过将测序数据随机二次抽样至不同目标碱基数(10至10,000 Mbp),评估了在不同测序投入下,加标对照品与模拟样本(Zymo Gut, ZG)的理论基因组拷贝数与观测基因组拷贝数之间的线性回归模型。随着总测序投入的增加,加标对照品和ZG样本的回归模型斜率和截距趋于一致,表明在适当的测序投入下,由加标对照品衍生的线性回归模型可以为样本提供有效的定量参数。然而,ZG样本的模型R2始终低于0.6,而加标对照品的R2则大于0.9,这突显了DNA提取偏差的影响。值得注意的是,BSINC策略的定量计算基于每个基因组的映射碱基数(mapped bases),而非实际基因组大小,这使得对仅有草图基因组的类群(包括真核生物)进行定量成为可能。此外,BSINC通过基于条形码的预分选,防止了基因组加标对照品与样本读段之间的交叉比对,并且其加标对照品源自真实的微生物类群,保留了自然发生的基因组特征,比合成片段更具代表性。
建立rD+rQ工作流程的动态定量限
研究将检测限(LOD)定义为10%的覆盖分数(即至少10%的目标基因组应被一个或多个测序读段覆盖),以避免因读段错误映射到保守区域而导致的假阳性检测。此外,采用了一种基于加标对照品和样本重复间可接受变异系数(CV)的动态方法来建立定量限(LOQ)。研究计算了加标对照品和Zymo Even Cell样本中每个基因组的覆盖分数和基因组拷贝数的CV,并设定了10%的覆盖分数作为LOD,10%的CV作为LOQ,以排除不可检测或不可定量的基因组。随后,使用剩余的加标对照品基因组生成线性回归模型,并应用于估计符合LOD和LOQ标准的样本基因组的观测基因组拷贝数。估计的基因组拷贝数与理论值高度相关,表明在纳入LOD和LOQ后,rD+rQ工作流程具有很高的准确性。与数字PCR(dPCR)中固定的细胞浓度或Illumina测序中固定测序投入下的相对丰度相比,基于覆盖分数的LOD和基于CV的LOQ在rD+rQ工作流程中更为实用和稳健。由于该工作流程依赖于对整个DNA池进行非靶向测序,基因组的检测和定量受到其他基因组对测序的竞争以及总测序投入的制约,而不仅仅是绝对的输入量。纳米孔测序的实时特性使得可以根据需求灵活调整测序投入,从而形成动态操作策略。
使用多类群加标对照品相较于单一加标对照品的优势
为了评估多靶标加标对照品是否比单一加标对照品提供更高的定量准确性,研究比较了使用加标对照品中单个类群衍生的回归模型(即单一加标策略)与使用加标对照品中所有类群衍生的回归模型(即rD+rQ方法)对ZG样本基因组拷贝数的估计结果。使用rD+rQ方法估计的基因组拷贝数,其偏差显著低于六种单一加标策略,并与剩余的单一加标策略相当。加标对照品(Zymo Log)中的微生物群落呈对数分布的物种丰度,优势种和稀有种之间存在显著差异。相比之下,ZG样本的分布相对更均匀,大多数类群的相对丰度相当。使用单一合成基因或基因组加标对照品提供单一校正因子的传统策略,在校准环境样本中的所有类群方面效果较差。研究表明,加标物(例如金黄色葡萄球菌[SA])与样本类群之间的丰度存在巨大差异,这会导致比复杂加标物高得多的校准误差。
使用数字PCR对环境中样本的rD+rQ工作流程进行现场基准测试
为了确定便携式rD+rQ工作流程定量的准确性,研究对ML和SE样本进行了数字PCR(dPCR)基准测试。为此,利用了从ML和SE样本的宏基因组数据中提取的宏基因组组装基因组(MAGs)作为定制数据库,并将纳米孔测序数据映射到这些数据库。选择了在SE和ML样本中均检测到的四个属(分枝杆菌属[Mycobacterium]、累积菌属[Accumulibacter]、硝化螺菌属[Nitrospira]和戈登氏菌属[Gordonia])作为目标属,用于评估rD+rQ的准确性。相应的四种数字PCR检测方法的准确性通过gBlock标准品稀释测试进行了验证,结果显示目标基因的测量浓度与理论浓度之间具有高度线性一致性。rD+rQ工作流程量化的估计基因组拷贝数与dPCR结果在ML和SE样本中均表现出高度一致性。对于ML样本中的分枝杆菌属、累积菌属和戈登氏菌属,以及SE样本中的累积菌属和硝化螺菌属,估计丰度的偏差范围较小。对于ML样本中的硝化螺菌属和SE样本中的分枝杆菌属与戈登氏菌属,rD+rQ工作流程显示它们低于LOD(覆盖分数 < 10%),这解释了误差较高的原因。动态的rD+rQ工作流程可以通过基于需求灵活调整测序通量来应对这一限制。当实时结果显示感兴趣的类群低于LOD或LOQ时,可以通过继续测序来增加总测序投入,从而提高对稀有生物的分析灵敏度。除了低丰度外,检测失败或低估也可能归因于参考数据库中可能缺少的基因组。例如,dPCR检测到但rD+rQ分析中低于检测阈值的ML样本中的硝化螺菌属和SE样本中的分枝杆菌属,可能是因为dPCR检测靶向属水平的保守区域,代表了该属内的所有物种,而rD+rQ需要物种水平的基因组匹配来进行分类学分配,并通过汇总单个物种的丰度来生成属水平的估计。
结论
本研究开发了一种基于纳米孔宏基因组测序的、可现场部署的工作流程(rD+rQ工作流程)以及基于EPI2ME的易用分析流程,用于水领域各种样本基质中微生物的检测和绝对定量。即时现场处理保留了原始的微生物群落结构和核酸完整性,并有效减少了延迟处理、冻融循环或长期储存引入的误差。集成在rD+rQ工作流程中的BSINC策略扩展了天然基因组加标物在不同类型样本中的应用,同时随着新加标对照品的开发,可以实现持续优化。凭借动态的LOD和LOQ,rD+rQ工作流程为实时过程控制和水质监测提供了灵活的解决方案,无需预设阈值,支持对多变和未知样本进行可调整的稳健分析。然而,本研究也存在局限,例如DNA提取偏差无法完全消除。此外,对稀有类群的定量可能需要极高的测序投入,从而增加相关成本。同时,稳健的分类学鉴定和定量也依赖于全面的参考数据库。