Flush With Data（或）用于废水监测的免费且计算简单的16S Metabarcoding方法的优化与效能验证

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Environmental Microbiology》：Flush With Data (or) Optimizing and Validating the Efficacy of Free and Computationally Simple 16S Metabarcoding Approaches for Use in Wastewater Surveillance

【字体：大中小】 时间：2026年05月02日 来源：Environmental Microbiology 4

编辑推荐：

　　研究人员提出了免费且计算复杂度低的16S核糖体RNA（rRNA）宏条形码（Metabarcoding）分析方法，随后针对废水细菌监测的应用场景优化并验证了其准确性。研究增强了三种分类分析流程：NCBI BLAST亚采样、Kraken 2/Bracken和QII

研究人员提出了免费且计算复杂度低的16S核糖体RNA（rRNA）宏条形码（Metabarcoding）分析方法，随后针对废水细菌监测的应用场景优化并验证了其准确性。研究增强了三种分类分析流程：NCBI BLAST亚采样、Kraken 2/Bracken和QIIME 2/DADA 2。针对废水样本高复杂度的优化策略使QIIME 2/DADA 2对物种水平分类单元（Taxa）的灵敏度提升了240.5%，同时使Kraken 2/Bracken和NCBI BLAST亚采样的物种水平选择性分别提高了18.7%和79.1%。优化大幅降低了BLAST亚采样和Kraken 2/Bracken的读段映射误差，降幅分别为42.0%和11.4%。通过优化策略，微生物群落多样性估算值亦得到改善：BLAST亚采样的丰富度（Richness）测量准确度提高了95.6%，而Kraken 2/Bracken和QIIME 2/DADA 2分别提高了2.2%和37.8%。BLAST亚采样的香农熵（Shannon entropy）准确度增加了17.4%，而Kraken 2/Bracken和QIIME 2/DADA 2分别增加了19.7%和41.4%。在β多样性方面，QIIME 2/DADA 2的Bray–Curtis相异性（Dissimilarity）估算准确度提高了8.5%，而Kraken 2/Bracken提高了174.3%。

废水监测中16S宏条形码分析流程的优化与验证：一项学术研究解读

研究背景与动机

尽管近年来废水病毒病原体监测在靶向与非靶向分析方面取得了显著进展，但细菌病原体的监测在很大程度上仍局限于基于培养的技术或对特定单一物种的靶向分析。研究表明，许多宏条形码分类软件在处理如市政废水样本等高复杂性细菌群落时，存在偏差和可重复性问题。然而，16S rRNA扩增子测序作为一种成本效益高的方法（每样本约50–100美元），不仅能评估多种细菌病原体的相对浓度，还能准确量化废水处理厂（WWTP）内的细菌多样性。此外，WWTP的细菌群落组成可用于表征集水区人口的元微生物组（Meta-microbiome），并与健康标志物相关联。因此，本研究旨在优化和验证三种免费、易获取且广泛使用的分类分析流程，使其适用于高复杂性细菌群落的分析，并确定其在模拟及真实废水样本中的准确性。

关键技术方法

研究人员利用ART工具结合CAMISIM框架，基于路易斯安那州东南部三个WWTP的实际样本数据，构建了已知物种组成和相对丰度的模拟16S rRNA读段集合。研究选取了NCBI BLAST亚采样、QIIME 2/DADA 2以及Kraken 2/Bracken三种流程进行评估。优化策略主要包括调整参数以提高灵敏度和选择性，例如放宽DADA2的错误容忍度、增加输入读段数量（双倍读段）、调整置信度阈值以及设定每个分类单元的最小读段数阈值以消除假阳性。评估指标涵盖分类单元灵敏度、选择性、读段映射误差（采用加权绝对误差和nSAE公式）以及α多样性（OTUs、Chao1、Pielou均匀度、香农熵）和β多样性（Bray-Curtis相异性）。所有计算均在基础硬件（HP Pavilion 15笔记本电脑）上完成，以证明其在资源有限环境下的适用性。

研究结果

3.1 第一部分——CAMISIM模拟BLAST亚采样、QIIME 2/DADA 2和Kraken 2/Bracken比较

3.1.1 模拟读段集合准确度结果

基线测试显示，各平台存在明显短板：NCBI BLAST亚采样灵敏度极高但假阳性过多；QIIME 2/DADA 2选择性完美但仅能检测约10%的分类单元；Kraken 2/Bracken在灵敏度和选择性上均表现不佳。经过优化，QIIME 2/DADA 2的物种水平分类单元灵敏度提升了240.5%，而Kraken 2/Bracken和BLAST亚采样的物种水平选择性分别提高了18.7%和79.1%。通过去除低读段数的分类单元（利用分布差异），显著提升了选择性。

3.2 读段映射误差方程——RMSE和SAE

研究人员提出了一种新颖的加权、读段数归一化的绝对误差和（nSAE）公式来计算读段映射误差。建模结果显示，加权nSAE比加权均方根误差（nRMSE）更能解释读段映射误差，其与I型错误（假阳性）和II型错误（假阴性）的相关性更为显著。

3.2.1 模拟读段集合多样性结果

优化策略极大地提高了几乎所有多样性指标的准确度。优化后的QIIME 2/DADA 2准确度提升高达43.6%，优化后的BLAST亚采样提升高达82.7%。香农熵误差降低幅度在24.2%至78.2%之间，Bray–Curtis相异性误差降低幅度在16.3%至99.9%之间。值得注意的是，由于选择性优化标准，Chao1丰富度估算的优势被抵消。

3.3 第二部分——真实BLAST亚采样、QIIME 2/DADA 2和Kraken 2/Bracken比较

3.3.1 α多样性

将模拟读段集的多样性结果与真实读段集进行比较，发现所有模拟测量值与真实读段结果至少存在中等程度的正相关。通过计算“平均重复”多样性和“平均位点”多样性，研究发现优化后BLAST亚采样的精度提高了7.3%，Kraken 2/Bracken的精度提高了18.0%，而QIIME 2/DADA 2则保持静态。

3.3.2 β多样性和相对丰度

对三个采样点的真实样本分析显示，西岸（West Bank）样本以革兰氏阳性菌门为主，新奥尔良（New Orleans）样本严重偏向革兰氏阴性菌门，而北岸（North Shore）则是两者的混合。在最优流程测试中，除优化的QIIME 2/DADA 2外，其余流程均正确评估出西岸与新奥尔良样本间的Bray–Curtis相异性最大。此外，只有QIIME 2/DADA 2检测到了Patescibacteria（一种候选门辐射类群），这表明其在测量真实样本门级多样性时灵敏度最高。

结论总结

研究人员成功优化了多种流行的分类流程，使其能够以更高的置信度应用于市政废水中的复杂微生物群落分析。研究提出了一种基于绝对误差和（Sum of Absolute Errors）的新型读段映射误差测量方法，并成功将其与现有的基于均方根误差（RMSE）的模型进行了对比测试。研究人员成功创建了若干废水分类和多样性分析流程，这些流程可供恶劣环境或低收入国家的研究人员使用。此外，研究还明确了各流程的优缺点，使研究者能够在实验设计阶段根据自身需求选择最合适的分析工具。

联系信箱：

粤ICP备09063491号