《Microbiology Spectrum》:Comparison of a long-read amplicon sequencing approach to short-read amplicons for microbiome analysis
编辑推荐:
大多数微生物组研究依赖Illumina平台对16S rRNA基因的短扩增子进行测序,受限于短读长,序列通常仅能可靠鉴定至科或属水平。全长16S rRNA基因的长读长测序可提升分类分辨率,但通常仅能达到种水平。StrainID是一种替代方法,可扩增核糖体操纵子的
大多数微生物组研究依赖Illumina平台对16S rRNA基因的短扩增子进行测序,受限于短读长,序列通常仅能可靠鉴定至科或属水平。全长16S rRNA基因的长读长测序可提升分类分辨率,但通常仅能达到种水平。StrainID是一种替代方法,可扩增核糖体操纵子的大片段,包含完整的16S rRNA基因、内部转录间隔区(internal transcribed spacer, ITS)及部分23S rRNA基因,该长扩增子旨在实现核糖型(ribotype)水平的分类。尽管已有研究证实StrainID适用于多种样本类型,但尚未针对唾液样本与替代方法进行直接比较。研究人员以唾液样本及合成模拟DNA群落为对象,比较了StrainID与短读长扩增子的性能。短读长扩增子采用靶向16S rRNA基因V1-V3区的引物对扩增,并使用多种分类数据库进行注释。结果显示,StrainID不仅在将扩增子序列变体(amplicon sequence variant, ASV)鉴定至种水平方面优于短读长扩增子,还在基于系统发育的β多样性检验中展现出关键优势。本研究进一步确立了StrainID作为一种强有力的方法,尤其适用于唾液样本的微生物组研究。
研究背景与意义
当前微生物组研究多采用短读长扩增子(short-read amplicon, SRA)测序,聚焦16S rRNA基因的小可变区,分类分辨率常局限于属水平及以上。选择性扩增特定区域或其他基因虽可提升部分样本的分辨率,但无法突破该方法的核心局限。鸟枪法宏基因组学可提供全面的群落信息,但成本更高、计算负荷更大,且对DNA质量与数量要求更高,宿主DNA占比高的样本(如唾液)还需额外的宿主DNA去除步骤,且低丰度微生物的信息易丢失。长读长测序技术(如PacBio、Oxford Nanopore)通过扩增全长16S rRNA基因,通常可将分辨率提升至种水平,但仍难以像宏基因组学那样频繁识别菌株。同物种的不同菌株在代谢功能、毒素产生及抗生素抗性上存在差异,因此临床研究中需要兼具足够队列规模检测能力与序列水平分辨率的技术。StrainID由Intus Biosciences商业化,通过扩增包含ITS区和部分23S rRNA基因的近2500 bp扩增子,试图在相近成本下超越全长16S rRNA测序,实现核糖型水平的分类。人类口腔微生物组是人体第二大且第二多样化的细菌群落,与多种系统性疾病相关,唾液采样的无创性使其具备替代血液用于诊断的潜力,但现有短读长方法的灵敏度与特异性不足。此前StrainID已在粪便、人乳等样本中验证,尚未在唾液样本中与短读长方法直接比较。
关键技术方法
研究纳入46例0~21岁受试者的唾液样本,样本来自康涅狄格州单中心前瞻性研究,采集方式分为被动流涎法与拭子法,年龄≥6岁采用被动流涎,<6岁采用拭子。提取的DNA分别用StrainID与靶向V1-V3区的短读长扩增子试剂盒扩增,同时扩增包含8种细菌的ZymoBiomics模拟DNA群落以评估引物偏差。StrainID样本在PacBio Sequel IIe测序,V1-V3样本在Illumina MiSeq测序。原始序列经DADA2校正错误生成ASV,采用Athena、Silva、GTDB、Greengenes2、GROND、MIrROR等多种数据库进行分类注释,通过QIIME2与R进行α多样性、β多样性分析及PERMANOVA检验,评估不同方法对唾液采集方式的区分能力,并通过ASV共现模式分析核糖型。
研究结果
使用模拟DNA群落评估StrainID准确性
五次重复扩增测序显示,StrainID可稳定检测到模拟群落的8个属,相对丰度与理论值基本一致,主要偏差为芽孢杆菌属(Bacillus)略高估、葡萄球菌属(Staphylococcus)略低估。生物信息学截断生成的模拟V1-V3扩增子与理论组成一致性差,尤其是乳酸杆菌属(Lactobacillus)与葡萄球菌属仅占约1%,验证了V1-V3引物的已知扩增偏好。随着扩增子长度增加,观测到的ASV数量更接近基于参考基因组预测的理论值,StrainID的ASV数量显著高于V1-V3,与理论值匹配度最高。
门水平细菌群落分类
以Athena数据库注释,唾液样本的门水平组成在两种方法间存在差异。芽孢杆菌门(Bacillota)均为最优势门,但StrainID的中位丰度(72.8%)显著高于V1-V3(62.0%)。放线菌门(Actinomycetota)、假单胞菌门(Pseudomonadota)与 saccharimonadota的相对丰度也存在显著差异,其中Saccharimonadota仅在V1-V3中被检测到,因StrainID反向引物与该门代表菌株的序列存在错配,且核糖体操纵子不连续导致扩增子过长,无法被有效扩增。
StrainID提升分类注释水平
属水平上,所有扩增子与数据库组合的分类成功率均较高(≥92.8%),StrainID的范围为96.8%~98.2%。种水平上,性能高度依赖数据库类型:仅含16S rRNA序列的数据库中,Greengenes2表现最优,StrainID与V1-V3无显著差异;GTDB数据库中V1-V3的种水平注释率反而更高,但因StrainID扩增子包含ITS与23S区,无法与仅含16S的数据库完全比对。StrainID的优势在使用16S-ITS-23S联合数据库时最为显著,GROND与MIrROR数据库中,其种水平注释率显著高于V1-V3与模拟16S扩增子。Athena数据库结合SBAnalyzer分类器时,StrainID的种水平注释率平均达87.0%,为所有组合中的最高值。
StrainID提升多样性统计效力
以加权UniFrac为β多样性指标,StrainID可显著区分两种唾液采集方式(R2=0.064,P=0.002),而V1-V3无显著差异(R2=0.021,P=0.471)。广义UniFrac结果呈现相同趋势,StrainID与模拟扩增子均达到显著水平,V1-V3的解释度更低且无统计学意义。α多样性分析中,仅StrainID在ASV水平的Faith系统发育多样性可检测到拭子法显著高于被动流涎法,且StrainID与模拟16S扩增子在属、种水平的香农多样性中均可检测到采集方式的显著差异,而V1-V3无此能力。
核糖型分析揭示跨样本ASV共享模式
由于多数细菌含多个核糖体操纵子拷贝,StrainID可产生多个ASV。同一组ASV在不同样本中共现,可提示共享的核糖型。以唾液中最丰富的唾液链球菌(Streptococcus salivarius)为例,部分样本存在相同的4个ASV共现模式,可能代表同一核糖型;咽峡炎链球菌种(Streptococcus sp. LPB0220)中识别出一组4个ASV在13个样本中共现;血Gemella(Gemella sanguinis)中识别出两个核糖型模式,分别见于2个样本,另有最多7个样本可能共享其中一个核糖型;普雷沃氏菌属(Prevotella)中识别出两组ASV模式,分别对应不同的核糖型。
讨论与结论
本研究证实StrainID适用于唾液样本的微生物组测序,不仅提升了区分不同样本类型的能力,还提供了更高的分类分辨率。其引物偏差小于V1-V3,分类准确性更优,且长读长带来的序列信息可用于诊断探针设计。但StrainID无法扩增核糖体操纵子不连续的细菌(如螺杆菌属Helicobacter、Saccharimonadota),会导致部分类群丢失,且长扩增子可能导致非独特序列比例升高,影响DADA2的校正效率,目前单样本成本也高于SRA。尽管如此,StrainID通过核糖体指纹图谱实现核糖型识别,可用于追踪传播、暴发及群落稳定性研究,其分辨率优于传统全长16S rRNA测序,成本相近,是微生物组研究的有力工具。该研究发表于《Microbiology Spectrum》,为唾液微生物组的精准解析提供了新的方法学依据。