《Molecular Ecology Resources》:Assessment of High Throughput Sequencing Quality of Host DNA Enriched From Faeces: A Case From Captive Tiger
编辑推荐:
本研究针对粪便等非侵入性样本在基因组学研究中的应用瓶颈,以圈养东北虎为模型,系统评估了PEERS(SDS提取前富集)法富集的宿主DNA的高通量测序质量。通过对比11对配对粪便与血液样本的全基因组测序数据,明确了测序数据量对基因组覆盖度与基因分型准确性的影响。结果表明,粪便DNA测序存在读长覆盖不均现象,为获得可靠的基因分型,其所需测序深度(平均深度≥30×,在富集效率(EEN)达5×10-5时)高于血液DNA(≥20×)。当达到此深度阈值时,粪便样本能在群体(如π、PIC、SNP密度)及个体(杂合度、亲缘系数、近交系数(FROH)、遗传负荷)等层面提供与血液样本高度一致的基因组信息。本研究为基于粪便DNA开展高精度基因组研究提供了关键的实验设计指导和标准验证框架。
引言
分子遗传学技术已成为野生动物研究、管理与保护的核心工具。传统的高质量DNA样本(如血液、组织)获取困难,促使研究者转向粪便、毛发等非侵入性样本。粪便作为代表性非侵入性样本易于获得,其中含有少量来自宿主的脱落肠道上皮细胞。然而,粪便中宿主DNA通常含量低、高度片段化,且被大量的肠道微生物DNA所掩盖。因此,从粪便中有效富集宿主DNA并评估其测序数据的质量,是长期以来亟待解决的关键问题。随着基因组学时代的到来,对低质量DNA进行全基因组测序成为可能,这极大地提升了粪便DNA的潜在应用价值。本研究以濒危物种东北虎为研究对象,通过对比分析11只圈养个体的配对粪便和血液样本的基因组数据,首次系统评估了粪便与血液样本间的全基因组对等性,旨在为粪便DNA在基因组研究中的可靠应用提供科学依据和实践指导。
材料与方法
样本采自黑龙江横道河子猫科动物饲养繁育中心的11只分笼饲养的东北虎。血液样品在常规体检时采集。观察到排便行为后,立即收集新鲜粪便样本,并于干冰上速冻,之后转移至-20°C冰箱保存。使用PEERS(Peri-Extraction Enrichment by SDS)方法对粪便样本进行前处理,旨在优先裂解宿主细胞释放DNA,然后用试剂盒提取DNA。通过qPCR定量宿主与细菌DNA拷贝数,计算核DNA富集效率(EEN)。血液和粪便来源的DNA均经片段化处理后,构建双端100 bp测序文库,在DNBSEQ-T7平台上进行测序。粪便样本进行了两轮测序,以评估测序深度对基因组覆盖度的影响。原始数据经质量控制和过滤后,比对至东北虎参考基因组PtaHapG。通过GATK流程进行变异检测和过滤,获得高质量SNP。通过随机抽取数据(如30 Gb)和深度下采样,系统比较了两种样本的读长比对率、不同深度的内源基因组覆盖度,以及测序深度对基因分型准确性(通过准确率、召回率、F1分数和基因分型错误率评估)的影响。同时,在群体和个体层面,对比分析了包括核苷酸多样性、多态性信息含量、观察杂合度、SNP密度、个体杂合度、亲缘系数、基于ROH的近交系数和遗传负荷在内的多项遗传参数。
结果
1. 测序深度与内源基因组覆盖度的比较分析
在30 Gb标准数据量下,粪便样本对参考基因组的平均比对率为0.69 ± 0.10,显著低于血液样本(0.99 ± 0.01)。在1×深度下,两者覆盖度相当(约0.99);但在5×和10×深度下,粪便样本的覆盖度(分别为0.89 ± 0.03 和 0.31 ± 0.06)均显著低于血液样本(分别为0.97 ± 0.01 和 0.72 ± 0.05)。这表明粪便样本的宿主读长比例较低,导致在相同总数据量下,达到特定深度的基因组区域更少。当增加粪便样本的总测序数据量至78-132 Gb后,其在1×、5×和10×深度的基因组覆盖度均得到显著提升,达到与血液样本无显著差异的水平。研究还发现,粪便样本在10×深度下的基因组覆盖度与核DNA富集效率(EEN)呈显著正相关(R2= 0.831),当EEN高于5×10-4时,覆盖度趋于饱和。
2. 粪便与血液样本间的SNP基因分型一致性
以血液样本SNP为金标准,评估了不同测序深度下的基因分型一致性。对于血液DNA,20×深度是实现可靠基因分型(F1分数 ≥ 0.95,错误率 ≤ 0.05)的最小阈值。对于粪便DNA,要达到类似的基因分型质量,所需深度更高。在EEN达到5×10-5时,需要约30×的测序深度才能使基因分型错误率降至0.05左右,并使F1分数稳定在0.95 ± 0.02。值得注意的是,富集效率更高的样本(EEN更高)在更低的测序深度下即可达到高质量的基因分型。因此,30×是粪便DNA实现成本效益高且可靠的SNP基因分型的最佳深度,而提高富集效率可进一步降低所需深度。
3. 群体与个体层面遗传参数的比较分析
在达到足够测序深度(粪便样本≥30×)后,粪便与血液样本在多项遗传参数上表现出高度一致性。群体层面,核苷酸多样性、多态性信息含量、SNP密度分布(r = 0.990)以及500-kb滑动窗口内的π分布均无显著差异。仅在观察杂合度和次要等位基因频率的核密度分布上观察到轻微差异,但统计不显著。个体层面,个体杂合度、亲缘系数、基于ROH的近交系数以及遗传负荷在两种样本类型间均显示出极强的相关性(相关系数R2在0.90至0.97之间),表明粪便DNA在个体识别、亲缘关系推断、近交评估和有害突变负荷分析等应用中能提供与血液DNA等效的遗传信息。
讨论
粪便在基因组研究中的应用价值已被广泛认可,但其测序数据的质量和可靠性高度依赖于测序深度。本研究表明,粪便中的宿主DNA在测序数据中存在代表不均匀性。因此,有效的宿主DNA富集与深度测序相结合,对于确保足够的基因组覆盖度和准确的基因分型至关重要。通过监测富集效率或通过预实验评估宿主读长比例,可以预估所需测序深度,从而辅助成本控制。与传统的靶向标记相比,对富集粪便DNA进行全基因组测序在评估全基因组近交、遗传负荷、选择信号等需要高分辨率信息的深度研究中具有独特优势。本研究也存在一定局限,例如样本来自专性食肉动物,结论在食性不同的物种中的普适性有待验证,且样本是在理想条件下保存的新鲜粪便,野外降解样本对结果的影响尚需评估。
结论
本研究系统评估了粪便DNA在基因组分析中的基因分型质量和信息价值。与血液DNA相比,粪便宿主DNA在测序数据中存在固有的覆盖不均现象。有效的富集与深度测序对于确保足够的基因组覆盖度和准确的基因分型至关重要。观测到的富集效率(无论是通过宿主与微生物DNA拷贝数比,还是通过测序前宿主读长比例预估)有助于确定所需的测序深度,从而优化实验设计。尽管存在某些局限,但本研究为粪便DNA的实际应用提供了宝贵见解,并为这种重要的非侵入性材料在基因组研究中的更广泛应用开辟了前景。