《Molecular Ecology》:Missing or Mis-Telling the Story? Trade-Offs for Restriction-Site Associated Compared to Whole Genome Sequencing
编辑推荐:
本文系统比较了全基因组测序(WGS)与限制性位点关联DNA测序(RADseq,特别是DArTseq技术)在检测选择信号(如XtX和FST统计量)方面的表现。研究发现,尽管两种方法的群体等位基因频率显著相关,但在检测适应性基因组区域(outliers)时存在显著差异:WGS能识别RADseq因标记密度低而遗漏的真实选择信号,而RADseq则可能因等位基因缺失(allelic dropout)和样本差异产生假阳性信号。文章强调,针对具有复杂群体结构(如入侵或濒危物种)的适应性进化研究,WGS优于RADseq,并提出了针对RADseq数据的过滤建议(如利用读数深度方差筛选)以减少错误。
1 引言
研究人员在获取群体基因组数据时,需权衡不同测序方法的优劣。核心决策在于选择全基因组测序(WGS)还是简化基因组测序方法,如限制性位点关联DNA测序(RADseq)家族。WGS旨在对整个基因组进行测序,而RADseq方法则通过测序限制性内切酶切割位点附近的区域,对基因组进行子抽样。尽管两者均适用于描述遗传多样性、群体结构和连通性等中性进化过程,但RADseq因其较低的标记密度,在适应性基因组分析(如选择扫描)中的适用性存在疑问。选择扫描旨在识别表现出异常模式(outlier patterns)的基因组区域,这些异常被认为反映了选择信号。本研究通过比较八哥(common myna, Acridotheres tristis)的WGS数据集和RADseq(具体为DArTseq)数据集的选择扫描结果,评估了两种测序方法在识别假定适应性区域方面的表现。
2 材料与方法
WGS数据集包含80只八哥个体(来自11个种群)的全基因组重测序数据,平均测序深度为14×,最终获得9,523,488个高质量单核苷酸多态性(SNP)。使用BayPass v2.1软件计算每个SNP的XtX统计量(一种校正群体结构后的FST类似统计量)来识别选择信号,异常值定义为超过模拟“零”分布99.999%分位数的SNP。
DArTseq数据集包含814只八哥个体(来自50个种群)的数据。为进行比较,创建了三个DArTseq子集:1) DArT_WGSsamp(与WGS完全相同的80个个体);2) DArT_WGSpop(与WGS相同的11个种群,但包含更多个体,共212个);3) DArT_All(791个个体,44个种群,成本与WGS相当)。所有DArTseq数据均使用与WGS数据类似的流程进行比对、SNP calling和过滤,并同样使用BayPass进行选择扫描分析。
3 结果
尽管不同数据集间的XtX统计量和群体等位基因频率显著正相关,但没有任何异常SNP或异常区域在所有数据集中被共同检测到。具体而言:
- •
WGS数据集检测到2个异常区域(分别位于3号和8号染色体上,由多个连锁的异常SNP构成)。
- •
DArT_All数据集检测到1个异常SNP(a)。
- •
DArT_WGSpop数据集检测到5个异常SNP(b-f)。
- •
DArT_WGSsamp数据集未检测到任何异常SNP。
造成这种差异的原因主要有三方面:
- 1.
SNP缺失:WGS检测到的两个强选择信号区域在所有DArTseq数据集中均无任何SNP被分型,导致信号完全遗漏。
- 2.
不同个体/种群:DArT_WGSpop数据集中的三个异常SNP(b, d, e)仅在该数据集中被检测到,原因是更多个体的纳入导致了等位基因频率的细微变化,使其统计量刚好超过异常值阈值,但这些信号的可靠性可能不高。
- 3.
基因型调用错误(等位基因缺失):DArT_All数据集的异常SNP(a)和DArT_WGSpop数据集的异常SNP(f)显示出最强的异常信号,但深入分析(与WGS数据对比基因型和底层比对读数)表明,这些信号是由群体特异性的等位基因缺失(allelic dropout)引起的假阳性信号。等位基因缺失是指由于限制性内切酶切割位点丢失,某些个体的某个等位基因未被测序。
4 讨论
本研究实证比较了WGS和RADseq(DArTseq)在选择扫描分析中的权衡。结果表明,RADseq数据不仅可能因标记密度低而遗漏(Missing) 真实的选择信号(如WGS发现的区域),更严重的是可能因等位基因缺失等问题误报(Mis-Telling) 选择信号,导致对生物学故事的错误解读。
- •
SNP过滤建议:对于RADseq数据,除了常规过滤(如每个种群最少分型个体数),建议考虑利用位点读数深度方差(read depth variance)作为额外筛选指标,有助于识别等位基因缺失高发的位点,但即使最严格的过滤也无法完全消除错误。
- •
方法推荐:当研究目标是识别适应性位点,尤其是针对群体结构复杂(如入侵种、濒危种)的系统时,WGS(即使是较少个体)优于包含大量个体的RADseq。WGS提供了更高的基因组覆盖度和更准确的基因型调用,避免了等位基因缺失问题。其他替代方案如低深度全基因组测序(lcWGS)或群体池测序(Pool-seq)也值得考虑,但它们各自面临基因型不确定性或个体贡献不均等挑战。
总之,尽管RADseq在成本有限且侧重于中性过程研究时仍有其价值,但对于适应性进化研究,特别是涉及复杂群体历史的情况,WGS能提供更可靠的结果。若必须使用RADseq进行选择扫描,需对检测到的异常位点进行严格检查,可视化其缺失模式、读数深度分布等,以确认信号真实性。