《Heredity》:Minimum marker densities for accurate genomic predictions and heritability estimates in three major North American and European spruce species
编辑推荐:
基因组选择(Genomic selection, GS)在林木育种中的应用日益广泛,其目标是通过缩短漫长的育种周期来加速遗传增益。然而,高成本的基因分型仍是一个挑战。本研究旨在确定基因组覆盖范围内的最佳标记密度,以最大化生长和木材品质性状的GS准确性和遗传力估
基因组选择(Genomic selection, GS)在林木育种中的应用日益广泛,其目标是通过缩短漫长的育种周期来加速遗传增益。然而,高成本的基因分型仍是一个挑战。本研究旨在确定基因组覆盖范围内的最佳标记密度,以最大化生长和木材品质性状的GS准确性和遗传力估计的精确性。研究使用了代表三种主要云杉物种外显子组的数千个单核苷酸多态性(Single Nucleotide Polymorphism, SNP):云杉(Picea mariana)使用了18,275个SNP(代表10,894个不同的基因位点),白云杉(Picea glauca)使用了11,328个SNP(8647个基因位点),挪威云杉(Picea abies)使用了116,765个SNP(20,695个基因位点)。对于每个物种,采用了相似的研究设计,即在两个地点重复种植相关的全同胞家系,并开发了GBLUP(Genomic Best Linear Unbiased Prediction)预测模型。通过从500到100,000个SNP中重采样子集,研究了改变SNP数量的影响。结果表明,随着标记密度的增加,遗传力估计值达到稳定平台,在云杉基因组大小约为2000厘摩(centimorgans, cM)的情况下,稳定在4000到8000个SNP之间,这一趋势在所有性状和物种中都是一致的。预测能力和预测准确性都随着SNP数量的增加而提高,直至达到相似的水平,超过此水平后,进一步的改善是微小的。这种最低的标记密度对于大多数云杉育种计划来说应该是经济上可承受的,在最大化GS准确性和最小化基因分型成本的需求之间取得了平衡。这些发现应支持GS在针叶树育种计划中的进一步部署,通过高选择精度和降低极高密度SNP覆盖的经济负担,即使对于具有大型吉基因组(giga-genomes)特征的针叶树也是如此。
本文是一篇发表在《Heredity》上的研究论文,旨在探讨在三种主要云杉树种(云杉、白云杉和挪威云杉)的育种中,为实现精确的基因组预测和遗传力估计所需的最低单核苷酸多态性(SNP)标记密度。研究背景是,基因组选择(GS)作为一种能够加速林木遗传改良的重要工具,其应用面临高基因分型成本的挑战。传统育种方法周期长、效率低,难以应对市场变化和气候变化带来的快速适应需求,而GS则有望通过早期选择缩短育种周期并提高选择强度。然而,尽管技术不断进步,在林木育种中实施GS仍存在诸多挑战,其中之一便是如何在保证预测准确性的同时,确定最优的标记数量以平衡成本与效益。先前的研究虽表明GS在针叶树中具有应用潜力,但关于标记密度对预测准确性和遗传参数估计精度影响的具体阈值尚未明确。因此,本研究旨在系统地评估标记密度对这三种具有重要经济价值的云杉树种的生长和木材品质性状的遗传力估计及GS预测准确性的影响,以期为经济高效的GS育种策略提供科学依据。
研究人员为开展此项研究,主要应用了以下几项关键技术方法:首先,从已建立的育种试验中获取了三种云杉(云杉、白云杉、挪威云杉)的样本,这些样本分别来自北美和欧洲的不同地理种源,并种植在两个试验地点。其次,对样本进行了多种生长和木材品质性状(如树高、胸径、木材密度、声波速度等)的表型测定。第三,利用高通量基因分型技术(如Illumina Infinium SNP芯片和全外显子捕获测序)获得了覆盖基因组的SNP标记数据,并进行了严格的质量控制。第四,采用统计遗传学方法,构建了基于系谱(ABLUP-AD)和基于基因组(GBLUP-AD)的线性混合模型,以估计加性、显性方差和遗传力等参数。第五,通过重复随机重采样不同数量的SNP子集(从500到全部可用SNP),系统分析了标记密度变化对遗传参数估计和模型预测性能的影响。最后,采用十折交叉验证(within-family folding)评估了基因组选择模型的预测能力和预测准确性。
研究结果
采样与表型测定
研究使用了三个独立的数据集,分别对应云杉、白云杉和挪威云杉。材料来自在两个地点重复设置的、具有已知系谱关系的全同胞子代测定林。对每个物种测量了包括树高、胸径、木材密度和声波速度(作为木材刚度代理)在内的生长和木材品质性状。表型数据的获取为后续的遗传分析和基因组预测奠定了基础。
SNP基因分型
三种云杉使用了不同来源和数量的SNP标记。云杉使用了18,275个SNP,白云杉使用了11,328个SNP,而挪威云杉使用了多达116,765个SNP,其每个基因位点的SNP冗余度也显著更高。所有标记都经过了严格的质量过滤,以确保高数据质量,平均检出率超过99%,未进行基因型填补。
遗传参数估计:GBLUP-AD与ABLUP-AD模型比较
使用包含所有可用SNP的基因组模型(GBLUP-AD)和基于系谱的模型(ABLUP-AD)估计了遗传参数。总体而言,木材品质性状(如木材密度、声波速度)表现出中等到高的狭义和广义遗传力,而生长性状(如树高、胸径)的遗传力相对较低,但在云杉中例外,其所有性状遗传力均较高。生长性状通常表现出显著的显性效应,而木材品质性状的显性效应较弱。跨地点的B型遗传相关在生长性状中较弱,表明存在更重要的基因型与环境互作。
标记密度对遗传力估计的影响
通过重复采样不同大小的SNP子集进行分析发现,无论是狭义遗传力、显性方差比还是广义遗传力,其估计值在标记密度从500增加到约4000个SNP的过程中迅速上升。大约从4000个SNP开始,估计值的变化率显著降低,并在8000个SNP左右达到稳定平台,超过此数量后改善甚微。这一趋势在三种物种和不同性状间基本一致。例如,在挪威云杉中,即使标记数量增加到10万以上,遗传力估计在约2.5万个SNP后也保持稳定。此外,在低标记密度下,显性方差比最初被高估,随着标记密度增加,加性与显性效应的混淆减少,估计值逐渐收敛于基于系谱的模型结果。
标记密度对预测能力与预测准确性的影响
基因组选择模型的预测能力(包括育种值预测能力PABV和遗传总值预测能力PAGV)随着标记密度的增加而提高。平均预测能力在标记密度达到4000至8000个SNP时趋于最大,之后保持稳定。预测准确性(PACC)的变化趋势与预测能力相似。在挪威云杉中,预测能力在约4000个SNP后增长极小,并在2.5万个SNP左右达到平台。使用低至4000-8000个SNP的标记密度,已能获得与使用全部高密度标记集相近的预测性能。
讨论与结论
讨论部分总结
研究人员在讨论中指出,他们的研究结果与先前在林木以及其他农作物和动物中的研究一致,即相对较低数量的标记足以在结构化的育种群体中获得稳定的遗传力估计和较高的基因组预测准确性。这主要归因于在亲缘关系明确的育种群体中,基因组预测的准确性更多地依赖于标记所捕获的个体间亲缘关系信息,而非与数量性状位点(QTL)的短程连锁不平衡。研究确认,对于基因组大小约为2000 cM的云杉物种,约4000-8000个SNP的标记密度足以使遗传力估计和GS预测准确性达到平台期。这一“最低有效标记密度”远低于目前许多针叶树GS研究中实际使用的标记数量,也显著低于其巨大的基因组物理大小所可能暗示的需求。这一发现具有重要的实践意义:它表明通过采用适度密度的SNP芯片或靶向测序策略,可以大幅降低基因分型成本,从而使GS技术对大多数云杉育种项目而言变得经济可行。这有助于推动GS在针叶树育种中的大规模操作化应用,特别是在应对气候变化、快速选育适应性和抗性品种方面发挥关键作用。研究也指出了本研究的局限性,例如使用的群体来自结构化的育种项目,结果在自然群体或亲缘关系更远的群体中的外推性可能需要进一步验证。此外,对于跨世代的预测,可能需要更高的标记密度来捕捉更短范围的连锁不平衡。
研究结论部分翻译
总之,这项研究表明,在北美和欧洲三种主要云杉物种的结构化育种群体中,使用低至4000到8000个SNP的标记密度,就足以获得准确的基因组预测和精确的遗传力估计。超过这个数量,预测能力和遗传力估计的改进非常有限。这种适度的标记密度在财务上对大多数云杉育种计划是可承受的,在最大化基因组选择准确性和最小化基因分型成本之间取得了平衡。这些发现应能支持基因组选择在针叶树育种计划中的进一步推广,通过高选择精度和降低极高密度SNP覆盖带来的经济负担来实现,即使对于具有大型吉基因组特征的针叶树也是如此。