《Aquaculture》:Harnessing SNPs and InDels from whole-genome sequencing to enhance genomic prediction in sturgeons
编辑推荐:
宋海亮|王伟|董天|严晓宇|耿晨帆|孙艾|白松|胡红霞北京农林科学院渔业科学研究所 & 北京市渔业生物技术重点实验室,中国北京 100068摘要全基因组测序能够捕捉到超出单核苷酸多态性(SNPs)的广泛基因组变异。利用这些多样的变异可能对基因组预测有益。本研究调查了SNPs和插入
宋海亮|王伟|董天|严晓宇|耿晨帆|孙艾|白松|胡红霞
北京农林科学院渔业科学研究所 & 北京市渔业生物技术重点实验室,中国北京 100068
摘要
全基因组测序能够捕捉到超出单核苷酸多态性(SNPs)的广泛基因组变异。利用这些多样的变异可能对基因组预测有益。本研究调查了SNPs和插入缺失(InDels)对俄罗斯鲟鱼(Acipenser gueldenstaedtii)群体中基因组预测的影响,重点关注鱼子酱产量、鱼子酱颜色和体重等关键性状。从673个个体中生成了包含10,409,793个高质量SNPs和4,938,138个InDels的全基因组测序数据(约13.68倍)。通过连锁不平衡修剪将全基因组测序数据简化为大约50 K个标记,以便评估各种预测方法。结果表明,随着标记密度的增加,预测准确性提高,在50 K标记处达到峰值;同时,将InDels纳入全基因组测序数据进一步提高了特定性状的预测准确性。多源BLUP(MSBLUP)方法结合了SNPs和InDels,其平均预测准确性比GBLUP高出1.5%。此外,贝叶斯方法的预测准确性也与GBLUP相当。核岭回归方法在所有评估的性状上平均提高了2.2%的预测准确性。总体而言,这些结果强调了利用多样化的遗传标记和先进的预测方法来提高水产养殖育种计划中基因组预测准确性的重要性。
引言
鲟鱼因其鱼子酱而备受珍视,鱼子酱在全球市场上需求量很大。截至2024年,中国已成为鲟鱼养殖的主要力量,贡献了全球约85%的鲟鱼产量(FAO,2024年)。除了养殖外,中国还在鱼子酱产业中发挥着关键作用,2023年出口了约276吨鱼子酱,出口收入达到8270万美元(Centre,2023年)。然而,鲟鱼漫长的成熟期给育种计划带来了相当大的挑战。即使在最佳养殖条件下,这些鱼通常也需要八年才能达到性成熟,导致世代间隔较长,阻碍了优良性状的快速选择。传统的育种方法无法跟上水产养殖技术的快速发展和市场需求,因此迫切需要创新的分子育种方法来提高育种效率并改善鲟鱼种群的质量。
基因组选择(GS)是一种由Meuwissen在2001年提出的分子育种方法(Meuwissen等人,2001年),已成为水生生物遗传改良领域的重点。近年来,关于水产养殖动物中GS的研究越来越多,已在近25种水生生物中进行研究(Song等人,2023b;Yá?ez等人,2023年)。GS的基本前提是,每个影响性状的量性状位点(QTL)或基因与基因组中的至少一个分子标记(如单核苷酸多态性(SNPs)存在连锁不平衡(LD)。这种连锁关系使GS能够有效追踪与性状相关的所有QTL,从而精确预测个体育种值。我们之前的研究表明,基于全基因组SNPs的GS比传统的BLUP方法具有更高的预测准确性(Song等人,2022年)。然而,进一步提高基因组预测的准确性对于推进鲟鱼育种的遗传改良仍然至关重要。
全基因组测序(WGS)提供了对遗传变异的全面了解,捕捉到了广泛的基因组变异。除了SNPs外,WGS还识别了插入缺失(InDels),即基因组中一个或多个核苷酸的小插入或删除。与仅涉及单个碱基变化的SNPs不同,InDels可能导致DNA序列长度的变化,并可能对基因功能或调控产生较大影响。据估计,InDels的发生率为每5.3个SNPs中有1个,是第二常见的基因组变异类型,并已被证明在进化动态中起着重要作用(Britten,2002年;Chiang等人,2010年;Mills等人,2011年)。因此,在GS框架内研究InDels的潜力对于改进水产养殖中的育种策略至关重要。此外,基于机器学习的方法为GS提供了一种变革性的方法,其非参数特性使其不受预先建立模型假设的约束(Montesinos-Lopez等人,2021年)。这些方法在各种物种中展示了显著的优势,提高了预测准确性并阐明了复杂的遗传关系(Chafai等人,2023年)。同样,贝叶斯方法允许异质标记效应分布,并假设相对较少的标记可以解释较大的遗传变异份额,使其特别适合受QTL影响的性状(Habier等人,2011年;Meuwissen等人,2001年;Yi和Xu,2008年)。然而,机器学习和贝叶斯方法应用于WGS数据时往往受到测序变异极高维度的限制。因此,需要有效的降维策略才能在实际应用这些方法于测序衍生的标记面板上,正如本研究所探讨的。
因此,本研究的目标是:(i)评估和比较SNPs和InDels对俄罗斯鲟鱼鱼子酱产量、鱼子酱颜色和体重的基因组预测准确性;(ii)研究通过连锁不平衡(LD)修剪确定的标记密度对基因组预测性能的影响;(iii)评估应用于LD修剪后的SNP或InDel数据集的不同基因组预测模型的性能,从而加深我们对这些方法如何优化水产养殖育种策略的理解。
章节片段
群体和表型测量
本研究使用的俄罗斯鲟鱼来自中国浙江的杭州千岛湖迅龙科技有限公司。关于鱼类饲养和表型方法的详细信息请参见我们之前的研究(Song等人,2024年)。2012年,六只雌性和二十六只雄性鲟鱼进行了人工授精,产生了二十六个全同胞家庭,每个家庭由一只雄性和一只雌性杂交而成。
鱼子酱产量、鱼子酱颜色和体重的描述性统计
673条鲟鱼的鱼子酱产量、鱼子酱颜色和体重的描述性统计数据见表1。平均鱼子酱产量为0.190,标准差为0.057,范围从0.021到0.439,表明个体之间存在显著差异。鱼子酱颜色的平均值为2.453(颜色刻度),标准差为0.653,涵盖了从深色(1)到金色(4)的整个范围。平均体重为19.933公斤,标准差为4.029公斤。
讨论
本研究调查了SNPs和InDels对俄罗斯鲟鱼群体中基因组预测的影响,重点关注鱼子酱产量、鱼子酱颜色和体重等关键性状。通过使用LD修剪来减少标记维度,评估了贝叶斯方法和机器学习方法的预测性能。结果表明,随着标记密度的增加,预测准确性提高,在大约50 K标记处达到峰值;同时,纳入InDels
结论
本研究提供了关于SNPs和InDels对俄罗斯鲟鱼群体中基因组预测影响的宝贵见解,特别是对于鱼子酱产量、鱼子酱颜色和体重等重要性状。使用LD修剪实现了有效的降维,从而能够全面评估各种方法的预测性能。MSBLUP模型结合了SNPs和InDels,在预测方面显示出虽小但一致的改进。
CRediT作者贡献声明
宋海亮:撰写 – 审稿与编辑,撰写 – 原稿,方法论,概念化。王伟:数据管理。董天:数据管理。严晓宇:资源获取,调查。耿晨帆:数据管理。孙艾:可视化,概念化。白松:数据管理。胡红霞:撰写 – 审稿与编辑,项目管理,概念化。
致谢
本工作得到了国家自然科学基金(32341059)、北京农林科学院优秀青年科学家计划(YKPY2025004)、北京农林科学院的科技创新能力建设项目(基于基因组编辑和基因组选择的鱼类育种技术的研究与应用(KJCX20230216)以及北京科学院的创新能力建设项目的支持