在Scylla paramamosain的低覆盖率全基因组测序中,提高基因型推断准确性的优化策略

《Aquaculture》:Optimization strategies for genotype imputation accuracy in low-coverage whole-genome sequencing of Scylla paramamosain

【字体: 时间:2026年02月27日 来源:Aquaculture 3.9

编辑推荐:

  低覆盖全基因组测序(lcWGS)的参考无(STITCH)和参考有(GLIMPSE2)imputation框架在泥蟹(Scylla paramamosain)中的性能研究,通过400个样本在不同测序深度(0.1×-6×)和参考面板(N_ref/K_ref/C_ref)下的分析,确定2.5×深度和200样本量为关键阈值,K_ref在SNP数量和imputation精度(r2=0.872-0.916,GC=0.906-0.927)上表现最优,且显著提升选择标记分析的准确性。

  
作者:张伟仁、陈琳、石一佳、贾佩坦、周思怡、秦琼辉、张耀东、黄克伟、林功义、王晓鹏、叶海辉
中国厦门集美大学渔业学院海洋养殖育种国家重点实验室,邮编361021

摘要

利用低覆盖度全基因组测序(lcWGS)进行基因型推断是一种经济高效的水产养殖全基因组变异检测方法,但在甲壳类动物中尚未得到系统研究。通过对400只泥蟹(Scylla paramamosain)在9倍平均深度下的重测序数据进行分析,我们建立了无参考(STITCH)和基于参考(GLIMPSE2)的基因型推断框架。评估了在不同测序深度(0.1×至6×)、样本量(50–400)以及三种参考面板(N_ref:394只个体,9倍深度;K_ref:关键个体,23倍深度;C_ref:混合面板)下的性能,通过剂量r2和基因型一致性(GC)来量化准确性。研究结果表明,2.5倍深度和200只个体(作为STITCH的目标群体或GLIMPSE2的参考面板)是实现高且稳定基因型推断准确性的关键阈值。值得注意的是,K_ref由于具有相当的准确性(r2=0.872–0.916,GC=0.906–0.927),并且在3倍深度下产生的SNP数量约为N_ref的三倍(8,666,722个),显示出巨大的应用潜力。染色体级别的准确性与染色体长度(r=0.373–0.534,P<0.01)和SNP密度(r=0.530–0.612,P<0.01)显著正相关,但与连锁不平衡(P>0.05)无关。GLIMPSE2在低频变异的推断方面优于STITCH。利用推断出的lcWGS数据进行的选择性特征分析显示,基于参考的推断方法能够更好地恢复SNP并复制候选区域,尤其是K_ref策略在检测选择性清除过程中的潜在功能突变方面表现尤为有效。本研究为Scylla paramamosain建立了标准化的基因型推断框架,为甲壳类动物的经济高效基因分型提供了可扩展的技术参考。

引言

Scylla paramamosain是一种在中国和东南亚具有高价值的水产养殖物种。然而,其产业的可持续发展面临双重挑战:依赖野生亲本导致捕捞压力加剧,以及遗传改良种苗的短缺限制了遗传进展(Syafaat等,2021;Lovatelli等,2025)。该物种的基因组具有高杂合性和大量的重复序列(Zhang等,2024)。由于缺乏系统的育种历史,挖掘与重要性状相关的稀有变异需要大规模、高覆盖度的全基因组测序,而这成本高昂。虽然商业化的定制SNP阵列(例如40 K阵列)可以提供针对性的基因分型解决方案,但其高昂的开发成本和有限的位点覆盖范围限制了全面的基因组分析(Ye等,2025)。因此,开发一种具有全基因组覆盖范围的经济高效基因分型策略成为推进Scylla paramamosain及其他水生无脊椎动物分子育种的关键途径。这种策略具体指的是低覆盖度全基因组测序(lcWGS)结合基因型推断,以满足对经济实惠、全面遗传分析的需求。
基因型推断策略主要分为无参考和基于参考两种类型。无参考策略(如STITCH)不需要外部单倍型参考面板,而是直接使用隐马尔可夫模型(HMM)和期望最大化算法(Davies等,2016)从目标群体的低覆盖度测序数据中重建单倍型。这种方法在多种水生物种中显示出高准确性(>0.98),包括太平洋鲍鱼(Fei等,2025)、牡蛎(Yang等,2024)和俄罗斯鲟鱼(Song等,2024)。基于参考的策略依赖于预先构建的高质量单倍型参考面板,通过将目标单倍型与面板匹配来推断缺失的基因型,核心算法基于Li & Stephens的HMM。主流工具包括Beagle(Browning等,2018)、Minimac4(Das,2017)和专门针对lcWGS数据优化的GLIMPSE2(Rubinacci等,2023)。这些工具在不同物种中表现出可靠的性能:例如,Beagle在模拟的猪低深度数据中实现了高准确性(Deng等,2022),Minimac4在小牛和尼罗罗非鱼群体中表现良好(Korku?等,2019;Ye等,2024)。GLIMPSE2通过高效的Gibbs采样和数据结构优化,在推断彩虹鳟鱼和金鲷鱼等物种的lcWGS数据时平衡了准确性和计算效率(Liu等,2024;Sun等,2025)。
优化推断性能通常集中在测序实验设计(包括深度和样本量)和参考面板优化上。对于实验设计,增加测序深度和样本量至关重要。例如,对拉布拉多寻回犬的研究需要>3.8倍的覆盖度(Wragg等,2024),对驴的研究表明>1倍深度和>400个样本可以获得可靠的结果(Zhao等,2021a),对太平洋鲍鱼的研究也证实了在类似参数下的高准确性(Fei等,2025)。对于面板优化,确保参考群体和目标群体之间的遗传相似性至关重要。研究表明,在多品种鸡参考面板中包含遗传背景相近的个体显著提高了准确性(Ye等,2019),对智利扇贝的研究也强调了遗传结构一致性的重要性(Sui等,2024)。此外,染色体长度、SNP密度和连锁不平衡衰减等基因组结构特征也被证明会影响推断效率(Lou等,2021;Yang等,2024)。尽管这些优化原则已在多种物种中得到验证,但针对甲壳类动物(特别是Scylla paramamosain)的系统评估和优化的lcWGS基因型推断框架仍然缺乏。
本研究利用400只泥蟹的全基因组重测序数据,系统评估了推断算法(STITCH vs. GLIMPSE2)、参考面板架构、测序深度和样本量对推断性能的交互影响。我们还确定了影响准确性的关键染色体级因素,并验证了使用推断数据进行下游选择特征分析的可行性。这项工作不仅为Scylla paramamosain建立了标准化的lcWGS推断流程,还为甲壳类水产养殖的经济高效基因组育种提供了稳健的技术框架。

样本收集

共收集了400只Scylla paramamosain泥蟹,这些样本来自中国福建省福州市的一个商业养殖场。该群体最初是由在同一沿海地区捕获的野生第一阶段幼体培育而成的。所有样本在标准化环境条件下饲养了大约六个月。这些螃蟹的肌肉组织被储存在-80°C的超低温冰箱中以备后续分析。

全基因组重测序数据

从泥蟹肌肉组织中提取的DNA在Illumina HiSeq X Plus平台上进行了全基因组测序。原始数据经过过滤去除了低质量读段,随后映射到参考基因组上。使用GATK进行了SNP检测和低质量变异位点的去除。对400只Scylla paramamosain个体的全基因组重测序在去除低质量读段后产生了4450 Gb的高质量数据。

讨论

利用lcWGS进行基因型推断在许多物种中已经得到广泛应用(Treccani等,2023;Berdnikova等,2024),但在甲壳类动物中仍缺乏标准化指南。由于甲壳类动物复杂的基因组特征(高杂合性和重复序列含量),这阻碍了经济高效的全基因组变异检测(Yue和Wang,2017;Zhao等,2021b;Lin等,2024)。因此,为甲壳类动物建立稳健的推断系统是推进分子育种计划的关键步骤。

结论

本研究首次为Scylla paramamosain的低覆盖度全基因组测序数据建立了优化的基因型推断框架。我们确定2.5倍的测序深度和约200只个体的群体规模是实现高推断准确性的关键阈值。研究结果表明,结合关键个体深度测序的混合参考面板(C_ref策略)提供了最佳的经济效益,而由

CRediT作者贡献声明

张伟仁:撰写原始草稿、可视化、软件开发、方法论设计、数据分析、概念构建。陈琳:撰写原始草稿、可视化、软件开发、方法论设计、数据分析。石一佳:撰写原始草稿、可视化、方法论设计、数据分析。贾佩坦:验证、数据分析、正式分析、数据管理。周思怡:验证、数据分析、正式分析、数据管理。秦琼辉:验证、数据分析、正式分析、数据管理。

资助

本研究得到了福建省自然科学基金(项目编号:2023J05154)、国家自然科学基金(项目编号:42206132)以及海洋养殖育种国家重点实验室自主研究项目(项目编号:MBL25IR16)的资助。

利益冲突声明

作者声明他们没有已知的利益冲突或个人关系可能影响本文的研究结果。

致谢

作者感谢所有在本研究过程中提供支持和技术帮助的同事们。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号