编辑推荐:
为解决商业SNP芯片(多为Bos taurus taurus设计)在Bos taurus indicus牛种(如Nelore)中应用效果受限的问题,本研究利用巴西Zebu牛育种者协会(ABCZ)超30.5万头Nelore牛的基因型数据,系统评估了FImpute、Beagle、Minimac和Findhap四种主流填充工具,在从13种低/中密度(LD/MD)商业芯片向定制120k及777k HD芯片两步填充中的准确性与计算效率。研究发现所有软件均能达到高精度(Corr: 0.82–0.98),其中FImpute综合表现最佳,其高精度、高效率及对稀有等位基因(MAF ≤ 0.03)相对稳健的填充能力,证实了利用现有商业芯片在Nelore牛中实现准确基因型填充的可行性,为热带地区肉牛基因组选择提供了关键技术支持。
在巴西广阔的牧场上,Nelore牛(一种Bos taurus indicus亚种,即瘤牛)是肉牛生产的绝对主力,对保障粮食安全和畜牧业的可持续发展至关重要。基因组选择技术的出现,为更早、更准确地筛选出优质种牛带来了革命性的希望。然而,一个现实的“瓶颈”摆在育种学家面前:市面上绝大多数商业化的基因分型芯片(SNP芯片)都是基于另一亚种——普通牛(Bos taurus taurus,即家牛)——的基因组特征设计的。由于两个亚种在连锁不平衡(Linkage Disequilibrium, LD)模式和次要等位基因频率(Minor Allele Frequency, MAF)上存在显著差异,这些“为家牛量身定制”的芯片在应用于瘤牛时,其信息量和有效性可能会大打折扣。许多标记位点在瘤牛群体中可能是固定不变的,在质控中会被过滤掉,导致可用于基因组预测和关联分析的标记减少,统计效力下降。
有没有一种经济高效的解决方案,能让育种者既使用成本较低的低、中密度芯片,又能获得近似高密度芯片的基因组信息呢?基因型填充(Genotype imputation)技术正是为此而生。它通过利用一个高密度参考群体的基因型数据,来预测和填充那些仅用低、中密度芯片分型的个体中缺失的基因型。虽然这项技术在普通牛中已被广泛研究,但在像Nelore这样具有重要经济价值的瘤牛品种中,其实际表现如何,尤其是使用当前市面上琳琅满目的各种商业芯片时,不同填充软件的性能优劣,仍然缺乏系统性的评估。这正是本研究要回答的核心问题。
为了填补这一知识空白,一个国际研究团队开展了一项大规模的分析。他们获得了巴西Zebu牛育种者协会(ABCZ)提供的超过30.5万头Nelore牛的基因型数据,这些数据来自14种不同密度的商业SNP芯片,涵盖了从低密度(如14k、30k)到中密度(如50k、70k),再到高密度(777k)的完整谱系。研究团队设定了明确的目标:系统评估四种广泛应用且算法各异的基因型填充软件——FImpute、Beagle、Minimac和Findhap——在Nelore牛群体中的表现。考虑到从极低密度直接填充到高密度可能面临的挑战,他们采用了更贴近实际育种项目操作的两步填充策略:第一步,将所有低、中密度芯片的基因型填充到一个自定义的、包含约12万个位点的中间密度面板(120k);第二步,再将这个120k面板填充到最终的777k高密度(HD)面板。研究的评估维度非常全面,既包括填充的准确性(采用皮尔逊相关系数Corr和正确填充基因型百分比PERC衡量),也涵盖了计算性能(运行时间和内存占用)。
关键技术方法简述
本研究利用了巴西Zebu牛育种者协会(ABCZ)官方数据库,包含了约1400万头Nelore牛的系谱信息,其中309,640头动物使用14种商业SNP芯片进行了基因分型。经过严格质控(如call rate < 0.90, MAF < 0.01, 偏离哈代-温伯格平衡HWE < 0.15),最终305,184头动物的基因型数据用于分析。研究评估了FImpute v3、Beagle v5.4、Minimac4和Findhap四款软件。填充过程分为两步:首先将所有LD/MD芯片数据填充至一个定制的120k SNP面板,然后将此120k面板填充至777k HD面板。准确性评估通过从HD群体中随机划分验证集,将其基因型掩膜以模拟各LD/MD芯片,再比较填充值与真实值来计算Corr和PERC。计算效率通过记录在58个处理器上并行运行时的CPU时间和内存占用来评估。
研究结果
不同SNP芯片和软件的填充准确性及正确填充基因型百分比
总体而言,所有软件在各种场景下都取得了较高的填充准确性。Corr值范围在0.82(14k芯片,Findhap)到0.98(70k1芯片,FImpute)之间,PERC范围在89.35%到99.26%之间。对比FImpute使用和不使用系谱信息的情况,结果显示使用系谱信息并未带来准确性的显著提升。由于Corr和PERC的结果趋势高度一致,后续分析主要聚焦于Corr。从低密度(LD)或中密度(MD)芯片填充到120k面板时,MD面板的平均Corr略高于LD面板。填充准确性随着待填充的SNP数量减少而提高。有趣的是,尽管从120k到HD面板需要填充的SNP数量最多(496,610个),但这一步骤的准确性却是所有场景中最高的。FImpute、Beagle和Minimac的Corr值非常接近(0.981-0.984),而Findhap的准确性最低(0.948)。
对不同软件和芯片的个体填充准确性分布进行分析发现,对于LD芯片,平均Corr从0.950(Findhap)到0.979(FImpute)不等。其中,14k芯片在所有芯片中平均Corr最低。Findhap软件填充准确性低于0.8的个体数量最多(112头),而FImpute软件最少(10头)。
次要等位基因频率对填充的影响
稀有等位基因(MAF ≤ 0.03)的填充一直是基因型推断中最具挑战性的环节之一。在本研究使用的HD面板中,有16.5%的SNP属于稀有变异。结果显示,所有芯片都呈现出一致趋势:随着MAF的增加,填充准确性(Corr)也随之提高,表明填充稀有等位基因比填充常见等位基因更为困难。在从LD/MD面板填充到120k面板的场景中,FImpute在填充稀有等位基因方面表现出比其他软件更高的效率。当从信息量更丰富的120k面板填充到HD面板时,所有软件对稀有等位基因的填充准确性都有所提升,这表明120k面板已包含足够的信息来支持低频SNP的填充。在所有测试的芯片中,14k芯片对稀有和常见等位基因的填充准确性都是最低的。除Findhap外(其对14k芯片稀有等位基因的平均Corr为0.701),所有软件在14k芯片上对MAF ≤ 0.03位点的填充准确性均高于0.80。0.03) variants, using different software and SNP panels">
计算性能
在计算效率方面,FImpute展现了压倒性的优势。在从120k到HD面板的填充任务中(使用58个处理器并行),FImpute(不带系谱信息)仅需1分45秒即可完成,内存占用约8.87 GB;FImpute(带系谱信息)需2分4秒,内存占用约12.57 GB。相比之下,Beagle、Minimac和Findhap分别需要11分51秒、16分17秒和23分4秒,内存占用则分别高达76.30 GB、65.81 GB和110.13 GB。因此,FImpute在速度和内存使用效率上均显著优于其他被测试的软件。
研究结论与讨论
本研究通过大规模数据分析,系统地回答了关于Nelore牛基因型填充的关键问题,并得出了明确且具有实践指导意义的结论。
首先,研究证实了在Nelore牛中使用现有商业SNP芯片进行准确基因型填充是高度可行的。除了密度最低的14k芯片外,从其他所有低密度或中密度芯片填充到120k面板均能获得很高的准确性。这与之前在普通牛中的研究结论一致,即填充准确性随起始芯片密度的增加而提高。基于本研究结果,作者明确不建议在Nelore牛中使用14k芯片,这与前人研究推荐避免使用低于15k密度芯片的建议相符。
其次,在软件选择上,本研究给出了清晰的排序。FImpute软件在综合性能上表现最佳,不仅拥有最高的平均填充准确性(最高Corr达0.983)和最少的低准确性个体,而且在填充稀有等位基因时表现出最稳定的性能。尽管基于群体方法的软件(如Beagle和Minimac)也能达到相近的准确性,但它们的计算成本(时间和内存)远高于FImpute。Findhap软件则在准确性、速度和内存使用上均逊于其他三者。尤其值得注意的是,FImpute在利用系谱信息方面带来的额外准确性增益在本研究中非常有限。研究者认为,这很可能归因于本研究使用的系谱质量较高(在基因型个体中,未知父本比例仅为4%),以及多年来积累的庞大基因型数据量,使得基于群体的算法已经能充分发挥作用。因此,对于这个巴西Nelore牛群体,无论是否使用系谱信息,FImpute都是最推荐的填充工具。
再者,研究深入探讨了稀有等位基因填充这一难点。稀有变异通常包含功能性或有害突变,对经济性状有重要影响,准确填充它们对于关联研究和基因组评估至关重要。本研究发现,FImpute在填充稀有等位基因方面优于其他软件,这可能得益于其算法在识别长单倍型匹配方面的优势,而稀有等位基因常位于这些共享单倍型中。尽管Findhap也结合了系谱和群体算法,但其在填充稀有等位基因上表现最差,可能源于其在寻找长单倍型片段方面的效率较低。
最后,在计算资源日益受到关注的今天,本研究的效率评估极具现实价值。FImpute在速度和内存占用上的卓越表现,使其在处理像本研究这样超大规模(数十万个体)数据时具有显著优势,能够大大缩短育种决策的等待时间并降低硬件门槛。
综上所述,这项发表在《Tropical Animal Health and Production》上的研究,为热带地区主导肉牛品种Nelore的基因组选择实践提供了关键的技术路线图。它明确指出了应避免使用的芯片下限,推荐了最优的填充工具,并验证了两步填充策略的有效性。这些发现不仅增强了育种者利用成本效益更高的低、中密度芯片进行高效基因组选择的信心,也为进一步利用填充后的高密度数据开展更精细的遗传解析(如鉴定稀有致死单倍型)奠定了坚实基础,最终将推动巴西乃至全球热带肉牛育种事业的精准化和高效化发展。