利用机器学习辅助的全基因组测序数据特征选择,可以提高性状预测的准确性,并揭示鲟鱼中的候选基因

《Aquaculture》:Machine learning–assisted feature selection from whole-genome sequencing data improves trait prediction and reveals candidate genes in sturgeon

【字体: 时间:2026年02月27日 来源:Aquaculture 3.9

编辑推荐:

  本研究通过全基因组测序在971个鲟鱼个体中发现大量SNP,并利用机器学习辅助特征选择筛选出与鱼子产量、颜色及体重相关的SNP(3-6%总标记),显著提升基因组预测模型(随机森林、核岭回归等)的预测精度(3.4-4.6%)。功能注释鉴定出涉及线粒体代谢、色素合成等通路的关键基因,为鲟鱼育种提供新分子标记。

  
宋海亮|李慧娟|王伟|董天|闫晓宇|白松|胡红霞
北京农林科学院渔业科学研究所 & 北京渔业生物技术重点实验室,中国北京100068

摘要

鲟鱼在经济上重要的性状(包括鱼子酱产量、鱼子酱颜色和体重)上表现出显著的表型变异,但这些性状的分子机制仍大部分尚未阐明。为了剖析其遗传结构并提高基因组预测能力,我们对971条鲟鱼进行了全基因组测序(WGS),平均深度为13.52倍,获得了822万个高质量SNP。通过机器学习辅助的特征选择方法,区分了具有不同表型个体的信息丰富位点,识别出251,852至457,064个与性状相关的SNP(占总标记的3-6%)。将这些选定的变异纳入基因组预测模型(包括随机森林(RF)、核岭回归(KRR)、极端梯度提升(XGBoost)和基因组最佳线性无偏预测(GBLUP)中,与仅使用所有WGS标记或全基因组关联研究(GWAS)衍生的SNP集相比,所有性状的预测准确率均提高了3.4-4.6%。对特征选择位点的功能注释揭示了参与线粒体代谢、色素合成、钙信号传导和细胞生长调控的候选基因。关键候选基因包括CCDC112、THAP11、LYRM4、CEP85L、PLN、BRE、GPR143、ATG5、GTF3C2、AKR1A1、CEP68以及GAST家族成员,这些基因可能参与了繁殖性能、色素沉着和生长的表型变异。这些基因组变异为鲟鱼育种计划提供了有前景的分子标记。总体而言,我们的研究为鲟鱼经济重要性状的遗传结构提供了新的见解,并证明了机器学习辅助的特征选择是从高维WGS数据中提取生物学相关和具有预测价值的变异的有效策略。

引言

鲟鱼是现存最古老的脊椎动物之一,由于其在鱼子酱生产中的巨大经济价值,成为全球水产养殖的关键物种。中国已成为世界主要的养殖鲟鱼生产国,对全球鱼子酱市场和淡水水产养殖经济做出了重要贡献(FAO,2024年)。随着该行业的迅速发展,低繁殖效率、世代间隔长和明显的表型变异等挑战日益突出。鱼子酱产量、鱼子酱颜色和体重等关键经济性状直接决定了生产利润和产品质量,但由于其复杂的多基因遗传结构和较低的遗传力,通过传统选择方法进行改进的速度较慢(Bestin等人,2021年;Song等人,2022年)。鱼子酱产量影响生产效率,鱼子酱颜色是市场价值和消费者偏好的关键决定因素,而体重与生长性能和饲料转化效率密切相关。因此,揭示这些性状的遗传基础并将先进的基因组工具整合到育种计划中对于加速遗传改良和实现中国鲟鱼养殖业的可持续发展至关重要。然而,关键性状的复杂遗传结构以及缺乏有效的计算方法来处理高维基因组数据带来了重大挑战,这突显了需要能够高效识别性状相关变异并提高预测准确性的方法。
基因组选择(GS)通过使用密集的分子标记捕捉复杂性状下的全基因组遗传变异,从而克服了传统系谱选择的局限性,并加速了育种计划中的遗传改良(Meuwissen等人,2001年)。自从GS引入畜牧业以来,它在水产养殖物种中得到了广泛应用,包括大西洋鲑鱼(Bangera等人,2017年;Robledo等人,2018年)、虹鳟鱼(Vallejo等人,2017年)、罗非鱼(Barria等人,2021年)和虾(Nguyen等人,2020年;Sui等人,2022年),在这些物种中显著提高了生长性能、疾病抗性和产品质量性状的选育效果。GS的优势在水产养殖中尤为明显,因为许多经济重要性状在生命后期才表现出来,或者需要侵入性或破坏性的表型分析方法,如病原体挑战测试或繁殖性状评估(Houston等人,2020年;Song等人,2023b年;Yá?ez等人,2023年)。对于鲟鱼而言,由于其较大的体型限制了生长相关性状的实际测量,以及需要牺牲亲鱼来评估关键鱼子酱相关性状,GS在缩短世代间隔、降低表型分析成本和提高整体选育效率方面具有巨大潜力。然而,GS的有效性严重依赖于预测准确性,这受到标记密度、连锁不平衡结构、性状遗传结构以及统计模型捕捉复杂基因型-表型关系的能力的影响(Goddard和Hayes,2009年;Meuwissen等人,2001年)。因此,提高预测准确性仍然是GS在鲟鱼育种计划中成功实施的基本挑战。
随着高维基因组数据的快速积累,机器学习(ML)方法作为强大的基因组预测工具应运而生,因为它们能够在不依赖严格参数假设的情况下建模复杂的非线性关系和高阶相互作用(Montesinos-Lopez等人,2021年)。与传统线性模型相比,如随机森林(RF)、核岭回归(KRR)和极端梯度提升(XGBoost)等ML算法能够更有效地捕捉复杂的基因型-表型关系,特别是那些由多个效应较小的位点控制的性状(Chafai等人,2023年;Montesinos-Lopez等人,2021年)。在水产养殖育种计划中,基于ML的基因组预测在多个物种中表现出了良好的效果,包括大西洋鲑鱼(Song等人,2023a年)、海鲷鱼(Bargelloni等人,2021年)和虾(Luo等人,2024年),尤其是在生长、疾病抗性和耐受性性状方面。然而,ML在水产养殖中的广泛应用仍受到全基因组测序数据极端维度的影响,其中数百万个单核苷酸多态性远远超过了样本数量,导致过拟合和巨大的计算负担。因此,特征选择是降低模型复杂性、去除噪声和提高预测准确性的关键步骤。迄今为止,大多数水生物种的特征选择策略严重依赖于全基因组关联研究(GWAS)衍生的标记,这些标记受到线性假设的限制,在检测非加性和上位效应方面的能力有限(Garcia等人,2024年;Lu等人,2020年;Yoshida和Yá?ez,2021年)。相比之下,基于ML的特征选择方法根据标记的预测重要性对其进行排序或过滤,在水产养殖物种中很少被报道,尤其是在鲟鱼中,尽管它们有可能从数千万个全基因组标记中有效提取信息丰富的变异。在全基因组测序基础的基因组预测中,这种差距尤为重要,因为有效的ML驱动特征选择整合可能会显著提高预测准确性和计算可行性。
在这项研究中,我们开发了一个基于机器学习的特征选择和基因组预测框架,使用鲟鱼的全基因组测序数据。重点关注鱼子酱产量、鱼子酱颜色和体重,我们将GWAS与XGBoost和RF结合使用,以识别信息丰富的SNP子集,并系统地评估它们对多种基因组预测模型的影响。此外,对排名靠前的位点的功能注释有助于识别与这些性状相关的候选基因。通过结合超高密度标记和集成学习,我们的研究为提高鲟鱼的基因组预测提供了一种有效策略,并为在水产养殖物种中应用基于机器学习的特征选择提供了一个通用范例。

章节片段

鱼类饲养和表型测量

本研究中使用的俄罗斯鲟鱼来自杭州千岛湖迅龙科技有限公司(中国杭州),该公司具有标准化的饲养实践、受控的饲养条件以及完善的系谱记录。2012年,251条亲鱼(78条雌鱼和173条雄鱼)通过人工授精产生了192个全同胞家族。所有鱼类都在统一的水产养殖条件下饲养,严格控制水质、温度和喂养制度。

目标性状的描述性统计

鲟鱼三个经济重要性状的描述性统计和遗传力估计总结在表1中。在971条个体中,鱼子酱产量(以体重的比例表示)的平均值为0.193±0.057,变异系数(CV)为29.41%。鱼子酱颜色的平均值为2.398±0.642,CV为26.79%,表明表型变异适中。体重的平均值为19.806±5.096公斤,CV为25.73%,反映了显著的变异。

讨论

在这项研究中,我们将全基因组测序与机器学习辅助的特征选择相结合,以推进鲟鱼三个经济重要性状的基因组预测和位点发现:鱼子酱产量、鱼子酱颜色和体重。利用来自971个个体的超高密度SNP数据,我们证明了包括XGBoost和RF在内的机器学习方法可以高效地优先选择信息丰富的标记,大幅降低了数百万变异的维度。

结论

本研究证明了将机器学习辅助的特征选择与全基因组关联分析和基因组预测相结合在鲟鱼中的有效性。通过优先选择全基因组测序数据中的高置信度SNP,我们提高了经济重要性状的预测准确性,包括鱼子酱产量、鱼子酱颜色和体重,同时大幅降低了计算复杂性。对排名靠前的位点的功能注释揭示了相关候选基因。

CRediT作者贡献声明

宋海亮:撰写——原始草稿、软件、方法论、概念构思。李慧娟:撰写——审阅与编辑、项目管理、概念构思。王伟:数据管理。董天:数据管理。闫晓宇:资源获取、调查。白松:数据管理。胡红霞:撰写——审阅与编辑、项目管理、资金获取、概念构思。

利益冲突声明

所有作者均声明没有利益冲突。

致谢

本工作得到了国家自然科学基金(32341059)、北京农林科学院优秀青年科学家计划(YKPY2025004)和北京农业研究系统创新联盟(BAIC07-2026-1)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号