机器学习与GBLUP在鸡基因组育种值预测中的比较准确性:为地方蛋鸡品种的基因组选择提供模型选择依据

《Genes》:Comparative Accuracy of Machine Learning and GBLUP for Predicting Genomic Estimated Breeding Values in Chickens Haoxiang Chai, Yuqi Yang, Dan Wang, Chao Ning, Xuguang Zhang, Wenwen Wang, Qin Zhang, Haigang Bao and Hui Tang

【字体: 时间:2026年03月13日 来源:Genes 2.8

编辑推荐:

  本研究比较了多层感知机(MLP)、随机森林(RF)和基因组最佳线性无偏预测(GBLUP)模型在预测文水绿壳蛋鸡(WLGS)产蛋及蛋品质性状基因组估计育种值(GEBV)中的表现。结果显示,对于遗传力(h2)高的性状(如蛋重),GBLUP表现更佳;而对于中低遗传力性状,RF模型展现出显著预测优势。全基因组重测序数据优于50K芯片数据,且模型性能受标记密度影响。这为地方特色鸡种的遗传改良和育种模型选择提供了科学依据。

  
引言
文水绿壳蛋鸡(Wenshui Luhua Green-Shelled, WLGS)是一种由文上斑点鸡与绿壳蛋鸡杂交选育而成的特色地方品种,具有斑驳羽毛、绿壳蛋和高产蛋性能。传统的基因组选择(Genomic Selection, GS)方法,以基因组最佳线性无偏预测(Genomic Best Linear Unbiased Prediction, GBLUP)为代表,基于加性遗传效应和线性基因型-表型关系的假设,在解析由多个小效应加性位点控制的复杂性状时表现良好。然而,在由多基因互作和环境因素塑造的复杂性状中,非线性的基因型-表型关系很常见,这极大地限制了GBLUP的预测能力,尤其是在使用标记数量远超样本量的全基因组重测序数据时,线性模型容易过参数化,存在过拟合风险。
近年来,机器学习(Machine Learning, ML)方法因其处理高维数据和建模非线性关系的灵活性,逐渐被引入畜禽基因组预测。随机森林(Random Forest, RF)作为一种集成学习方法,通过自助采样和随机特征子采样构建多个决策树,能有效缓解高维单核苷酸多态性(Single Nucleotide Polymorphism, SNP)数据中的多重共线性问题,对噪声和异常值稳健,并能自动捕获SNP间的高阶互作和非线性关系。多层感知机(Multilayer Perceptron, MLP)作为一种经典的前馈神经网络,具有强大的非线性函数逼近能力,能通过多层架构对输入特征进行分层抽象,并整合显性效应、上位效应及其组合模式。
在动物育种中,遗传力是决定选择响应速率和指导育种策略设计的关键参数。本研究首先估算了WLGS蛋鸡目标性状的遗传参数,为后续方法比较提供遗传学基础。然而,针对WLGS蛋鸡此类特色遗传资源,系统比较RF、MLP与传统GBLUP预测性能的研究仍很缺乏。因此,本研究旨在评估ML在该品种基因组预测中的适用性,为特色鸡种的遗传改良提供方法学基础。
材料与方法
2.1. 群体与表型
研究使用了来自同一批次孵化的834只WLGS蛋母鸡。试验在标准笼养条件下进行,记录了开产后前三个月的产蛋数据。本研究测量了八个性状,包括产蛋数(Egg Number, EN)以及蛋品质指标,如30周龄蛋重(EW-30W)、30周龄蛋形指数(ESI-30W)、40周龄蛋重(EW-40W)、40周龄蛋横径(EHD-40W)、40周龄蛋壳强度(ESS-40W)、40周龄蛋形指数(ESI-40W)和40周龄蛋壳厚度(EST-40W)。使用电子天平、游标卡尺、蛋壳厚度计和蛋壳强度测试仪等设备进行测量。
2.2. 基因型数据
从834只母鸡翅静脉采集血样,在BGI MGI2000平台上使用DNBSEQ技术进行全基因组重测序。质量控制后,平均比对率达到99.78%,个体平均测序深度为11.9×。使用PLINK 1.9进行变异过滤(缺失基因型率<10%,次要等位基因频率>0.05,哈迪-温伯格平衡p值>1×10-6)。为了评估SNP密度对基因组选择准确性的影响,从重测序数据中提取了对应于京芯-1 50K芯片的位点,生成了原始芯片数据集并进行质量控制,用于与全基因组重测序数据进行比较分析。
2.3. 统计模型
基于全基因组重测序和50K芯片数据集,使用多层感知机、随机森林和GBLUP预测基因组育种值。
2.3.1. GBLUP
对于GBLUP模型,使用GMAT v1.01软件基于单性状GBLUP模型估计方差组分和个体基因组估计育种值(Genomic Estimated Breeding Values, GEBV)。加性遗传方差和残差方差通过限制性最大似然法(REML)估计。GBLUP模型表达式为 y = Xb + Zu + e,其中y是表型观测值向量,b是固定效应向量,u是个体加性遗传效应向量,e是随机残差向量;X和Z分别是固定效应和加性遗传效应的设计矩阵。假设u ~ N(0, Gσg2),e ~ N(0, Iσe2),其中G指基因组关系矩阵,I是单位矩阵,σg2和σe2分别表示加性遗传方差和残差方差。
遗传力(h2)计算为加性遗传方差(σg2)与表型方差(σp2)的比值,公式为 h2= σg2/ σp2。表型方差通常通过方差分析估计,公式为 σp2= σg2+ σe2
2.3.2. 多层感知机模型
多层感知机(MLP)模型通过分层变换捕获标记与性状间的复杂非线性关系,网络权重通过反向传播优化。实现基于scikit-learn中的MLPRegressor。预处理包括将SNP标记标准化为零均值和单位方差,然后通过基于单变量过滤器的特征选择(SelectKBest with f_regression)进行降维以保留前k个SNP。随后,使用网格搜索结合训练集的10折交叉验证进行超参数调优,重点关注hidden_layer_sizes、learning_rate_init、learning_rate和alpha。应用早停法以防止过拟合。
2.3.3. 随机森林模型
随机森林(RF)模型是一种集成算法,整合多个决策树进行回归。每棵树在数据的自助采样样本上训练,并在每次分割时考虑特征的随机子集,以促进模型多样性和泛化能力。使用scikit-learn中的RandomForestRegressor实现。特征选择采用与MLP相同的单变量过滤策略。关键超参数(n_estimators, max_depth, max_features)通过网格搜索结合训练集的10折交叉验证进行优化。
2.4. 基因组预测准确性评估
基因组育种值预测的准确性量化为GEBV与相应观测表型值之间的皮尔逊相关系数(r)。采用重复10折交叉验证方案:在10次独立迭代中,每次随机保留10%的样本作为验证集,其余90%作为参考(训练)集。最终报告的预测准确性是100个验证折上平均皮尔逊相关系数的均值。除准确性外,本研究还评估了预测偏差,定义为在所有验证样本上将观测表型对预测GEBV进行线性回归所得的回归系数(b1)。b1值为1表示完全无偏;b1< 1反映预测膨胀(高估极端值),b1> 1反映预测收缩(向均值回归)。
结果
3.1. WLGS蛋鸡表型统计摘要
大多数性状的平均值和中位数非常接近,呈对称的正态分布,适合使用线性模型进行基因组预测。
3.2. 八个产蛋性状和蛋品质性状的遗传力
遗传力分析显示,产蛋数(EN)具有中等遗传力(0.327)。而蛋重相关性状(EW-30W, EW-40W, EHD-40W)表现出高遗传力(0.570–0.631)。蛋壳强度(ESS-40W)和厚度(EST-40W)分别表现出0.228和0.220的中等遗传力。
3.3. 不同模型对预测准确性的影响
模型比较显示,对于蛋形指数(ESI-30W, 0.395)和大多数蛋品质性状,RF表现最佳,而GBLUP在蛋重性状上取得了最优结果,EW-30W和EW-40W的预测准确性分别达到0.392和0.432。对于产蛋数和多个蛋品质性状,RF实现了最高的预测准确性,其次是GBLUP,而MLP表现最不理想。
预测偏差评估显示,GBLUP在所有性状上的偏差值最接近1(0.96至1.05),表明校准良好。相比之下,RF和MLP对特定性状表现出一定偏差:RF对ESI-30W(b1= 1.20)和ESS-40W(b1= 1.17)显示出预测收缩,而MLP对EW-30W(b1= 0.92)和EW-40W(b1= 0.89)显示出预测膨胀。这些结果表明,尽管机器学习模型提高了预测准确性,但可能以牺牲无偏性为代价。
3.4. 全基因组重测序数据与芯片数据对预测准确性的影响
全基因组重测序数据在所有模型上 consistently 优于50K芯片数据。例如,对于性状EW-40W,GBLUP使用重测序数据达到了0.432的准确性,比芯片数据的准确性(0.346)高出24.9%。
3.5. 不同位点数量对模型预测准确性的影响
SNP密度分析进一步表明,GBLUP在低密度条件下保持稳定,而MLP和RF随着密度增加而逐步提高,RF在高密度下表现出最显著的优势。在较低SNP密度下(例如k = 500),GBLUP对大多数性状达到了最高准确性,而MLP和RF的准确性都低于0.1。随着SNP密度增加,所有模型的准确性都有所提高。从k = 60K开始,RF在ESS-40W上超过了GBLUP。在70K–90K的密度下,RF和MLP在多个性状上超过了GBLUP。到k = 100K时,MLP和RF在大多数性状上都优于GBLUP,其中RF优势更明显。这种模式表明,ML方法的预测优势强烈依赖于较高的标记密度。
讨论
结果表明,模型预测性能与性状遗传力密切相关。对于高遗传力性状,GBLUP取得了较高的预测准确性。相比之下,对于中低遗传力性状,MLP和RF显著优于GBLUP。这些发现与在荷斯坦公牛中的报道一致,支持模型性能高度依赖于性状遗传结构的观点。
机器学习方法相对于参数方法的优势通常取决于样本量、标记密度和性状的遗传结构。因此,在实践中,模型选择应遵循性状遗传力指导:GBLUP对于高遗传力性状仍具优势,而机器学习模型对于中低遗传力性状提供更大潜力。
我们的研究证实,与传统的50K芯片数据相比,全基因组重测序数据普遍提高了WLGS蛋鸡经济性状基因组预测的准确性。然而,这种优势对于某些性状(如EW-30W和EHD-40W)有限。这种不一致可能源于多种因素,其中本研究的训练样本量有限(834个个体)可能是一个关键限制。训练群体规模小限制了测序数据的充分利用,因为难以全面捕捉小群体中低频等位基因的效应。此外,严格的质量控制可能移除了一些低频或功能相关的SNP,从而削弱了序列数据的预测价值。不同的算法在建模密集的连锁不平衡模式方面存在固有差异,这也可能导致跨性状的性能变化。
值得注意的是,在基于ML的基因组预测中,特征筛选是从海量SNP中筛选出最具信息量的遗传标记的关键步骤。使用所有标记作为输入特征会导致模型过拟合并带来显著计算负担。因此,常见的做法是预先筛选可能与性状相关的SNP。我们的结果表明,MLP、RF和GBLUP模型的预测性能通常随着SNP数量的增加而提高。然而,随着更多SNP的加入,改进的速度逐渐放缓。这表明超过一定密度后,额外的标记提供的遗传信息增量递减,甚至可能引入噪声,从而可能损害模型泛化能力。因此,构建一个具有适当规模SNP集的预测模型可以提高基因组预测准确性和计算效率,促进基因组选择在文水绿壳蛋鸡育种中的实际应用。
本研究存在一些局限性。首先,训练样本量有限,可能限制了全基因组测序信息的充分利用。小样本在估计低频等位基因效应或捕捉复杂互作模式时特别容易过拟合和效应估计不准确。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号