《The Plant Genome》:Impact of environmental covariates summarization on predictive ability in genomic selection
编辑推荐:
本研究系统比较了环境协变量(EC)在基因组选择(GS)模型中的不同汇总方法(平均法AVG、过滤法FILT、分段法STG及全信息法ALL),并评估其对基因型与环境互作(G×E)模型预测能力的影响。结果表明,在预测已测试环境中的未测试基因型(CV1)及部分观测环境中的基因型(CV2)时,纳入EC信息可将平均预测能力从0.42提升至0.56;而全信息法(ALL)在多数场景下表现优异,且无需额外变量筛选步骤。然而,在预测新环境中的基因型(CV0)时,仅包含G×E交互的模型预测能力更优(0.33)。研究为EC在GS中的高效利用提供了实践指导。
摘要
本研究探讨了环境协变量(EC)汇总方法对基因组选择(GS)预测能力的影响。通过整合基因组与环境信息,可显著提升基因组预测模型在考虑基因型与环境互作(G×E)时的预测精度。研究利用SoyNAM数据集中的1379个大豆基因型,在4个环境中评估了4611个单核苷酸多态性(SNP)标记,比较了不同协方差矩阵下包含G×E和基因型与环境协变量互作(G×W)的模型。
引言
基因组选择(GS)通过统计模型预测未观测个体的遗传价值,其中基因组最佳线性无偏预测(GBLUP)因能处理高维变量而被广泛应用。G×E互作指基因效应受环境条件影响,将EC纳入GS模型可通过环境协方差矩阵捕捉环境间关系。然而,EC信息的最优汇总方式尚无统一标准,现有方法包括平均值汇总、基于决定系数(R2)的过滤、作物物候分段及全信息直接使用。
材料与方法
研究使用SoyNAM数据集中的重组自交系(RIL),在4个环境中获取5516个表型记录。EC包括每日最高温、最低温、平均温、相对湿度、降水、风速及比湿共7类指标。GS模型采用GBLUP框架,扩展为包含G×W互作的反应规范模型。EC汇总方法分为四种:
- 1.
AVG:计算整个生长季各EC的平均值;
- 2.
FILT:通过回归分析筛选R2> 60%的显著时间窗口;
- 3.
STG:按大豆物候阶段分段求均值;
- 4.
ALL:直接使用所有每日EC数据。
评估通过三种交叉验证(CV)方案进行:CV1(预测未测试基因型在已观测环境)、CV2(预测已测试基因型在部分未观测环境)、CV0(预测已测试基因型在新环境)。
结果
- •
环境关系分析:基于EC的协方差矩阵(Ω)分解显示,AVG法的前两个主成分累积方差占比最高(99.15%),但未能反映伊利诺伊州(IL)与印第安纳州(IN)的环境相似性;而FILT、STG和ALL法则成功捕捉到该关系。
- •
方差组分:纳入EC的模型显著降低了残差方差。其中,W-GW(ALL)模型的遗传方差占比最高(13.70%),表明其更能利用遗传信息。
- •
预测能力:
- •
CV1与CV2场景中,EC模型的平均预测能力从0.42升至0.56,其中AVG法最低(0.51),FILT、STG和ALL法均达0.58。
- •
CV0场景中,仅含G×E的模型预测能力最佳(0.33),EC模型均表现较差(平均0.10)。
讨论
EC汇总方式直接影响环境关系的表征与预测精度。AVG法因忽略EC时间动态而表现不佳;FILT和STG法虽能提升特定场景预测力,但需额外步骤;ALL法通过直接利用全部EC数据,在CV1/CV2中达到最优效果,且避免了变量选择的主观性。然而,EC模型在CV0中的局限性提示其对环境历史数据的依赖性较强。
结论
EC处理策略可改变环境间关系的解读,进而影响GS预测能力。全信息法(ALL)在预测已知环境中的基因型时优势显著,且无需复杂预处理,为EC的高效利用提供了实用方案。