《Forest Ecology and Management》:Integrating enviromics to predict performance and guide clonal deployment in
Eucalyptus spp.
编辑推荐:
本研究利用enviromics框架整合环境协变量,评估了15种桉树克隆在巴西南部5189块样本地的生长表现,通过随机森林和混合模型构建工程化环境标记,预测标准化七年年均生长量。结果显示enviromics模型显著优于基础G×E模型,相关系数达0.92,RMSE降低至3.09,并通过霜冻风险地图优化部署策略,使生产力增益约13%。
作者列表:
Jo?o Gabriel Zanon Paludeto | Gustavo Eduardo Marcatti | Regiane Abjaud Estopa | Jaroslav Kláp?tě | Jo?o Carlos Bespalhok-Filho | Rafael Tassinari Resende
公司信息:
Klabin S.A.,地址:巴西巴拉那州(PR)泰莱马科博尔巴(Telêmaco Borba)哈莫尼亚(Harmonia)巴西利亚大道(Avenida Brasil)26号,邮编84275-000
摘要
基因型与环境互作(G×E)仍然是树木育种中的核心挑战,因为很难将试验结果推广到未测试的地区,这也使得基因型的可靠部署变得复杂。环境组学通过将环境协变量整合到预测模型中,提供了一种克服这些限制的方法,从而指导克隆体的部署。本研究评估了一个环境组学框架,该框架应用于分布在巴西南部的5189个样地中的15个桉树(Eucalyptus spp.)克隆体。研究人员利用3869个土壤、气候和遥感协变量,通过随机森林模型构建了10,000个“工程化环境标记”(Engineered Enviromic Markers),并将其整合到一个混合模型中,以预测目标环境群体(Target Population of Environments)中七年后的年均生长量。预测准确性通过“留一法”(Leave-One-Region-Out)交叉验证程序进行评估。结果表明,环境组学模型的性能优于基线G×E模型:皮尔逊相关系数(Pearson correlation)和斯皮尔曼相关系数(Spearman correlation)均超过0.90,均方根误差(Root Mean Squared Error,RMSE)为3.09,而基线模型的相关系数和RMSE分别为0.45–0.39和8.73。空间预测有助于划分出能够最小化G×E效应的育种区域,同时揭示出适合测试新基因型的区域。此外,研究还采用了两步克隆体部署程序,将环境组学预测结果与霜冻风险地图相结合,从而优化了对易受霜冻影响地区的推荐方案。在比较推荐克隆体与实际种植克隆体的表现时,该框架显示平均预期生产力提高了约13%。这些结果展示了环境组学作为决策支持工具的潜力,能够在考虑环境风险的同时提升生产力,并为未来的多组学整合铺平了道路。
引言
基因型与环境互作(G×E)一直是森林树木育种者关注的重点(Costa e Silva等,2006;Hardner等,2010;Rosado等,2012;Santos等,2016)。G×E效应在植物育种中常常带来显著挑战,因为它会影响遗传增益的估计值,降低整体遗传力,并影响受影响性状的选育准确性(Li等,2017)。鉴于气候变化的快速进展,G×E效应对正确定义目标环境群体(Target Population of Environments,TPE)构成了持续性的挑战(Cappa等,2015;Cooper等,2021;Ray等,2022;Cruz等,2025)。此外,G×E效应的强度也会影响遗传材料的空间分配策略(Crossa等,2021;Marcatti等,2017;Resende等,2025;Resende等,2021)。
历史上,已经开发出多种分析工具来量化、解释和分析作物中的G×E效应。早期方法基于基因型均值与环境指标的线性回归(Finlay和Wilkinson,1963),以及通过平方和分解来推导稳定性参数(Eberhart和Russell,1966;Shukla,1972)。后来出现了新的方法,如加性主效应和乘性互作(AMMI)模型(Gauch,1992)以及基因型加环境互作(GGE)生物图(Yan等,2000)。随着数量遗传学的进步和混合效应模型的普及,基于BLUP的指数被引入,用于同时评估基因型的稳定性和生产力(Resende,2004),以及因子分析的方差-协方差结构,这些方法能够简洁地表示多环境试验中的遗传相关性(Meyer,2009;Smith等,2001)。最近的方法也进一步丰富了G×E效应的分析,例如加权平均绝对分数(WAASB),它将AMMI与BLUP结合,将G×E效应研究纳入混合模型框架(Olivoto等,2019)。然而,无论这些方法基于方差分析(ANOVA)还是混合模型,它们都仅限于解释和理解特定测试环境下的G×E效应,因为它们没有纳入土壤和气候协变量,从而限制了其在未测试条件下的预测能力(Costa-Neto等,2022;da Costa等,2024)。
预测性能并据此将基因型最优地分配到未测试地区的能力,在植物和动物育种中一直备受关注(Resende等,2021)。Heslot等(2014)和Jarquín等(2014)提出了基于基因组的反应规范模型(genome-based reaction-norm model),该模型利用多个环境协变量(ECs)在基因组预测框架中模拟G×E效应。后续研究表明,这些方法可以提高未测试地区的预测准确性(Pérez-Rodríguez等,2015;Cuevas等,2016;Acosta-Pech等,2017;Marcatti等,2017;He等,2019)。随着从环境分型中获得的ECs数量和多样性的增加(Xu,2016),这种方法演变成了现在所称的环境组学(Resende等,2021)。
传统的环境组学方法使用Jarquín等(2014)提出的反应规范核模型(reaction-norm kernel model),该方法与经典的GBLUP(VanRaden,2008)非常相似。与传统方法不同,该方法不是基于个体之间的基因组关系矩阵,而是从ECs构建环境关系的线性核(协方差),将表型变异与特定环境因素联系起来,以模拟基因型在连续环境梯度上的响应曲线。该模型能够预测未测试地点或年份的基因型表现,从而支持和优化基因型的部署(Costa-Neto等,2022;Resende等,2025)。
在基于GIS的空间预测方法中(GIS:地理信息系统),Marcatti等(2017)首次提出了这种方法,并由Resende等(2021)进一步完善为环境组学应用。在这种方法中,任何定义的土地区域都被划分为地理参考像素网格,每个网格单元(像素)都根据ECs构建了相应的环境特征。第一步是使用机器学习算法建立“工程化环境标记”(Engineered Enviromic Markers,EEMs),将ECs与特定性状关联起来。然后利用EEMs作为预测变量来拟合反应规范混合模型,从而对整个目标环境群体进行预测。通过在像素级别建模G×E效应,这种方法可以支持育种决策(例如,划分G×E效应最小的育种区域)和部署策略,通过像素级优化的基因型分配来提高遗传增益(Araújo等,2024;Bahia等,2025;Cruz等,2025;Marcatti等,2017;Resende等,2025)。
尽管存在将ECs纳入G×E效应研究的分析方法,但很少有研究直接将这些模型应用于实际育种计划中,并关注基因型的部署(Marcatti等,2017;Scolforo等,2020;Scolforo等,2017)。此外,目前还没有成熟的流程能够跨连续区域提供像素级的基因型推荐。
鉴于此背景,本研究的目的是评估一种基于GIS的方法,该方法结合ECs和混合模型框架以及真实的桉树(Eucalyptus spp.)库存数据,预测目标环境群体(TPE)中的克隆体表现,从而提供一个能够优化克隆体分配的决策支持工具。
本研究分析了来自五个桉树物种(
E. urophylla ×
E. grandis、
E. dunnii、
E. saligna、
E. benthamii 和
E. urophylla)的15个不同克隆体(图1b),这些克隆体分布在巴西的巴拉那州(PR)、圣保罗州(SP)和圣卡塔琳娜州(SC)的5189个样地中。研究重点是对七年年均生长量(MAI7)进行评估,该指标衡量的是每年每公顷的体积(m3 ha?1 yr?1),并标准化为七年生长量。
基线模型的皮尔逊相关系数和斯皮尔曼相关系数的预测能力分别为0.45和0.39,均方根误差(RMSE)为8.73。相比之下,环境组学模型的整体性能更高,预测准确性提高了超过一倍(斯皮尔曼相关系数:0.92 ± 0.02;约提高了136%),预测误差减少了约65%(RMSE:3.09 ± 0.32)。
模型策略的比较清楚地凸显了在预测树木生长时整合环境信息的重要性。基线模型具有中等预测能力,表明传统的G×E建模在一定程度上可以预测基因型表现。然而,环境组学模型通过整合明确的环境分型协变量和基因型数据,显著提高了预测准确性。
从更广泛的角度来看,环境组学方法在G×E建模方面的发展显而易见。现代的反应规范框架有效地将G×E效应分析从单纯的解释提升到了预测应用,使育种者能够预测未测试地点的基因型表现。这种主动的使用方式还扩展了指导基因型部署策略的潜力,为将基因型与特定气候或管理条件相匹配提供了强大的框架。
Jo?o Gabriel Zanon Paludeto:概念化、数据管理、数据分析、方法论研究、软件开发、可视化、初稿撰写及审稿编辑;
Gustavo Eduardo Marcatti:概念化、方法论研究、资源协调、监督工作、软件开发、审稿编辑;
Regiane Abjaud Estopa:概念化、数据分析、验证工作、撰写及审稿编辑;
Jaroslav Kláp?tě:数据分析、撰写及审稿编辑;
Jo?o Carlos:(未提供具体贡献内容)
作者声明他们没有已知的财务利益或个人关系可能影响本文的研究结果。