将遗传优良性状与多性状指标结合气象控制因素,用于评估玉米在多种环境条件下的生长表现
《Food and Energy Security》:Linking Genetic Merit and Multi-Trait Indices With Meteorological Controls to Maize Performance Across Multi-Environment Trials
【字体:
大
中
小
】
时间:2026年05月07日
来源:Food and Energy Security 4.5
编辑推荐:
摘要
在多变的环境中准确评估玉米的表现对于提高产量稳定性和适应气候变化至关重要。然而,传统的育种方法往往难以解决多性状权衡以及复杂的基因型-环境(G×E)相互作用,同时无法明确地结合气象信息。在这项研究中,我们开发了一个综合框架,该框架结合了混合模型遗传评估、信息论多性状指数和
摘要
在多变的环境中准确评估玉米的表现对于提高产量稳定性和适应气候变化至关重要。然而,传统的育种方法往往难以解决多性状权衡以及复杂的基因型-环境(G×E)相互作用,同时无法明确地结合气象信息。在这项研究中,我们开发了一个综合框架,该框架结合了混合模型遗传评估、信息论多性状指数和基于机器学习的环境预测。最佳线性无偏预测(BLUP)被用来估计来自146,286个原始观测值的基因型值和方差组分,这些观测值代表了2020-2024年间在53个环境中评估的34个玉米基因型。产量和抗病性分别使用互信息加权产量性能指数(YPI_MI)和熵加权抗病性指数(DRI)进行总结。然后使用随机森林模型根据气象和土壤变量预测YPI_MI,得到了0.687的交叉验证R2值和0.841的样本内R2值。变量重要性分析确定了蒸散量、降水量、BLUP衍生的遗传价值、短波辐射和土壤pH值是表现变异的主要驱动因素。所提出的框架有效地区分了结合了良好产量潜力与抗病性的基因型,并为特定环境的评估提供了可解释的基础。总体而言,这项研究为整合遗传价值、多性状表现和环境信息以支持在变异性农业气候条件下的玉米品种评估和部署提供了一种实用的方法。
1 引言
玉米(Zea mays L.)是全球种植最广泛的谷物作物之一,它是食物、牲畜饲料和工业产品的重要来源(Yassitepe等人,2021年;Kaushal等人,2023年)。在中国,玉米是主要的粮食作物,对国家粮食安全和农村经济发展做出了重要贡献。随着全球人口的持续增长,对玉米的需求预计会增加,这给玉米生产系统带来了更大的压力,要求其适应变化的环境条件并确保可持续的产量。因此,特别是在日益变化的气候条件下提高玉米的生产力和抗逆性,仍然是现代育种计划的核心挑战(Luo等人,2023年;Yue, das Gracias Dias等人,2025年;Yue, Olivoto等人,2025年)。基因型-环境(G×E)相互作用是玉米在空间和时间上表现不确定性的主要来源。与极端温度、降水模式、太阳辐射和土壤条件相关的环境变异性可以强烈调节产量和病害压力,使得识别广泛适应或特定环境的基因型变得复杂(Rizzo等人,2022年;Ocwa等人,2023年)。这些挑战在中国黄淮海(HHH)夏季玉米区尤为明显,该地区跨越多个省份,贡献了全国超过40%的夏季玉米产量(Hu等人,2021年;Li等人,2025年)。尽管气候条件总体有利,但该地区经常经历不规则的降雨、开花期间的热应激和不断增加的病害风险,所有这些都会影响产量的稳定性(Fu等人,2023年;Ma等人,2024年)。因此,培育高产、抗病且能适应这些变化气候条件的玉米品种对于维持该地区的农业生产至关重要(Yue等人,2022年;Wang等人,2025年)。传统的育种分析通常依赖于单性状选择,并将环境效应隐含地处理或视为固定的背景因素。虽然这些方法有助于遗传增益,但它们往往无法解决多性状权衡问题或阐明环境驱动因素如何在变化条件下塑造基因型表现(Jakutis和Stainier,2021年;Hassani等人,2023年)。特别是,主要关注产量的选择可能会无意中损害抗病性或耐逆性,从而降低在变化气候下的长期适应性(Li等人,2023年;Dhillon等人,2024年)。基于最佳线性无偏预测(BLUP)的混合模型方法已成为估计多环境试验中遗传价值的标准工具,在数据不平衡的情况下提供稳健的基因型排名。然而,仅基于BLUP的分析对于理解环境变异如何调节遗传潜力的表达提供的洞察有限。与此同时,机器学习的进步为模拟气象和土壤变量对作物表现的非线性和交互效应提供了新的机会,补充了传统的数量遗传学框架(Fernandes等人,2024年;Najafabadi等人,2023年)。最近的研究表明,整合遗传信息与环境协变量可以显著提高产量预测并增强对G×E相互作用的理解。尽管如此,大多数现有方法要么仅关注产量作为一个单一响应,要么缺乏处理对育种决策至关重要的多性状目标的透明机制(Xu等人,2022年;Varshney等人,2021年)。仍然需要分析框架来(i)量化稳定的遗传价值,(ii)使用可解释的多性状指数解决产量-健康权衡问题,以及(iii)将基因型表现与环境驱动因素联系起来。本研究旨在构建一个综合框架,将基于BLUP的遗传评估、信息论多性状指数和机器学习环境建模结合起来,以评估在不同农业气候环境下的玉米表现。具体来说,我们的目标是(i)使用大规模多环境试验数据估计基因型值和谷物产量的遗传力;(ii)构建多性状指数以同时评估产量潜力和抗病性;以及(iii)使用随机森林模型量化气象和土壤因素在调节基因型表现中的相对重要性。通过明确链接遗传价值、多性状表现和环境驱动因素,本研究旨在为在气候变异性不断增加的情况下评估和部署玉米品种提供一个更稳健且实际相关的框架。原始数据集包含了在53个环境中评估的34个玉米基因型的146,286个观测值。用于机器学习建模的最终数据集基于关键环境变量和相关性状进行了聚合,同时移除了数据缺失或不完整的观测值。这些步骤的设计旨在确保最终数据集准确代表研究中核心的基因型-环境相互作用,同时也提高了机器学习模型的效率。这些步骤旨在保持一个稳健可靠的数据集,以代表全部的环境和遗传条件范围。
2 方法论
2.1 分析工作流程:从BLUP估计到机器学习预测
基于手稿中详细描述的全面方法论,评估玉米基因型的分析工作流程总结如下:并在附带的框架中展示(图1)。分析结合了遗传、表型和环境数据,在多性状评估框架中进行。分析始于包含146,286个观测值的数据集,这些观测值来自34个玉米基因型,在5年(2020-2024年)内跨53个环境进行了测试,涵盖了17个表型性状和25个环境变量。框架分为三个连续的步骤。首先,应用线性混合模型(LMM)通过最佳线性无偏预测(BLUPs)来估计遗传效应。分析显示产量的广义遗传力(H2 = 0.985)很高,表明在不同条件下具有很强的遗传可预测性。接下来,实施了二维选择指数系统。这一步包括计算11个与产量互信息相关的生产力相关性状的产量性能指数(YPI_MI),以及5个基于熵加权的抗病性指数(DRI)。这种双指数方法识别出了表现出色的基因型,如LY19和HY7182。最后,使用机器学习模型根据环境因素预测YPI_MI。随机森林算法表现出最佳性能,关键预测变量是潜在蒸散量(ETP)、降水量(PRECTOT)、加性遗传效应、太阳辐射(ASKSW)和土壤pH值(PHAQ)。这个综合框架通过同时考虑遗传价值、多性状表型和环境响应来推进基因型评估。它使预测性、气候响应的育种策略成为可能,为提高玉米改良计划的选址效率提供了强大的工具。
2.2 数据集特征
本研究中使用的综合数据集包含了来自34个独特玉米基因型的146,286个观测值,这些基因型在5年(2020-2024年)内跨越53个环境进行了评估。这些环境位于中国黄淮海(HHH)平原的八个省份(图2)。数据集包括17个变量,代表了产量性状、形态特征和抗病性分数,如表1中详细说明的。此外,还收集了25个环境预测变量,包括气候因素(辐射、温度、降水量)、土壤性质(pH值、有机碳、氮含量)和计算出的指数(蒸散量、蒸气压差)。数据集由146,286个原始观测值组成,经过处理后形成了用于机器学习建模的最终数据集。最终建模数据集在聚合重复的原始记录、对环境协变量与试验数据对齐以及排除关键预测变量或指数变量中缺失值的观测值后,包含了1784个基因型×环境的条目。图2展示了中国黄淮海玉米种植区53个试验位置的空间分布。
2.3 收量数据的BLUP分析
实施了线性混合模型(LMM)方法来估计多个环境和年份中产量性状的基因型值和遗传力参数。用于此分析的LMMs可以表示为(方程式1):
(1)
其中代表观测到的产量值,代表固定效应(环境和年份),代表随机效应(基因型),和分别为它们的设计矩阵。随机效应遵循,并且误差,和。这种模型结构是通过系统比较不同的随机效应配置后选定的。方差组分通过受限最大似然(REML)进行估计,BLUPs是根据Henderson的混合模型方程提取的。基因型值计算为总体平均值和BLUP估计值之和。广义遗传力计算如下(方程式2):
(2)
其中代表基因型方差,代表残差方差。
2.4 多性状评估指数系统
开发了两个专门的指数来促进多性状选择:(1)使用互信息加权的产量性能指数(YPI_MI),针对与产量相关的性状;(2)使用熵加权的抗病性指数(DRI),用于评估抗病性特征。YPI_MI包含了11个性状(包括七个负性状),计算方法如下:(方程式3):
(3)
其中代表第i个性状通过与产量的互信息确定的权重,代表第i个性状的标准化值。负性状使用以下公式进行反转(方程式4):
(4)
互信息权重是通过确定每个性状与产量之间的统计依赖性来计算的(方程式5):
(5)
其中和分别代表变量和的边际熵,代表它们的联合熵。这些MI值随后被标准化以得出最终权重。同样,DRI包含了五个抗病性状(全部为负),计算方法如下(方程式6):
(6)
其中代表第i个抗病性状的基于熵的权重,代表标准化并反转后的抗病性分数。熵权重的计算过程如下:
2.5 基于机器学习的产量预测
实施了一个比较机器学习框架,使用环境、气候和土壤变量来开发YPI_MI的预测模型,如表2所列。评估了五种算法:随机森林(RF)、带径向基函数核的支持向量机(SVM)、高斯过程回归(GPR)、决策树(DT)和神经网络(NN)。模型验证使用分层5折交叉验证进行了三次,总共进行了15次验证运行,以确保统计可靠性。模型选择主要基于均方根误差(RMSE)作为性能指标,同时考虑了平均绝对误差(MAE)、决定系数(R2)和对称平均百分比误差(sMAPE)。我们使用了10折交叉验证:数据集被随机划分为10个子集,每次迭代中9个子集用于训练,剩余的1个子集用于测试。在每次迭代中,9个子集用于训练,剩下的1个子集用于测试。这个过程重复了10次,以确保模型的稳健性。在交叉验证过程中没有数据泄漏,因为训练和测试数据集在每次折叠中都是分开的。
表2. 机器学习预测模型中包含的环境因素。
| 环境因素 | 单位 | 描述 |
|-----------------|---------------|-----------------------------------------|
| 1 | MJ m?2 d?1 | 斜射到水平表面的全天空辐照度(包括短波) |
| 2 | MJ m?2 d?1 | 向下的热红外辐射通量 |
| 3 | MJ m?2 d?1 | 地球表面接收到的太阳辐射 |
| 4 | m s?1 | 较高处2米处的风速 |
| 5 | °C d?1 | 每日的最低气温 |
| 6 | °C d?1 | 每日的平均气温 |
| 7 | °C d?1 | 每日的最高气温 |
| 8 | °C d?1 | 结露温度 |
| 9 | % | 相对空气湿度 |
| 10 | mm d?1 | 日降水量 |
| 11 | °C d?1 | 日温差 |
| 12 | mm d?1 | 可能的最大蒸发量 |
| 13 | mm d?1 | 降水量减去蒸发量 |
| 14 | kPa d?1 | 饱和蒸汽压与实际蒸汽压的差值 |
| 15 | kPa °C d?1 | 饱和蒸汽压曲线的斜率 |
| 16 | 0到1 | 温度对辐射利用效率的影响 |
| 17 | °C d?1 | 生长期积温 |
| 18 | h | 直接日照时间 |
| 19 | h | 总日照时长 |
| 20 | g/100 g | 土壤中的粘土含量 |
| 21 | g/100 g | 土壤中的沙子含量 |
| 22 | g/100 g | 土壤中的粉砂含量 |
| 23 | — | 土壤的酸度/碱度 |
| 24 | g/kg | 土壤有机质含量 |
| 25 | g/kg | 土壤中的氮含量 |
性能指标的数学公式如下:
其中表示实际值,表示预测值,表示实际值的平均值,表示观测次数。
2.6 统计软件
所有的统计分析、数据处理、可视化和机器学习建模都是在R(版本4.3.3)中完成的。数据整理和预处理使用了tidyverse套件(v1.3.0),主要通过dplyr和tidyr来实现,psych和summarytools用于初步数据检查和描述性统计。线性混合模型使用lme4进行拟合,其中方差分量通过有限最大似然法估计,基因型的最佳线性无偏预测通过ranef()函数获得。对于多性状评估,使用infotheo包计算产量性能指数的互信息,而基于熵的病害抗性指数权重则是由stats包构建的定制函数得出的;性状标准化使用scale()和自定义程序完成。预测建模——包括随机森林、支持向量机、高斯过程回归、决策树和神经网络——使用caret包(v4.63)实现和验证,该包集成了randomForest、kernlab、rpart和nnet等建模引擎。分层5折交叉验证过程和性能指标的计算都在caret中完成。所有图表,包括空间分布图和评估图,都是使用ggplot2(v3.4.0)创建的,并通过ggspatial增强了地图元素,使用patchwork或cowplot进行布局。
3 结果
3.1 基因型值估计和遗传力
线性混合模型(LMM)揭示了环境之间的变异,并提供了基因型效应的方差分量估计(403,213.23)。谷物产量的广义遗传力(H2)估计为0.985,表明大部分表型变异可归因于基因型差异,而不是环境噪声或残差误差。从BLUP分析得出的基因型值范围从8698.48到11,540.85 kg/ha(平均值=10,846.18 kg/ha,标准差=603.68)。谷物产量的广义遗传力值0.985虽然很高,但在结构化育种或遗传评估背景下并不罕见。最近的一些研究在定义的环境和试验设计下报告了玉米产量的高广义遗传力估计值(例如,Mukaro等人在2023年的研究中估计值高于0.80;Amegbor等人在2022年的多环境试验中报告了显著的遗传变异和高遗传力)。这些观察结果表明,当基因型效应占主导地位且环境变异在模型中得到充分考虑时,这种高遗传力可以反映强烈的遗传控制。所有34个基因型的完整BLUP值可以在支持信息“Maize_Genotypes_BLUP_Values.csv”中找到。
3.2 多性状指数性能和基因型排名
多性状评估指数将产量相关性状和病害抗性特征整合到定量指标中。YPI_MI包含了11个性状,包括正负的产量潜力指标,权重使用互信息分析得出。DRI整合了五个病害抗性性状,权重使用熵分析计算得出。图3显示了基因型在两个指数上的分布。有几个基因型在右上象限的位置较高:HY1604(YPI_MI:0.610,DRI:0.968,产量:11,065.7 kg/ha)、JY136(YPI_MI:0.615,DRI:0.958,产量:10,950.8 kg/ha)、HY7182(YPI_MI:0.631,DRI:0.960,产量:10,842.3 kg/ha)、XD96(YPI_MI:0.615,DRI:0.965,产量:10,515.8 kg/ha)和LY19(YPI_MI:0.631,DRI:0.957,产量:10,485.0 kg/ha)。图3展示了使用YPI_MI和DRI指数对玉米基因型的二维评估,产量性能通过圆圈大小表示。该图可以同时评估产量潜力和病害抗性,表现优异的基因型位于右上象限。图4说明了两个复合指数——病害抗性指数(DRI)和产量性能指数(YPI_MI)的构建和关键特征——展示了它们的经验分布、性状权重结构以及表现最好的基因型(每个基于n=146,286次观测)。DRI的分布明显偏斜,反映出大多数观测值对应于相对较高的病害抗性分数(图4A)。相比之下,YPI_MI的分布更为对称,大致呈正态分布,中心位于中等值范围,表明基因型和环境之间的产量相关性变化较大(图4B)。性状权重剖面突出了每个指数的不同驱动因素。对于YPI_MI,产量潜力主要由穗的形态和籽粒重量决定:穗直径(权重=0.203)和百粒重(0.162)贡献最大,其次是穗长(0.116)、穗高(0.102)和籽粒行数(0.085)。其余性状——包括生长期、植株高度、倒伏率、空穗率和籽粒含水量——的权重较小,这与它们在产量性能中的次要但仍然相关的角色一致。如表3所述,穗大小和籽粒重量性状对YPI_MI有正向影响,而与延迟成熟、结构脆弱(例如倒伏)、结实不良(例如空穗、秃尖)和籽粒含水量高的性状对整体性能有负面影响。对于DRI,抗性主要由一组有限的病害性状驱动,它们的贡献差异很大。穗腐病(权重=0.578)是最主要的因素,其次是曲霉菌叶斑病(0.255)。茎秆腐病(0.066)、南方锈病(0.062)和普通黑穗病(0.040)的贡献较小。由于所有病害性状都是负编码的(分数越低表示抗性越强),因此较高的DRI值表示对这些主要病原体的整体抗性更强。表“Top 15 Genotypes”面板显示了每个指数中表现始终优异的基因型。对于DRI,HY1604、ZD6162、XD96和HY868等基因型获得了最高的平均抗性分数。对于YPI_MI,LY19、HY7182、LD0195、XD96和JY136是表现最好的基因型。这些精英基因型列表之间的部分重叠——但并不完全对应——突出了在关注病害抗性与产量相关性表现时选择优先级的不同。这些结果一起提供了指数设计(通过性状权重和方向效应)与实际选择结果之间的可解释联系,如指数分布和排名前期的基因型所反映的。
表3. 产量性能指数(YPI_MI)和病害抗性指数(DRI)中包含的性状及其影响方向。
表3. 包含在产量性能指数(YPI_MI)和病害抗性指数(DRI)中的性状及其影响方向。
3.3 机器学习预测准确性
评估了各种机器学习算法在预测YPI_MI方面的性能,使用了四个不同的指标:平均绝对误差(MAE)、均方根误差(RMSE)、决定系数(R2)和对称平均绝对百分比误差(sMAPE)。基于环境、气候和土壤变量,比较了五种机器学习算法对YPI_MI的预测性能。BLUP数据与YPI_MI结合使用,建立了遗传基线。模型性能使用重复的5折交叉验证进行评估。在测试的五种算法中(图5),随机森林获得了最好的预测性能,具有最高的交叉验证R2(0.6874)和最低的MAE(0.0145)、RMSE(0.0257)和sMAPE(2.5449)。重复5折交叉验证过程的详细性能指标在支持信息“Model_Performance.csv”中提供。
3.4 整合和实际意义
为了将模型解释与农艺相关性联系起来,我们使用随机森林变量重要性度量来量化特征的重要性,确定了与玉米性能(YPI_MI)最紧密相关的环境因素。拟合的随机森林模型在模型数据集中观察到的YPI_MI值与预测的YPI_MI值之间表现出 strong 一致性(图6A),RMSE=0.0184,MAE=0.0145,R2=0.8409,sMAPE=2.5449。因为这些值是从完整拟合的数据集中获得的,因此应该将它们解释为样本内的性能,因此应与上面报告的交叉验证结果结合来看。这表明模型在最小的系统偏差下捕捉了玉米性能的主要变异。图6显示了随机森林模型评估,包括(A)实际与预测的YPI_MI值和(B)决定玉米性能的环境变量特征重要性排名。特征重要性分析明确了模型预测的关键环境驱动因素(图6B)。五个最具影响力的变量是蒸发量(ETP;重要性=27.50)、总降水量(PRECTOT;27.24)、最佳线性无偏预测器(BLUP;25.38)、短波辐射(ASKSW;27.24)和土壤pH(PHAQ;23.33)。这些顶级因子共同强调了水-能量平衡——反映在降水量和蒸发量上——以及入射辐射和土壤化学性质在塑造YPI_MI变异中的关键作用。交叉验证产生的性能指标变化性一致较低(RMSE标准差在0.0008到0.0015之间),支持模型的稳健性和泛化能力。从应用的角度来看,蒸发量、降水量和辐射的主导地位突显了需要管理和决策支持系统来关注监测和缓解水分压力和大气需求。实际措施可以包括优化的灌溉计划和抗旱策略。此外,管理土壤pH值也被视为稳定和改善不同生长环境下玉米性能的另一个可操作因素。所有环境的完整模型预测数据均可在支持信息文件“YPI_MI_Environmental_Predictions.csv”中找到。
4 讨论
本文提出的综合框架解决了多环境玉米评估中的一个核心挑战:在考虑多性状权衡的同时,区分稳定的遗传优势和环境驱动的变异性。通过将基于BLUP的遗传估计与信息论选择指数和环境驱动的预测模型相结合,我们提供了从表型观察到可操作的育种和管理见解的连贯路径,这与最近尝试整合遗传和环境数据流以改善作物响应气候变异性的研究相一致(Fernandes等人,2024年;Barreto等人,2024年)。
4.1 非常高的H2值的遗传控制和解释
籽粒产量的广义遗传力(H2 = 0.985)表明,在这个多环境网络中,大多数表型变异来自基因型之间的遗传差异。在多环境试验中,遗传力估计受到考虑环境效应和其他建模变异来源后的残差方差大小的强烈影响。当有大量样本量和跨环境的重复观察时,基因型平均值水平的有效残差方差可以显著减少,这提高了相对于单地点或单一年份试验获得的遗传力估计的可靠性(Cullis等人,2006年;Brown等人,2020年)。此外,在线性混合模型框架内的BLUP估计通过收缩效应稳定了基因型效应,特别是在环境重复不平衡的情况下,从而提高了大型、连接良好的数据集中的基因型排名的可靠性。广义遗传力也应被解释为特定于种群和环境的参数,而不是性状本身的内在属性。因此,高H2主要反映了在所采样的目标环境群体中遗传差异的强烈和一致的表达,而不是保证在所有未来或未观察到的气候条件下的类似表现(Vieira等人,2025年;Wang等人,2025年)。此外,如果环境条件的范围比预期的要窄,或者如果模型结构未能完全捕捉到空间和时间相关性,也可能出现高遗传力估计。在这个背景下,当前的估计被解释为证据,表明在所评估的基因型之间的产量差异在采样的环境中是一致的,支持使用基于BLUP的基因型值作为后续多性状指数构建和环境驱动性能预测的稳健遗传基线。
4.2 多性状指数:解决产量-健康权衡并提高决策透明度
YPI_MI和DRI框架的一个关键优势是,它将复杂的性状协方差转换为育种者可以在选择和推进决策中使用的可解释的、具有方向意识的指标。多性状选择越来越受到青睐,因为它避免了单性状选择的短视,并明确处理了植物结构、成熟度、产量组分以及抗逆/疾病反应之间的拮抗关系(Singamsetti等人,2021年;Azrai等人,2023年)。YPI_MI和DRI的联合映射实现了“平衡优势”:右上象限的基因型结合了高产量潜力和强抗病性,使得权衡变得可见,并减少了无意中推进高产量但易感疾病的品种的风险。与此目标一致,HY1604、JY136、HY7182、XD96和LY19作为具有高指数值和强产量表现的联合有利候选者脱颖而出,支持当前强调在日益增加的疾病压力和气候压力下提高生产力的育种优先事项(Yang等人,2023年;Yassitepe等人,2021年)。重要的是,更新后的性状权重图(图4;表3)澄清了“什么驱动了指数”。对于YPI_MI,最大的贡献集中在穗和籽粒性状上——穗直径和百粒重,其次是穗长、穗高和籽粒行数——表明该指数对核心产量决定因素最为敏感。相反,DRI主要受穗腐病和Curvularia叶斑病的影响,茎腐病、南方锈病和普通黑粉病的贡献较小。从育种的角度来看,这种不对称性是有信息量的而不是有问题的:它表明对有限关键疾病的抗性可能是塑造目标环境中整体抗性轮廓的主要限制,为后续选择周期中的重点表型和标记开发提供了明确的理由。我们的综合框架相比AMMI和GGE生物图等传统方法有几个优势。虽然AMMI和GGE模型主要关注基因型与环境的相互作用以及基因型表现的图形表示,但我们的方法通过整合多性状评估和环境变量提供了更全面的视图,从而改善了在不同环境条件下基因型表现的预测。此外,与仅依赖遗传数据的基因组预测模型不同,我们的框架同时考虑了遗传和环境因素,增强了玉米品种的选择过程。
4.3 环境可预测性:协调CV R2(0.687)与全数据R2(0.841)
随机森林在测试的算法中提供了最强的预测性能,这与它适合捕捉作物-天气关系和土壤-植物相互作用中常见的非线性和阈值式响应是一致的(Lyu等人,2024年;Zhang等人,2023年)。然而,交叉验证性能(R2 = 0.687)与全数据重新拟合性能(R2 = 0.8409)之间的对比需要明确解释,因为这是预测农学中常见的关注点。这种差距反映了两个预期的因素。首先,全数据R2测量的是样本内的拟合度,因此与样本外的性能相比过于乐观;它反映了模型在看到所有环境后解释观察数据集的能力,而不是其在未见过的环境组合中的泛化能力。其次,交叉验证程序实际上是针对数据分割的一种压力测试:当折叠包含在训练中未完全代表的环境(或环境-年份组合)时,预测能力会下降,因为模型被迫在外推到不同的气象条件和土壤环境中。这与更广泛的发现一致,即环境感知模型的预测准确性取决于训练环境和目标环境之间的相似性(Fernandes等人,2024年)。为了确保验证环境之间的公平比较,重要的是最小化训练和测试子集之间的信息泄露。在这个框架中,基于BLUP的遗传基线用于区分稳定的遗传优势和环境调节;因此,理想情况下,遗传基线应在训练折叠内得出或在交叉验证期间使用嵌套程序处理。当采取这些预防措施时,预测性能的剩余差异主要反映了在异质环境中的普遍挑战,为未来应用的运行性能提供了现实的评估。
4.4 气象和土壤控制:将特征重要性与过程理解联系起来
最终随机森林模型(图6B)的特征重要性结果表明,玉米性能变异(YPI_MI)与蒸散量(ETP;重要性=27.50)最强烈相关,其次是总降水量(PRECTOT;27.24)、BLUP(25.38)、短波辐射(ASKSW;24.52)和土壤pH值(PHAQ;23.33)。这种排名在生物学上是有意义的。蒸散量和短波辐射反映了大气需求和能量供应,这两者共同限制了作物的水分使用和光合作用。降水量代表了土壤水分供应的主要输入,而土壤pH值整合了养分可用性和根系功能的限制。这些结果共同强调了使用具有气象和土壤意义的协变量的价值,而不只是依赖日历时间或位置标识符等代理变量,这与envirotyping和多环境预测研究的结果一致,这些研究强调明确的环境特征描述是预测能力的关键决定因素(Costa-Neto等人,2021年;Ocwa等人,2023年)。随机森林模型利用基于BLUP的基因型值来预测已知玉米基因型的环境适应性。尽管这种方法对现有基因型有效,但我们认识到对于新基因型来说,缺失的BLUP基因型值可能是一个限制。在这种情况下,我们建议使用数据插补方法或更多依赖环境变量的模型调整,这些变量对所有基因型都是容易获得的。这种调整将允许模型对新引入的基因型保持准确的预测。重要的是,BLUP在顶级预测因子中的强贡献支持了框架中体现的概念分离:遗传优势提供了性能潜力的稳定基线,而气象和土壤变量解释了这种潜力在不同环境类型中的差异表达。这种遗传和环境成分的分隔与新兴的环境感知产量预测方法一致,其中遗传和环境信息的联合使用提高了预测的稳健性和可解释性(Messina等人,2020年;Gabur等人,2022年)。
4.5 局限性和未来研究方向
在解释和未来扩展这项工作时,有几个考虑因素需要指导。用于构建YPI_MI的信息论加权需要对连续性状进行离散化,这可能会平滑细尺度的变异;未来的实现可以比较离散化策略或连续的互信息估计器来量化敏感性。机器学习模型是在特定的时空采样框架(2020-2024年)内训练的,而在非平稳气候条件下的预测能力将取决于未来的气象制度是否仍在训练分布中得到代表;扩展环境空间并明确评估外推(例如,留一年或留一种环境类型的验证)将增强部署的合理性。此外,随机森林特征重要性反映的是关联而非因果关系,因此应该通过补充分析来验证过程级别的解释(例如,与农艺限制的部分依赖性,或将作物过程知识与统计学习相结合的混合建模)。最后,整合基因组信息和更高分辨率的环境描述符,包括季节内的气候极端情况和遥感冠层动态,代表了一条有前途的途径,以改善生物学归因和预测泛化,这与最近在多环境试验预测方面的进展一致,这些进展在规模上共同利用了基因型和环境类型数据(Messina等人,2020年;Sapkota等人,2025年)。
5 结论
本研究提出了一个综合分析框架,用于评估在不同农业气候环境中的玉米性能,通过明确链接遗传优势、多性状表型表达和气象驱动因素。通过结合混合模型BLUP估计、信息论多性状选择指数和基于机器学习的环境预测,所提出的方法解决了多环境试验中的长期挑战,包括基因型与环境之间的相互作用、多性状权衡以及超出观察条件的有限预测能力。基于BLUP的混合模型分析显示了对籽粒产量的强烈遗传控制,广义遗传力接近于1(H2 = 0.985),表明在评估的目标环境群体中基因型排名的可靠性很高。这一结果支持使用基于BLUP的基因型值作为下游分析和选择决策的稳定遗传基线。在此基础上,通过互信息加权的产量性能指数(YPI_MI)和通过熵加权的抗病指数(DRI)实现了生产力和抗逆性的综合评估,超越了传统的单性状选择策略。作为该框架实际用途的示例,几个基因型(HY1604、JY136、HY7182、XD96和LY19)被一致认为是联合有利的候选者,它们在多个环境中结合了高产量潜力和强抗病性。重要的是,这一结果的价值不在于具体的基因型本身,而在于展示了所提出的框架如何在复杂的环境条件下支持透明和平衡的选择决策。机器学习组件通过量化基因型表现对关键环境驱动因素的响应,增加了预测能力。在评估的算法中,随机森林在YPI_MI上展示了稳健的预测能力,在交叉验证下实现了强大的泛化性能,并在全数据集上拟定时具有更高的解释能力。特征重要性分析一致强调了蒸散量、降水量、基于BLUP的基因型值、短波辐射和土壤pH值作为玉米性能的主导决定因素,强调了水分-能量平衡和土壤限制在塑造产量表达中的核心作用。总的来说,这些结果表明,将遗传评估与多性状指标和环境感知的机器学习相结合,为玉米育种和农业生态系统管理提供了一个强大而灵活的工具。该框架支持针对特定环境的基因型推荐,在多变的气候条件下提高了选择效率,并提供了一种可扩展的方法,用于将表型表现与气象强迫联系起来。通过进一步在更广泛的环境梯度上进行验证,并整合基因组和高通量表型数据,这种方法在开发气候适应性玉米品种和为日益增加的气候变异性下的适应性管理策略方面具有很强的潜力。
作者贡献
Xuwen Jiang和Jie Chen构思了最初的筛选和研究计划;Haiwang Yue、Jiashuai Zhu、Pengcheng Liu和Jianwei Wei进行了实验并收集了数据;Haiwang Yue、Jiashuai Zhu和Jianwei Wei执行了数据分析并撰写了文章,所有作者都对结果的解释做出了贡献;Hang Liu、Haoxiang Yang、Heqin Li、Xueting Mi、Lili Shi和Siya Wang监督并补充了写作。所有作者都阅读并批准了手稿。
资金支持
本研究得到了HAAFS科学技术创新专项项目(2026KJCXZX-HZS-5);河北省科学技术成果转化项目(2026JNZ-D01);山东省自然科学基金(ZR2021MC107);国家现代工业技术体系(玉米)专项基金(CARS-02);国家自然科学基金(31601386);北方黄淮海地区适宜机械化早熟高产玉米新种质的创制与应用(2022YFD1201002-3)的支持。披露
在撰写本手稿的过程中,仅使用了 ChatGPT 5.0 进行英文文本的编辑和润色工作。作者根据需要对输出内容进行了审查和修改,并对手稿的最终内容负全部责任。利益冲突
作者声明不存在任何利益冲突。数据可用性声明
数据可应要求提供。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号