利用进化算法优化小麦育种计划,通过战略性的资源分配实现了更高的遗传增益

《Crop Science》:Optimization of wheat breeding programs using an evolutionary algorithm achieves enhanced genetic gain through strategic resource allocation

【字体: 时间:2026年05月02日 来源:Crop Science 1.9

编辑推荐:

  摘要 植物育种是一个复杂的过程,涉及到在相互竞争的育种目标与有限的资源之间的权衡。尽管需要优化育种计划的设计,但其固有的复杂性使得这一过程具有挑战性。在之前的研究中,我们开发了一个优化流程,该流程利用随机模拟和进化算法,适用于多个类别和连续参数的联合优化。在这里,我们评估了我们

  摘要

植物育种是一个复杂的过程,涉及到在相互竞争的育种目标与有限的资源之间的权衡。尽管需要优化育种计划的设计,但其固有的复杂性使得这一过程具有挑战性。在之前的研究中,我们开发了一个优化流程,该流程利用随机模拟和进化算法,适用于多个类别和连续参数的联合优化。在这里,我们评估了我们框架在现实植物育种方案中的适用性,并讨论了其与替代优化方法相比的优势。为此,我们考虑了一个在AlphaSimR中模拟的小麦(Triticum aestivum L.)系育种方案和一个在MoBPS中模拟的小麦杂交育种方案,并使用我们的优化流程进行了优化。在固定预算下最大化遗传增益时,我们的优化流程推荐的育种计划设计比作为基准的传统小麦系育种计划实现了33%更高的遗传增益。当调整育种目标以平衡遗传增益和遗传多样性时,遗传增益仍然增加了4.5%,同时保持了比基准高9.1%的遗传方差。对于杂交育种方案,遗传增益的相对提高较小,与相同成本下的基准方案相比,雄性和雌性侧的遗传增益分别提高了4.6%和8.8%。结果强调了优化育种计划设计的重要性,以提高育种效率,所提出的流程为育种者提供了一个强大的框架,以完善育种设计、平衡育种目标,并增强竞争力、盈利能力和可持续性。

**通俗语言总结**

现代植物育种计划必须做出许多复杂的决策,例如测试多少植物或在哪里种植它们,同时还要在有限的预算下工作。这些决策紧密相关,改善一个育种目标通常会影响其他目标。在这项研究中,我们评估了数千种育种计划设计(由一组参数描述),并使用之前为动物育种推荐的基于计算机的优化方法(进化算法)确定了最有效的方案。对于传统的小麦系育种计划,我们找到了一个改进的设计,在相同的运营成本下实现了33%更高的作物性能(遗传增益)提升。我们的工作突显了优化框架的广泛适用性,包括其在不同类型的育种计划和育种决策中的适应性,以及在不同模拟工具中的应用。

**缩写说明**

- AYT:高级产量试验
- DH:二倍体
- EA:进化算法
- EBV:估计育种值
- EYT:精英产量试验
- GCA:一般配合能力
- GEBV:基因组估计育种值
- GS:基因组选择
- gSD:遗传标准差
- G × E:基因型-环境相互作用
- GY:谷物产量
- MAS:标记辅助选择
- OBS:观察试验
- PC:蛋白质含量
- PYT:初步产量试验
- RD:隐性病害
- TC:杂交种子生产

**1 引言**

遗传学和育种技术正在迅速发展,这得益于创新技术和对改进作物品种的需求。这些发展使得作物开发能够进行战略性的变革,商业育种者希望高效地实施这些变革。虽然数量遗传学理论和群体遗传改良的理论基础已经非常成熟(Falconer & Mackay, 1996),但育种计划的设计需要复杂的决策来应对多个通常相互竞争的育种目标。为了满足不断增长的人口需求以及全球温度的显著变化(Jaggard et al., 2010),作物产量必须每年增加超过2%以满足未来的需求(FAO, 2017; Ray et al., 2013)。这一目标超过了历史上的产量增长速度,突显了高效和系统优化育种策略的必要性。管理和优化育种计划本质上是复杂的,Syngenta报告称,在品种开发过程中需要做出200个育种决策(Byrum et al., 2016)。这些决策包括育种计划设计的重要方面,例如(i)优先考虑哪些性状(Peng et al., 2014),(ii)如何通过杂交选定的亲本创造新的遗传多样性(Michel et al., 2022),(iii)如何在多个阶段和环境中评估和选择品系(Tolhurst et al., 2019),以及(iv)如何推进有前途的品系进行进一步测试或潜在发布(Allier et al., 2020; Asoro et al., 2011; Gorjanc et al., 2017; Hickey et al., 2014; A. J. Lorenz et al., 2012; Michel et al., 2017; Windhausen et al., 2012; Y. Zhao et al., 2012)。在一个阶段做出的决策会显著影响后续阶段的结果,并且经常受到财务资源的限制(Berry, 2015; Henryon et al., 2014; Hickey, Chiurugwi, et al., 2017; Simianer et al., 2021)。因此,育种者不仅需要考虑改进某些性状的技术可行性,还需要考虑潜在的经济回报和对种质的长期影响,以确保资源的有效利用(Brennan & Martin, 2007; Henryon et al., 2014; Simianer et al., 2021)。多年来,育种者适应了新的育种工具来改进他们的计划,并在应对育种计划的额外复杂性方面积累了宝贵的经验。某些进步,如基因组选择(GS)(Meuwissen et al., 2001),可以在早期世代进行选择,使育种者能够在不需要等待广泛表型评估的情况下做出选择决策(Jannink et al., 2010)。Gaynor et al.(2017)提出了一种创新的两部分策略,将育种过程分为(i)一个专注于通过反复GS开发改进种质的群体改进部分,以及(ii)一个旨在在传统育种设计中识别新近交品种的产品开发部分。这种方法将周期时间缩短了八倍,从而加速了遗传增益(Gorjanc et al., 2018)。快速育种是另一种可以大幅缩短各种作物世代间隔的技术(Das et al., 2020; Gantovnik et al., 2003; Ghanim et al., 2024; Gudi et al., 2022; Hickey, Germán, et al., 2017; X. Zhang et al., 2017)。这种方法通常涉及优化环境条件以加速植物生长和发育,允许在一年内产生多个世代,从而每年可以进行超过两次的育种循环,并可能增加遗传增益(Gaynor et al., 2017; Gorjanc et al., 2018)。然而,减少世代间隔会增加近交程度,降低遗传多样性,并由于多代中省略了表型分析而降低选择精度(Bernardo & Yu, 2007; Gianola & van Kaam, 2008; Jannink et al., 2010; Lorenzana & Bernardo, 2009),这可能会损害长期的遗传增益。鉴于育种计划中存在的这些困难和资源限制(Henryon et al., 2014; Lorenz, 2013; Simianer et al., 2021),育种者在考虑新方法时往往谨慎行事(Cobb et al., 2019; Lenaerts et al., 2019; Reynolds et al., 2020)。在这种情况下,随机模拟作为一种强大的工具变得尤为重要,可以用来在实施之前系统地评估不同的设计策略(Faux et al., 2016; Liu et al., 2018; Pook et al., 2020; Sargolzaei & Schenkel, 2009)。对于育种计划的优化而言,随机模拟可以用来推导特定育种方案的结果,以评估其相对于预定义育种目标的性能,例如最终的遗传增益或总体经济结果。通过随机模拟,可以比较育种计划的各种预定义方案,如亲本选择(Allier et al., 2019; Gorjanc et al., 2018)、交配设计(Wellmann, 2019; Woolliams et al., 2015)和近交管理(Endelman, 2025)。然而,在评估多个组件的同时变化时,需要考虑的方案数量呈指数级增加(Pook et al., 2025)。因此,穷尽性方案测试在计算上变得昂贵且实际上不可行,限制了基于模拟的优化方法的可扩展性(Pook et al., 2021)。Jannink et al.(2025)提出了一种高效的育种计划优化方法——贝叶斯优化,并表明这种方法可以在比穷尽性方案测试更少的模拟次数内探索复杂的育种设计选择。Diot和Iwata(2022)扩展了这项工作,表明在breedSimulatR(Diot & Iwata, 2020)框架中的贝叶斯优化可以在约束条件下更好地优化育种方案。尽管贝叶斯优化在有限评估的情况下优化复杂目标函数方面很有效(Wang et al., 2016),但它主要适用于具有少量连续决策参数的问题,不太适合类别参数(Frazier, 2018)。此外,对替代模型(Frazier, 2018; Shahriari et al., 2016)的依赖,如高斯过程,限制了它们在高维空间中的可扩展性和适应性,在需要大量计算时间进行模拟的复杂育种方案中,或者在最优解位于最初定义的搜索空间之外的情况下。在我们之前的工作(Hassanpour et al., 2024)中,我们引入了一种基于进化算法(EA)的育种计划设计优化新流程,能够处理连续和类别设计参数。为了减少模拟中的随机变异影响,使用核回归来平滑目标函数评估(Hassanpour et al., 2023),并且整个流程是在使用Snakemake(M?lder et al., 2021)的并行工作流中实现的。尽管该框架设计用于处理大量参数,但在Hassanpour et al.(2024)中展示的应用仅限于一个具有三个参数的简单乳品育种方案。

**核心思想**

所提出的基于优化的方法通过联合优化超过15个关键决策变量来改进育种计划设计。该框架可以与不同的模拟软件一起使用,从而在不同软件环境中广泛应用。优化的育种设计在保持群体多样性的同时提高了短期和长期性能。该框架表明,将育种计划设计视为一个单一的优化问题可以大大改善育种结果。在一个小麦系育种计划中,与成本相同的传统计划相比,遗传增益增加了33%。使用基于EA的流程优化育种计划设计涉及几个关键步骤(图1;Hassanpour et al. 2024)。简而言之,首先,将育种计划表述为一个优化问题,包括通过目标函数指定育种目标,通过一组设计参数描述计划,并根据实际限制或预算限制定义这些参数的选择(步骤0)。接下来,生成一组初始的潜在参数设置(每个对应于一个特定的育种计划设计),为优化提供一个起点(步骤1)。然后通过随机模拟评估每个参数设置,评估育种方案的结果以确定其对目标函数的值(步骤2)。由于随机模拟在各种组件中固有地包含随机性,例如减数分裂和表型分析的模拟,每次评估都是随机过程的一个实现,而不是预期的结果。在此评估之后,选择最有前景的参数设置作为“亲本”(步骤3)。通过组合和/或稍微修改之前选定的参数设置,产生新的参数设置以进行下一步评估(后代)(步骤4)。这个评估、选择和生成新参数设置的过程迭代进行,直到满足终止条件,要么是在预定义的迭代次数之后,要么是在观察到目标函数或设计参数没有重大变化时(步骤5)。最终获得的最优解随后会被多次模拟,以评估所提出的优化育种方案的可靠性(步骤6)。有关每个步骤的详细解释以及识别最有前景的参数设置和生成新参数设置的不同技术,有兴趣的读者可以参考Hassanpour et al.(2024)。

**图1**:Hassanpour et al.(2024)提出的优化流程的示意图。该图基于Hassanpour et al.(2024)中的图1进行了轻微修改。本工作的目的是展示基于EA的优化框架在植物育种计划设计优化中的通用适用性。我们将基于EA的优化框架应用于小麦(Triticum aestivum L.)系育种计划和小麦杂交育种计划,分别联合优化了六个和十七个设计参数。为了进一步强调该框架的多功能性,我们为这两个育种计划使用了不同的后端模拟器:AlphaSimR(Gaynor et al., 2021)和MoBPS(Pook et al., 2020)。我们的优化重点关注关键的育种决策,包括每个阶段的个体数量(队列大小)、选择下一育种周期亲本的策略、表型和基因分型的资源分配,以及项目组成部分之间的财务投资分配。优化的育种计划设计与基准育种方案进行评估和比较。最终,讨论了设计上的差异,不仅是在给定的育种方案背景下,还通过我们基于进化算法(EA)的优化框架提供了更多工具,用于评估和优化育种计划的设计。

2 材料与方法

本研究通过使用两种不同的模拟软件工具来模拟两个小麦育种计划,展示了我们基于EA的优化框架的实际应用。其中一个育种方案被有意设计得相对简单,采用了与之前研究中完全相同的现实但精简的育种方案。尽管这些模拟没有捕捉到现实世界育种计划的全部复杂性,但它们提供了透明的基准,可以量化通过所提出的EA框架进行系统优化后育种成功率和遗传增益的潜在改进。

2.1 小麦品系育种计划的优化

Ban?i?、Greenspoon等人(2024年)实施并分析了一个小麦品系育种方案,以说明在育种过程早期整合基因组选择(GS)的优势,该方案被用作代表当前育种实践的基准(图2)。在这项研究中,我们考虑了Ban?i?等人(2024年)描述的“GS受限”情景作为比较的基准育种计划。图2展示了小麦品系育种计划的示意图,突出了利用不同群体的关键阶段:双倍体(DH)、初步产量试验(PYT)、高级产量试验(AYT)和精英产量试验(EYT)。红色虚线表示通过基于基因组估计的育种值(GEBVs)的重复基因组选择(GS)来选择优良的亲本。该图之前作为Ban?i?等人(2024年)的图6发表,并未经修改直接采用。简而言之,模拟基于一个包含1000个数量性状位点(QTLs)和400个单核苷酸多态性(SNPs)的基因组,这些基因组控制着一个性状(产量)。初始种群的平均遗传值为0,遗传方差为1,基因型与环境交互作用方差为2。每个育种周期从第1年的50个亲本的100个双亲杂交开始,然后在第2年进行F1/双倍体(DH)品系的发展,期间应用快速的重复GS,并回收亲本。从第3年到第6年,选定的品系进入不同环境的产量试验,分别包括初步产量试验(PYT)、高级产量试验(AYT)和精英产量试验(EYT),分别为500、50和10个品系。使用两年的表型数据来训练GS模型。目标遗传力分别为PYT的0.2、AYT的0.5和EYT的0.7,每个周期结束时最好的品系被作为新品种发布。在给定的基准育种方案中,每个育种周期中有20%的近交亲本被新选出的亲本替换,这些新亲本是根据它们在DH阶段的最高基因组估计育种值(GEBVs)选出的。与这个育种方案相关的总成本每个周期为504,000美元。在基准情景中,80%的预算在第2年用于DH品系的生成和基因分型。所有成本的概览见表1,基于Ban?i?等人(2024年)建议的金额。在以下小节中,我们将描述如何将基于EA的框架应用于具体用例,遵循优化流程中的各个步骤。

2.1.1 第0步:定义优化问题

优化问题的制定是特定于应用的,旨在识别既有影响力又适合改变的设计参数。我们考虑了六个设计参数来控制有多少品系通过选择阶段。

- n_Cross:开始一个育种周期的亲本杂交次数。
- n_DH:每次杂交产生的DH品系数量。
- n_PYT:每次初步产量试验的参赛品系数量。
- n_AYT:每次高级产量试验的参赛品系数量。
- n_EYT:每次精英产量试验的参赛品系数量。
- n_ParentsReplace:每个周期基于DH阶段的GEBVs选择的新近交亲本数量,以替换最老的近交亲本。为了与Ban?i?等人(2024年)的基准情景进行直接比较,年度总预算固定为504,000美元,使用相同的单位成本(表1)。出于物流和实际原因,杂交次数(n_Cross)被限制在最多500次(例如,与进行更多杂交、管理更多田块、处理额外标签和包装、收集更多数据以及进行更多亲本检查相关的成本[Witcombe & Virk, 2001])。在PYT阶段(n_PYT),最大田块容量限制为1000个品系。每年替换的亲本数量(n_ParentsReplace)不能超过亲本总数(50)。由此产生以下约束条件:

对于小麦品系育种计划,考虑了两个不同的育种目标。第一个育种目标旨在最大化遗传增益,相应的目标函数为:

其中表示20年育种后DH品系的遗传增益,表示一个潜在的育种计划设计。由于结果是通过随机模拟得出的,因此只能获得预期表现的估计值(见第2步)。EA建议的最优解在整篇手稿中被称为“EA遗传增益育种方案”。由于模拟的性状被认为是纯粹加性的,DH中的遗传增益应直接转化为后续选择阶段的遗传增益。第二个目标函数旨在保持遗传增益和遗传多样性之间的平衡。Ban?i?等人(2024年)使用DH育种值的遗传方差f来量化遗传多样性。因为进一步遗传改进的潜力与遗传标准差(gSD)成正比,而不是遗传方差(Falconer & Mackay, 1996),所以在目标函数中使用了f的平方根。由于和g在Ban?i?等人[2024]考虑的情景中测量在不同的数值尺度上(大约2对比0.1单位),因此应用了一个缩放因子以确保量级的可比性。目标函数随后作为缩放组分的组合得出,其中80%的权重赋予遗传增益,20%赋予遗传多样性的维持。

2.1.2 第1步:初始化第一组参数设置

初始参数设置(育种计划设计)是通过从均匀分布中随机抽取参数值来生成的(表2)。随后,所有连续变量(以及那些可以有大量离散实现的变量)都被缩放,以确保它们满足预算约束,遵循Hassanpour等人(2024年)的方法。在这一步中,生成了1000组参数设置。如果设计参数在步骤0中没有受到硬性约束,它们在优化过程中可能会超出其初始范围。

2.1.3 第2步:评估新设置

为了评估不同育种计划的设计结果,我们使用随机模拟来根据目标函数评估它们的表现,这些模拟是使用AlphaSimR(Gaynor等人,2021年)进行的。Ban?i?等人(2024年)的模拟脚本被修改,以允许对六个设计参数进行变量输入(https://github.com/AHassanpour88/Evolutionary_Snakemake/tree/main/script_wheatline)。

2.1.4 第3步:选择参数设置

在每次迭代中,根据上述程序和Hassanpour等人(2024年)的方法,选择最有前途的参数设置,基于它们对目标函数的结果以及从基于核回归的平滑方法(Hassanpour等人,2023年)得出的预期结果,选择大约10%的先前模拟的设置。

2.1.5 第4步:生成新的参数设置

为了生成新的参数设置,Hassanpour等人(2024年)之前建立的方法建议通过线性组合(重组)和対个别参数进行微小修改(突变)来结合选定的设置。这里将其适应为将参数相互关联,并允许突变同时影响多个参数。在这种情况下,第2年的总品系数量是n_Cross和n_DH的乘积。在这里关联参数意味着有50%的机会,相应的另一个参数会被调整,以保持总品系数量不变。为了避免突变总数的膨胀,这些参数的突变率减少了50%。原则上,可以实现参数之间的其他类型的关联,例如,同时增加多个参数或避免总的突变数量过多。

2.1.6 第5步:稳定/最优/终止标准

由于模拟小麦品系育种计划的计算时间较短,没有应用早期终止标准。相反,管道运行了固定数量的150次迭代。每次迭代后,根据核回归(Hassanpour等人,2024年)得出一个建议的最优解。通过视觉检查比较迭代之间的建议最优解,评估是否需要进一步迭代。

2.1.7 第6步:最终评估最优解

在迭代优化终止后,对建议的最优解进行了彻底分析,并将结果与基准育种方案进行比较。对于这种比较,基于每个育种方案的100次独立模拟,评估了DH阶段的遗传增益和多样性。

2.2 杂交小麦育种计划

2.2.1 基准育种计划的结构

所考虑的杂交小麦育种计划受到了Gaynor等人(2017年)提出的两部分策略的启发,该策略将育种计划分为两个不同的组成部分。种群改进部分旨在通过重复GS快速提高种群的平均基因组值,而产品开发部分旨在识别和开发新的杂交品种,确保使用种群改进部分中的改良遗传材料来创造市场准备好的品种。在当前研究中,没有明确建模授粉控制和商业种子生产所需的元素。由于主要目标是优化种群改进部分,因此没有详细建模不参与亲本回收的产品开发后期阶段,因为假设这些阶段在各种情景中是一致的。图3给出了育种方案的示意图。

2.2.2 基准育种计划的结构

所考虑的杂交小麦育种计划受到了Gaynor等人(2017年)提出的两部分策略的启发,该策略将育种计划分为两个不同的组成部分。种群改进部分旨在通过重复GS快速提高种群的平均基因组值,而产品开发部分旨在识别和开发新的杂交品种,确保使用种群改进部分中的改良遗传材料来创造市场准备好的品种。在当前研究中,没有明确建模授粉控制和商业种子生产所需的元素。由于主要目标是优化种群改进部分,因此没有详细建模不参与亲本回收的产品开发后期阶段,因为假设这些阶段在各种情景中是一致的。图3展示了育种方案的示意图,说明了通过关键阶段的进展:双倍体(DH)、头行试验(HDRW)、观察试验(OBS)、测交种子生产(TC)和测交产量试验(TC YT)。考虑了TC2试验(TC2.2)的可选重复,以展示其效果。将本身性状(per se)与交叉表现(cross performance)之间的相关性设置为PC为0.2,RD为0.1。产量(GY)仅作为混合性状进行模拟,并且与PC呈负相关(-0.6)。性状之间的完整相关矩阵见表3。此外,通过根据环境评估不同性状的不同变体来模拟基因型-环境交互作用(G × E),模拟了10种不同的环境。因此,对于每个性状与环境的组合,都会模拟一个独立的性状变体,当在10种环境中使用五个性状时,总共会产生50种性状组合。所需的性状相关矩阵是通过使用克罗内克积(Kronecker Product)结合性状之间的相关矩阵和环境之间的相关矩阵来生成的。

假设不同环境中的性状之间存在强正相关,环境之间的成对相关性介于0.6到0.8之间,并且假设所有性状的相关性都相同。由于成对抽样不一定导致半正定矩阵,因此通过将所有负特征值设为0,将得到的矩阵投影到半正定矩阵的空间中(在MoBPS中称为matrix.posdef)。假设残差效应是独立的。由于本研究的主要目的不是高效管理G × E,因此选择了一个相对简单的模型;然而,如果有真实数据,可以使用更复杂的模拟方法,如Ban?i?、Gorjanc和Tolhurst(2024)提出的方法。对于每个子性状,模拟了300个纯加性的QTL和30个显性的QTL,其效应大小来自高斯分布,并且考虑了多效性QTL效应以达到目标相关性(参见MoBPS指南[Pook等人,2020年;第15章)。环境效应被假设为在性状之间是独立的,并且环境方差被调整以获得相应的产量试验的真实遗传力(表4)。根据性状在育种目标中的相对重要性,为选择指数分配了权重。我们假设产量的指数权重为3,而蛋白质含量(PC)和抗逆病性(RD)的指数权重均为1。通过克罗内克积将性状与环境之间的相关矩阵结合起来生成所需的性状相关矩阵。

假设不同环境中的性状之间存在强正相关,环境之间的成对相关性介于0.6到0.8之间,并且假设所有性状的相关性都相同。由于成对抽样不一定导致半正定矩阵,因此通过将所有负特征值设为0,将得到的矩阵投影到半正定矩阵的空间中(在MoBPS中称为matrix.posdef)。假设残差效应是独立的。由于本研究的主要目的不是高效管理G × E,因此选择了一个相对简单的模型;然而,如果有真实数据,可以使用更复杂的模拟方法,如Ban?i?、Gorjanc和Tolhurst(2024)提出的方法。对于每个子性状,模拟了300个纯加性的QTL和30个显性的QTL,其效应大小来自高斯分布,并且考虑了多效性QTL效应以达到目标相关性(参见MoBPS指南[Pook等人,2020年;第15章)。环境效应被假设为在性状之间是独立的,并且环境方差被调整以获得相应的产量试验的真实遗传力(表4)。根据性状在育种目标中的相对重要性,为选择指数分配了权重。我们假设产量的指数权重为3,而蛋白质含量(PC)和抗逆病性(RD)的指数权重均为1。通过克罗内克积将性状与环境之间的相关矩阵结合起来生成所需的性状相关矩阵。

表3展示了性状及其与亲本系(本身性状)和杂交系(交叉性状)水平之间的关系,包括它们之间的交互作用。具体来说:

| 性状 | 本身性状(PC) | 杂交性状(RD) | 产量(GY)(交叉) | 蛋白质含量(PC)(交叉) | 抗逆病性(RD)(交叉) |
|-----------------|-----------------|-----------------|-----------------|-----------------|-----------------|
| 1 | 0.2 | -0.6 | 0.12 | 0.2 | -0.12 |
| 2 | 0.02 | 0.2 | 0.02 | 0.1 | 0.02 |
| 3 | -0.6 | 0.1 | 0.1 | 0.2 | 0.1 |
| 4 | 0.1 | 0.2 | -0.6 | 0.2 | 0.1 |
| 5 | 0.2 | -0.6 | 0.1 | 0.2 | 0.1 |
| 6 | 0.1 | 0.2 | -0.6 | 0.2 | 0.1 |
| 7 | 0.2 | 0.1 | 0.2 | -0.6 | 0.1 |
| 8 | 0.1 | 0.2 | 0.1 | 0.2 | 0.1 |
| 9 | -0.6 | 0.1 | 0.2 | -0.6 | 0.1 |
| 10 | 0.2 | 0.1 | 0.2 | 0.1 | 0.2 |
| 11 | -0.6 | 0.1 | 0.2 | 0.1 | 0.2 |
| 12 | 0.1 | 0.2 | -0.6 | 0.2 | 0.1 |
| 13 | 0.2 | 0.1 | 0.2 | -0.6 | 0.1 |
| 14 | -0.6 | 0.1 | 0.2 | 0.1 | 0.2 |
| 15 | 0.2 | 0.1 | -0.6 | 0.2 | 0.1 |
| 16 | 0.1 | 0.2 | 0.1 | -0.6 | 0.2 |
| 17 | 0.2 | 0.1 | 0.2 | -0.6 | 0.1 |
| 18 | -0.6 | 0.1 | 0.2 | 0.1 | 0.2 |
| 19 | 0.1 | 0.2 | -0.6 | 0.2 | 0.1 |
| 20 | 0.2 | 0.1 | 0.2 | -0.6 | 0.1 |
| 21 | -0.6 | 0.1 | 0.2 | 0.1 | 0.2 |
| 22 | 0.1 | 0.2 | -0.6 | 0.1 | 0.2 |
| 23 | 0.2 | 0.1 | 0.2 | -0.6 | 0.1 |
| 24 | -0.6 | 0.1 | 0.2 | 0.1 | 0.2 |
| 25 | 0.1 | 0.2 | -0.6 | 0.1 | 0.2 |
| 26 | 0.2 | 0.1 | 0.2 | -0.6 | 0.1 |
| 27 | -0.6 | 0.1 | 0.2 | 0.1 | 0.2 |
| 28 | 0.1 | 0.2 | -0.6 | 0.1 | 0.2 |
| 29 | 0.2 | 0.1 | 0.2 | -0.6 | 0.1 |
| 30 | -0.6 | 0.1 | 0.2 | 0.1 | 0.2 |

表4列出了采用双单倍体(DH)系、头行试验(HDRW)、观察试验(OBS)、测交种子生产(TC)、测交产量试验(TC YTs)和测交产量试验重复(rep TC2 YT)的杂交小麦基础育种方案的成本和关键特征。考虑的性状包括产量(GY)、抗逆病性(RD)和蛋白质含量(PC)。遗传力h2值不是基于正式估计,而是根据实际育种程序中的经验得出的大致猜测,考虑了育种程序各个阶段观察到的残差方差的波动。年份和阶段的不同,相关成本和遗传力值也会有所不同。

在育种计划的开始阶段(第1年),每年在雌性和雄性亲本池中创建100个杂交组合(表4)。每个杂交组合产生100个F1代/DH系(第2年和第3年)。在第4年,DH系被种植在头行中,并进行初步选择。由于这种选择通常基于对植物生长的视觉评估以及根据田间观察淘汰不需要的系,因此这个选择步骤被建模为随机选择。剩余的系随后进行基因分型,以应用标记辅助选择(MAS)。MAS的评估以及对抗逆病性(RD)的视觉农艺评估在一个地点进行,其遗传力为0.4。注意,在疾病评估和MAS之后,选择了500个系进行重复的多地点观察试验(OBS1,表4)。OBS1展示了DH系在两个环境中的评估结果,同时对所有OBS1个体进行产量(GY)和蛋白质含量(PC)的基因组预测。GS的训练群体包括过去三个季节的所有可用杂交数据。在随后的年份中,通过纳入新的产量试验评估来不断更新训练群体。同时,相同的500个DH系与来自对立群体的两个测试者进行测交生产,以提供后续测交产量试验的种子(TC1 [其中TC代表测交种子生产],表2)。根据RD性状的本身表现(遗传力=0.4)和它们的预测一般结合能力(GCA)选择出最佳的300个DH系,以推进到第一个测交产量试验(TC1 YT,表4)。接下来在观察试验(OBS2)中测试这些DH系的RD性状,它们的杂交后代在测交杂交试验中测试产量(GY)、蛋白质含量(PC)和抗逆病性(RD)(TC1 YT,表2)。同时,相同的300个DH系与来自对立基因池的两个测试者进行测交生产,以提供后续测交产量试验的种子(TC2,表4)。基于此,根据在多环境试验中观察和估计的GCA选择出排名前30的亲本。此外,选择还考虑了来自OBS2的RD性状的本身表现。在观察试验(OBS3)中进一步测试这些DH系的RD性状,它们的杂交后代在测交杂交试验中测试产量(GY)、蛋白质含量(PC)和抗逆病性(TC2 YT,表4)。最后,通过与30个最佳雌性和30个最佳雄性的组合产生杂交种(hybrid prod,表2)。根据TC2 YT的结果,根据GCA选择排名前15的杂交种。在雌性育种池中,一部分测交杂交后代在后续的测交产量试验(rep TC2 YT,表4)中接受额外评估,以提高估计的育种值(EBVs)的准确性。

为了模拟标记辅助选择(MAS)的过程,在线性回归模型中,根据15%的QTL位置将表型回归到基因型上。为了避免对单个QTL的强烈选择,每次使用MAS时都会重新抽样这些位置。选择15%是基于经验抽样,以在这个阶段实现现实的预测准确性。表4给出了每个性状和阶段的遗传力(h2)。在育种计划的开始阶段(第1年),每年在雌性和雄性亲本池中创建100个杂交组合(表4)。每个杂交组合产生100个F1代/DH系(第2年和第3年)。在第4年,DH系被种植在头行中,并进行初步选择。由于这种选择通常基于对植物生长的视觉评估和基于田间观察淘汰不需要的系,因此这个选择步骤被建模为随机选择。剩余的系随后进行基因分型,以应用MAS。MAS的评估以及对RD性状的视觉农艺评估在一个地点进行。注意,在疾病评估和MAS之后选择了500个系进行重复的多地点观察试验(OBS1,表4)。OBS1展示了DH系在两个环境中的评估结果,同时对所有OBS1个体进行产量(GY)和蛋白质含量(PC)的基因组预测。GS的训练群体包括过去三个季节的所有可用杂交数据。通过结合新出现的产量试验评估,训练群体在随后的年份中不断更新。同时,相同的500个DH系与来自对立池的两个测试者进行测交生产,以提供后续测交产量试验的种子(TC1 [其中TC代表测交种子生产],表2)。根据RD性状的本身表现(遗传力=0.4)和它们的预测一般结合能力(GCA)选择出最佳的300个DH系,以推进到第一个测交产量试验(TC1 YT,表4)。接下来在观察试验(OBS2)中测试这些DH系的RD性状,它们的杂交后代在测交杂交试验中测试产量(GY)、蛋白质含量(PC)和抗逆病性(TC1 YT,表2)。同时,相同的300个DH系与来自对立基因池的两个测试者进行测交生产,以提供后续测交产量试验的种子(TC2,表4)。基于此,根据在多环境试验中观察和估计的GCA选择出排名前30的亲本。此外,选择还考虑了来自OBS2的RD性状的本身表现。在观察试验(OBS3)中进一步测试这些DH系的RD性状,它们的杂交后代在测交杂交试验中测试产量(GY)、蛋白质含量(PC)和抗逆病性(TC2 YT,表4)。最后,通过与30个最佳雌性和30个最佳雄性的组合产生杂交种(hybrid prod,表2)。根据TC2 YT的结果,根据GCA选择排名前15的杂交种。总共生产了15个杂交种,每个杂交种在100个地块中种植。

缩写:GCA,一般结合能力(general combining ability)。

总共生产了15个杂交种,这些杂交种来自识别出的30个最佳雌性和雄性DH系。为了模拟标记辅助选择(MAS)的过程,表型根据15%的QTL位置的基因型进行回归分析。为了避免对个别QTL的强烈选择,每次使用MAS时都会重新抽样这些位置。选择15%是基于经验抽样,以在这个阶段实现现实的预测准确性。表4给出了每个性状和阶段的遗传力(h2)。在育种计划的开始阶段(第1年),每年在雌性和雄性亲本池中创建100个杂交组合(表4)。每个杂交组合产生100个F1代/DH系(第2年和第3年)。在第4年,DH系被种植在头行中,并进行初步选择。由于这种选择通常基于对植物生长的视觉评估和基于田间观察淘汰不需要的系,因此这个选择步骤被建模为随机选择。剩余的系随后进行基因分型,以应用MAS。MAS的评估以及对RD性状的视觉农艺评估在一个地点进行,其遗传力为0.4。注意,在疾病评估和MAS之后选择了500个系进行重复的多地点观察试验(OBS1,表4)。OBS1展示了DH系在两个环境中的评估结果,同时对所有OBS1个体进行产量(GY)和蛋白质含量(PC)的基因组预测。GS的训练群体包括过去三个季节的所有可用杂交数据。训练群体在随后的年份中通过纳入新的产量试验评估而不断更新。同时,相同的500个DH系与来自对立池的两个测试者进行测交生产,以提供后续测交产量试验的种子(TC1 [其中TC代表测交种子生产],表2)。根据RD性状的本身表现(遗传力=0.4)和它们的预测一般结合能力(GCA)选择出最佳的300个DH系,以推进到第一个测交产量试验(TC1 YT,表4)。接下来在观察试验(OBS2)中测试这些DH系的RD性状,它们的杂交后代在测交杂交试验中测试产量(GY)、蛋白质含量(PC)和抗逆病性(TC1 YT,表2)。同时,相同的300个DH系与来自对立基因池的两个测试者进行测交生产,以提供后续测交产量试验的种子(TC2,表4)。基于此,根据在多环境试验中观察和估计的GCA选择出排名前30的亲本。此外,选择还考虑了来自OBS2的RD性状的本身表现。在观察试验(OBS3)中进一步测试这些DH系的RD性状,它们的杂交后代在测交杂交试验中测试产量(GY)、蛋白质含量(PC)和抗逆病性(TC2 YT,表4)。最后,通过与30个最佳雌性和30个最佳雄性的组合产生杂交种(hybrid prod,表2)。根据TC2 YT的结果,根据GCA选择排名前15的杂交种。总共生产了8个杂交种。

表4列出了采用双单倍体(DH)系、头行试验(HDRW)、观察试验(OBS)、测交种子生产(TC)、测交产量试验(TC YTs)和测交产量试验重复(rep TC2 YT)的杂交小麦基础育种方案的成本和关键特征。考虑的性状包括产量(GY)、抗逆病性(RD)和蛋白质含量(PC)。遗传力h2值不是基于正式估计,而是根据实际育为了更加重视短期遗传增益,每代的遗传增益都通过一个利息因子(r = 0.05)进行了折现(Zhang & Wang, 2022),从而得到了以下目标函数:

这里 和 分别代表根据育种计划设计参数,从第0年到第 年雌性和雄性杂交中的预期遗传增益。步骤1:初始化第一组参数设置

连续变量的初始参数设置是通过从均匀分布的预定义范围内随机抽样生成的(表5)。二进制参数 rep_TC2_YTf 是从概率为0.5的伯努利分布中抽样的。与小麦品系育种计划类似,与成本相关的连续参数随后被缩放,以确保所有选定的育种计划设计符合年度预算。由于杂交小麦育种方案的搜索空间维度较大,因此使用了初始的2000组参数设置。表5. 优化杂交小麦育种计划的设计参数范围。变量名称

初始化范围

rep_TC2_YTf
0; 1

n_Crossf
50–150

n_Crossm
50–150

n_DHf
8000–12,000

n_DHm
8000–12,000

n_obs1f
400–600

n_obs1m
400–600

n_obs2f
200–400

n_obs2m
200–400

n_obs3f
15–50

n_obs3m
15–50

n_obs1f_Share
0–0.8

n_obs2f_Share
0–0.8

n_obs3f_Share
0–0.8

n_obs1m_Share
0–0.8

n_obs2m_Share
0–0.8

n_obs3m_Share
0–0.8

缩写:n_Crossf 和 n_Crossm,分别代表雌性和雄性侧的杂交次数;n_DHf 和 n_DHm,分别代表雌性和雄性侧的双倍体(DH)线总数;n_obs1f、n_obs2f、n_obs3f 和 n_obs1m、n_obs2m、n_obs3m,分别代表雌性和雄性侧OBS1–OBS3中的线数;n_obs1f_Share、n_obs2f_Share、n_obs3f_Share 和 n_obs1m_Share、n_obs2m_Share、n_obs3m_Share,分别代表从OBS1–OBS3雌性和雄性队列中选出的亲本再利用的比例;rep_TC2_YTf,表示是否应在第8年在雌性侧进行第二次测试杂交产量试验(TC2.2 YT)(0 = 否,1 = 是)。步骤2:评估新设置

为了评估育种计划设计的结果,我们使用随机模拟根据目标函数来评估它们的性能,这些模拟是使用MoBPS(Pook等人,2020)进行的。模拟脚本可在https://github.com/AHassanpour88/Evolutionary_Snakemake/tree/main/script_wheathybrid获取。

步骤3:选择参数设置

我们在优化过程中采用了与小麦品系育种计划和Hassanpour等人(2024)的早期工作相同的程序来选择最优参数设置。步骤4:生成新的参数设置

为了生成新的参数设置,使用了Hassanpour等人(2024)之前建立的方法,并为小麦品系育种计划进行了描述。与小麦品系育种方案类似,再次使用了关联参数。这样做是为了确保来自OBS1、OBS2和OBS3队列的再利用亲本的组合份额始终占总杂交次数的80%。当一个突变改变了其中一个份额时,其余两个份额会自动调整以维持这一约束。为了防止关联参数的突变总数增加,关联参数的突变率降低了50%。步骤5:稳定/最优/终止标准

鉴于每次模拟的高计算成本和搜索空间的维度,杂交小麦育种方案的EA框架在运行时没有特定的终止标准,从50次迭代开始,随后仅依赖于每五次迭代后的视觉评估来检查目标函数和各个参数的稳定性。步骤6:最终评估最优解

在迭代优化终止后,对建议的最优解进行了彻底分析,并将其结果与基于100次独立模拟的基线育种方案的结果进行了比较。为了进行这种比较,计算了每个育种周期中雄性和雌性杂交的潜在真实基因组值以确定遗传增益。此外,还根据杂交的杂合度份额估计了遗传多样性。

2.3 优化和模拟计算时间

使用AlphaSimR版本1.5.3对小麦品系育种计划进行的模拟,每次模拟大约需要1分钟和0.5 GB的峰值内存使用量,仅在一个核心上。使用MoBPS版本1.11.64对杂交小麦育种计划进行的模拟,每次模拟大约需要40分钟和8 GB的峰值RAM使用量,使用两个核心。所有计算都在配备Intel Platinum 9242(2 × 48核心2.3 GHz)或类似系统的服务器集群上完成。EA框架使用Snakemake工作流管理系统(版本7.21.0)进行,该系统通过SLURM调度器分配各个任务,所有其他步骤的计算时间和内存使用量可以忽略不计。整个工作流和各个步骤的进一步脚本可在https://github.com/AHassanpour88/Evolutionary_Snakemake/tree/main获取。

3 结果

3.1 小麦品系育种计划

EA管道为小麦品系育种计划建议的育种计划设计与考虑的基线有显著差异(表6,图S1)。对于以遗传增益为目标的优化问题,产生的DH总数减少了37%,从基线的8900个DH减少到5614个DH。这主要是通过减少每次杂交产生的DH数量(14个而不是89个)同时增加杂交总数(401次而不是100次)来实现的。随后,更多的资源被分配给AYT和EYT,使其规模分别增加到230和14(基线:50/10)。最后,在每个育种周期中,92%的亲本被替换,而基线中只有20%。100次独立模拟的结果显示,与基线相比,优化后的育种方案有显著改进(图4)。EA遗传增益育种方案在20年后产生了4.96 gSD的遗传增益,相对于基线(3.73 gSD)增加了33%(图4a)。然而,与育种方案的第一年相比,剩余的遗传方差减少了73%,而基线减少了43%(图4b)。表6. 第150次迭代中小麦品系育种计划设计的建议最优参数。基线值由Ban?i?等人(2024)提供。变量名称

GS-constrained

适合/良好的参数化

进化算法

基线育种方案

EA遗传增益育种方案

EA平衡增益育种方案

n_Cross
100

401

275

n_DH
89

14

32

n_Cross × n_DH
8900

5614

8800

n_PYT
500

407

677

n_AYT
50

230

26

n_EYT
10

14

5

n_ParentsReplace
10(20%)

46(92%)

10(20%)

缩写:EA,进化算法;GS,基因组选择;n_AYT,高级产量试验中的线数;n_DH,双倍体线数;n_EYT,精英产量试验中的线数;n_ParentsReplace,基于DH阶段的基因组估计育种值(GEBVs)每个周期选择的新近交亲本数量,以替换最老的近交亲本;n_PYT,初步产量试验中的线数。图4 在图查看器中打开

图4显示了100次独立模拟中小麦品系育种计划的遗传趋势,包括(a)遗传增益和(b)双倍体(DH)阶段的遗传方差。红线代表基线育种方案,蓝色代表进化算法(EA)遗传增益育种方案,绿色代表EA平衡增益育种方案,所有方案的预算相同。对于以维持遗传多样性为目标的优化问题,获得了与基线更相似的设计,产生的DH总数相当(8800)。然而,每次杂交的DH数量再次减少(32个),而杂交总数增加(275个)。与EA遗传增益育种方案相比,产量试验的重点主要在PYT(677个),而AYT和EYT中的线数进一步减少(26/5个)。与基线类似,每个育种周期中只有20%的亲本被替换。基于100次独立模拟的最终最优解的深入分析表明,遗传增益有所改善(3.91 gSD,+4.5%)(图4a),而剩余的遗传方差保持在0.385,相比基线增加了9%(图4b)。由于育种方案在遗传增益和剩余遗传方差方面都更优,可以解释为育种资源的更有效分配。就EA的收敛特性而言,建议的最优解在所有模拟中评估后,第50次和第90次的目标函数值没有改善(图S2a)。这可能是由于包括最终最优解在内的初始搜索空间较大,因此所需的迭代次数相对较多。目标函数的改进是呈离散跳跃而不是逐渐发生的。在EA遗传增益情景中,改进主要发生在两个特定迭代(21和47,图S2a)期间。应该注意的是,当只考虑直到给定迭代的模拟时(图S2a),目标函数的值会有一些变化。这是因为当该区域内的模拟次数更多时,核回归使用的带宽会减少,模拟结果包含随机性;因此,应始终使用所有模拟来评估最优解的稳定性。即使在整体目标函数稳定后,提出的最优解在个别参数上仍然存在变化。然而,在几个连续迭代中不再观察到系统性的方向趋势。这表明在接近最优解时,许多育种计划设计的预期结果非常相似。

3.2 杂交小麦育种计划

EA框架为杂交小麦育种计划建议的育种计划设计与基线有显著差异(表7),因为它更加重视育种计划早期阶段获得的遗传增益。在雌性方面,杂交次数减少了76%(24次而不是100次),而DH的总数略微增加了11%至11,052(基线:10,000)。通过使用OBS3中允许的最小阈值15条雌性线和不进行第二次雌性测试杂交产量试验,减少了育种计划后期的成本。在OBS1产量试验后,通过回收较少的线来增加雌性侧的世代间隔(从60%减少到42%),并更多地关注具有OBS2和OBS3数据的线(分别从10%增加到21%和17%)。相比之下,雄性侧接近基线,所有阶段的产量试验建议的次数略有减少(表7)。表7. 杂交小麦育种计划设计的建议最优参数。变量名称

基线育种方案

适合/良好的参数化

进化算法

二元:是否执行rep_TC2_YTf?TRUE

FALSE

n_Crossf
100

24

n_Crossm
100

87

n_DH f
10,000

11,052

n_DH m
10,000

9469

n_OBS1f
500

533

n_obs1m
500

448

n_OBS2f
300

294

n_obs2m
300

203

n_obs3f
30

15

n_obs3m
30

21

n_obs1f_Share
0.60

0.42

n_obs2f_Share
0.10

0.21

n_obs3f_Share
0.10

0.17

n_obs1m_Share
0.60

0.55

n_obs2m_Share
0.10

0.10

n_obs3m_Share
0.10

0.15

缩写:n_Crossf 和 n_Crossm,分别代表雌性和雄性侧的杂交次数;n_DHf 和 n_DHm,分别代表雌性和雄性侧的双倍体线总数;n_obs1f、n_obs2f、n_obs3f 和 n_obs1m、n_obs2m、n_obs3m,分别代表雌性和雄性侧观察试验1–3中的线数;n_obs1f_Share、n_obs2f_Share、n_obs3f_Share 和 n_obs1m_Share、n_obs2m_Share、n_obs3m_Share,分别代表从雌性和雄性队列中的观察试验1–3中的线数中选出的亲本再利用的比例。100次独立模拟的结果表明,优化的杂交育种方案有显著改进(图5)。EA建议的育种计划在第20年为雌性侧额外获得了0.45 gSD(+8.8%)的遗传增益,为雄性侧额外获得了0.24 gSD(+4.5%)的遗传增益。对于雌性侧,大约一半的额外增益出现在第1年,这是由于世代间隔的减少(图5a)。随后的额外遗传增益在雄性和雌性侧相似,并且随时间均匀分布(图5b)。图5 在图查看器中打开

图5显示了100次独立模拟中(a)雌性(n_Crossf)和(b)雄性(n_Crossm)育种群体的遗传标准差遗传增益。蓝线代表使用EA的进化算法(EA)育种方案,红线代表具有相同预算的基线育种方案。尽管基线数据显示从OBS2到OBS3.2期间,女性组的累积增益略有提高(1.26对比1.22标准差),但在基线方案中从OBS3.1到OBS3.2的额外增益较小(0.08标准差),这被进化算法(EA)方案中更高效的早期选择所抵消,该算法排除了第二次杂交试验(rep_TC2_YTf)。表8详细总结了两种育种方案每个选择步骤所获得的遗传增益。表8. 比较了基线和进化算法(EA)育种方案中每个育种步骤的选择强度(i)和遗传增益量。

| 步骤 | 基线女性和男性(i) | EA女性(i) | EA男性(i) | 基线女性(i) | EA女性(i) | 基线男性(i) | EA男性(i) |
|------|-------------|---------|-----------|-----------|-----------|-----------|
| DH1 → OBS1 | 5% | 4.8% | 7.6% | 0.36 | 0.40 | 0.35 | 0.39 |
| OBS1 → OBS2 | 60% | 55% | 32.7% | 0.32 | 0.35 | 0.31 | 0.45 |
| OBS2 → OBS3.1 | 10% | 5.1% | 6.25% | 1.18 | 1.22 | 1.13 | 1.07 |
| rep_TC2_YTf | OBS3.1 → OBS3.2 | 66% | – | – | 0.08 | – | – |
| 累计 | 0.20% | 0.13% | 0.16% | 1.94 | 1.97 | 1.79 | 1.91 |

缩写:DH,双倍体;OBS,观察试验;rep_TC2_YTf,表示第8年是否应在女性组进行第二次杂交试验(TC2.2 YT)(0 = 不,1 = 是)。基线方案在20年后保持了略高的多样性,杂合子比例为29.8%,而EA方案为28.4%,第0年为30.5%(图6)。

图6显示了基于100次独立模拟的平均值的初始杂交中的杂合子比例。蓝线代表进化算法(EA)育种方案,红线表示具有相同预算的基线育种方案。关于EA框架在杂交小麦育种方案中的收敛特性,提出的最优解在所有模拟中评估后,在第32次迭代后没有显示出进一步的改进(图S3)。一些参数(n_obs2m_Share [图S4o] 和 n_obs3m_Share [图S4q])在后续代中发生了显著变化,这导致我们在75次迭代后终止了流程。这表明这些参数对目标函数的影响有限,可以从优化过程中排除以获得更快的稳定。在杂交小麦育种计划的优化过程中,EA迅速确定了在女性组排除第二次杂交试验(rep_TC2_YTf)是最优的,从第14次迭代开始,该二元参数的建议最优解保持不变(图S4a)。包括第二次杂交的选定参数设置的比例从第1次的50%迅速下降到第4次的10%,并且在第24次迭代后不再选择任何这些设置。请注意,由于突变,大约1%的测试参数设置在后续迭代中仍然包括第二次杂交(图S5)。

4 讨论

随机模拟工具的进步,如MoBPS(Pook等人,2020年)和AlphaSimR(Gaynor等人,2021年),使得能够以接近实际约束和操作复杂性的水平对育种计划进行建模。然而,尽管有这些工具,育种计划设计的系统优化仍然没有得到充分探索,主要是因为它需要整合育种流程所有阶段的变化(Kinghorn等人,2022年)。因此,大多数研究集中在改进单个组成部分上,如预测准确性(Asoro等人,2011年;Y. Zhao等人,2012年;Zhong等人,2009年)、表型分析和田间设计(Araus & Cairns,2014年;Reynolds等人,2020年)或选择策略(Gaynor等人,2017年;Gorjanc等人,2018年),而不是整体优化计划。在这项研究中,我们的结果表明,将育种计划设计视为一个统一的优化问题可以在保持相同预算的同时,朝着共同的育种目标取得实质性改进。优化是通过Hassanpour等人(2024年)提出的EA框架来执行的,这是其在植物育种中的首次应用,并为复杂育种方案的初始化和实施提供了实际指导。该框架进一步扩展了链接参数,使得能够生成更合适的参数设置,并减少了优化所需的模拟次数。本研究中应用的基于EA的流程通过联合探索大量相互依赖的设计参数(包括分类变量和连续变量)来实现统一优化,整个过程在计算上高效。相比之下,传统的育种计划优化方法通常依赖于将问题简化为一组预定义的策略或逐步调整(Ban?i?等人,2024年),这些方法可能无法充分利用优化方法的潜力。与其他多参数优化方法(如贝叶斯优化(Diot & Iwata,2022年;Jannink等人,2025年)相比,EA框架能够高效地扩展到更高维度的问题,正如这里用17个参数所展示的。EA自然支持通过随机模拟评估参数设置这一计算成本最高的步骤的并行化,而贝叶斯优化本质上是顺序的,并依赖于替代模型(Frazier,2018年;Shahriari等人,2016年)。这些替代模型需要良好的搜索空间覆盖来准确近似局部梯度,这在高维空间和分类变量中往往不可行。这种依赖探索的贝叶斯优化方式增加了陷入局部最优解的可能性。相比之下,EA本质上是探索型的,更适合发现初始搜索空间之外的最优解(Eiben & Smit,2011年;Katoch等人,2021年;Sivanandam & Deepa,2008年)。在这里,添加链接参数进一步改善了EA框架的稳定性和收敛特性(如本工作相关博士论文的第5.3章所讨论的[Hassanpour,2025])。虽然在本研究中没有应用,但EA概念上支持多目标优化(J. Zhao等人,2024年),允许在单次运行中权衡遗传增益、多样性和预算分配等目标。相比之下,贝叶斯优化需要额外的建模和调整来实现这一点。在任一优化方法中,将预算直接纳入目标函数是一种灵活的方法,而不是作为简单的约束。这使得可以根据预期回报动态调整投资,从而考虑那些更高投资可能带来更大遗传增益的育种方案(Ban?i?等人,2024年)。从更广泛的角度来看,EA流程提供了一个系统框架,用于批判性地评估育种计划设计并提高其效率。例如,在考虑的基线小麦品系育种计划中,大约80%的预算用于基因分型和DH品系生产。优化结果显示这些步骤的支出很高,强调了它们的重要性,并证实了育种者对其重要性的经验和预期。尽管如此,我们的结果还表明,虽然需要大量的DH品系来通过提供更多的重组机会来增加遗传增益,但重点应该放在选择更多的杂交和更少的后代上。尽管这个结论并不新颖,并且之前的研究也有所建议(Byrum等人,2016年;Swallow & Wehner,1989年;Wricke & Weber,1986年),但EA框架通过提供一个明确量化权衡并支持决策的工具,解决了一个重要问题。对于大多数关键的育种决策,存在改变的合理论据,一个育种计划的“正确”决策不一定适用于另一个育种计划。这一点通过小麦品系育种计划中建议的最优解得到了说明,该方案倾向于更快地更换品系以减少世代间隔,正如Ban?i?等人(2024年)所提出的。相比之下,杂交育种计划优先考虑准确性,而不是在从多个环境获得更可靠的育种值后才回收品系,这与之前的建议一致(Bernardo,2003年;Huehn,2005年,2006年)。优化的结果应在给定的背景下解释。当结果与预期不符时,对潜在假设进行批判性审查是必要的。例如,对于小麦品系育种计划来说,每次杂交使用较少的DH品系可能会增加工作量和成本(Witcombe & Virk,2001年),但这种额外的劳动没有计入成本函数。EA框架提供了一个灵活的优化工具,用于解决育种计划设计中的通用问题,例如优化队列规模、决定是否需要特定的产量试验,或调整回收间隔。同样,可以使用相同的方法更详细地研究针对育种方案各个组成部分的更具体的研究问题。Pook等人(2026年)使用EA框架通过比较和组合各种策略来改进选择,以更好地考虑遗传多样性和长期遗传增益。在植物育种的背景下,我们可以特别设想使用它来有效管理G × E,例如考虑如何最好地分配资源,如年份、季节、地点和重复次数,或者考虑增加额外重复次数与额外地点或年份的成本效益(Hanson & Brim,1963年;Sprague & Federer,1951年;Swallow & Wehner,1989年;Wricke & Weber,1986年;Zhou等人,2011年)。最后,即使EA识别出数学上的最优解,实际的和后勤上的约束,如可用资源、田间操作或种子生产限制,也可能阻止这些解决方案的完全实施。也就是说,建议的最优解的潜在创新性最终受到模拟脚本本身的设计的限制,该脚本是用户定义的且非生成性的。在本研究中没有考虑逐一优化参数的单一参数优化方法,因为任何参数的调整都会打破我们关于固定预算的假设。请注意,Pook等人(2026年)报告称,与通过调整任何单个参数选择获得的1.15单位相比,联合参数优化增加了1.96单位的增益(+70%)。对于杂交小麦育种计划,运行24,600次模拟,每次模拟耗时40分钟,计算成本约为650欧元(基于每CPU核心小时0.012欧元和每6 GB内存每小时0.012欧元的云计算费率https://hpc.ut.ee/pricing/calculate-costs)。相对于实际育种计划的总预算,这个成本是微不足道的。然而,高效的软件以及在需要时简化计算密集型步骤(如育种值估计)仍然很重要,以确保实际和高效的优化(Pook等人,2021年)。

5 结论

本研究证明了将随机模拟与EA相结合为育种计划设计优化提供了一种强大而灵活的方法。该框架非常通用,能够处理具有众多设计参数的复杂育种场景,包括连续变量和分类变量,并已成功应用于各种随机模拟器的品系和杂交植物育种计划。重要的是,EA框架并不取代育种者的专业知识,而是一个有价值的决策支持工具,它可以在育种计划中识别出优化的机会。通过系统地分析各种变量并测试不同的设计方案,它揭示了传统方法可能忽略的潜在改进。这使得育种者能够做出更明智的决策,优化策略以更好地符合他们的计划目标。通过有效重新分配资源,育种计划可以更好地处理固有的权衡,例如在表型分析和基因分型之间投资,或在评估更多候选品系和更详细地关注较少品系之间做出选择。

作者贡献

Azadeh Hassanpour:形式分析;调查;方法论;软件;可视化;撰写——原始草稿。
Antje Rohde:概念化;资金获取;项目管理;撰写——审阅和编辑。
Hennner Simianer:监督;撰写——审阅和编辑。
Torsten Pook:概念化;形式分析;资金获取;调查;方法论;项目管理;软件;监督;验证;可视化;撰写——审阅和编辑。

致谢

作者感谢GWDG的科学计算集群、马克斯普朗克科学促进协会(MPG)和哥廷根大学的联合数据中心提供的计算支持。我们还要感谢哥廷根大学的开放获取出版基金的支持。我们感谢Gent的BASF农业解决方案生物计量团队对本研究的宝贵讨论和见解。

利益冲突声明

作者声明他们与这项工作有关利益冲突。A.H.、A.R.和T.P.是相关专利申请EP24164947.4和EP24188636.5的发明人。此处声明的利益冲突并不影响作者遵守《作物科学》杂志关于数据与材料共享的所有政策。

数据可用性声明:

所提出的进化框架正在申请专利,申请编号分别为EP24164947.4和EP24188636.5。专利申请人是BASF Agricultural Solutions Seed US LLC和哥廷根大学(Georg-August-Universit?t G?ttingen)。发明人为Torsten Pook、Azadeh Hassanpour、Johannes Geibel和Antje Rohde。在公共许可下,可以用于学术和非商业用途;所有相关示例均配有GitHub仓库中的脚本支持,详细信息请参见:https://github.com/AHassanpour88/Evolutionary_Snakemake/blob/main/License.md。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号