《The Plant Genome》:Genome-wide association study identifies consistent genomic loci for yield and nutritional quality in Ethiopian sorghum landraces
编辑推荐:
本研究通过多环境全基因组关联分析(ML-GWAS),在埃塞俄比亚三个生态区对358份高粱地方品种的产量、籽粒蛋白、千粒重及支链淀粉含量进行了系统评估。研究成功鉴定了27个在多环境中稳定关联的产量和品质相关数量性状核苷酸位点(QTNs),并预测了关键的候选基因,为培育抗逆、高产、营养强化的高粱品种提供了重要的基因组学靶点和育种策略。
引言
高粱(Sorghum bicolor(L.) Moench)是一种耐旱的C4谷物,在发展中国家的粮食安全中扮演着至关重要的角色。这不仅源于其对边际环境的适应能力,也得益于其在食品和工业领域的双重用途。作为主食,高粱可用于制作粥、扁面包和发酵产品;其工业应用则包括生物乙醇生产、酿造、淀粉提取和动物饲料。面对气候多变和人口增长,提高高粱产量潜力和营养品质的育种策略至关重要。籽粒产量和千粒重(TSW)是决定生产力和农民收益的关键农艺性状,而籽粒蛋白质和支链淀粉含量分别是营养价值与最终用途品质的关键决定因素。支链淀粉作为高粱淀粉的分支部分,在改善蒸煮品质、消化率和食品质地上发挥着关键作用。然而,这些性状的遗传基础通常是多基因的,并涉及复杂的基因型与环境互作,这使得常规选择方法变得复杂。
全基因组关联研究(GWAS)已成为利用历史重组和自然等位基因多样性剖析复杂性状遗传结构的有力工具。与传统的双亲数量性状位点(QTL)作图相比,GWAS提供了更高的作图分辨率以及探索更广泛遗传背景的能力。但传统的单点GWAS模型,如混合线性模型(MLM),常存在假阳性高、检测小效应位点统计功效降低等局限。为克服这些问题,多点GWAS(ML-GWAS)方法得以发展,可同时整合多个关联位点,提高检测功效和准确性。尽管埃塞俄比亚是公认的高粱起源和多样性中心,但在全面表征和利用其遗传潜力方面仍存在显著的研究空白。埃塞俄比亚高粱种质资源蕴藏着宝贵的独特等位基因和适应性性状,不仅对本地生产,而且对全球作物改良,特别是在提高营养品质和抗逆性方面,都具有重要价值。通过扩展GWAS和整合遗传分析来填补这些空白,可以加速改良高粱品种的选育并增强粮食安全。本研究旨在通过对一个多样化的埃塞俄比亚高粱地方品种群体进行全面的ML-GWAS来填补这一空白,这些品种在六个多环境中进行了评估。
材料与方法
2.1 试验材料
研究共评估了358份高粱地方品种,包括354份埃塞俄比亚地方品种和4个改良品种。这些地方品种是从一个包含387个基因型的核心子集中挑选出来的,该子集源于超过2000份的原始收集,代表了埃塞俄比亚高粱的遗传多样性。
2.2 试验地点
研究在埃塞俄比亚的三个农业生态区评估了基因型的表现:湿润中海拔地区(Jimma)和两个干旱低地环境(Melkassa,灌溉;Miesso,自然干旱),时间跨度为2020年和2021年生长季。根据研究期间的主要环境条件,Jimma和Melkassa被归类为非胁迫环境,而Miesso被指定为胁迫环境。在Melkassa,由于降雨不规则,在两个生长季中,从播种到灌浆期每周都进行了补充灌溉。这六个环境分别被指定为:Jimma 2020(JM20)、Jimma 2021(JM21)、Melkassa 2020(MK20)、Melkassa 2021(MK21)、Miesso 2020(MS20)和Miesso 2021(MS21)。所有试验点均采用标准施肥措施,统一施用尿素和磷酸二铵。
2.3 试验设计与环境条件
试验采用部分重复(p-rep)设计,采用行列布局,以便在管理大量基因型的同时最小化试验误差。在354份地方品种中,有三分之一在每个地点进行了重复,其余条目在所有三个地点均未重复。所有四个改良品种在每个地点都进行了重复。每个试验点由480个小区组成,每个小区种植一个基因型的单行(4米)。
2.4 土壤采样与分析
在每个试验点采集土壤样本,分析pH、电导率、质地、有机质、全氮和有效磷等指标,以了解影响作物表现的环境条件。
2.5 数据收集
为确保跨环境评价的一致性,从每个小区随机选取10株植物,套袋保护以防鸟害,用于测定籽粒产量。产量以单株克数表示。千粒重通过计数和称量从每个地方品种收获籽粒中随机选取的1000粒种子来测定。谷物品质使用近红外光谱(NIRS)校准模型进行分析,测定蛋白质和支链淀粉含量百分比。
2.6 表型数据分析
使用R软件中的线性混合模型(LMM)评估籽粒产量和品质性状的变异,获得方差分量和遗传力估计值。采用空间LMMs和因子分析框架处理多环境试验(METs)数据,以捕获基因型与环境互作。利用最佳线性无偏预测(BLUP)方法估算跨环境的表型均值,以最小化环境影响。广义遗传力(H2)根据Cullis等方法计算,并分为低、中、高等级。
2.7 群体结构与连锁不平衡
使用主成分分析(PCA)和ADMIXTURE评估群体结构。PCA显示PC1和PC2解释了最大的表型方差比例。ADMIXTURE分析确定最佳群体结构(K=3),将种质分为三个主要集群。连锁不平衡(LD)分析通过计算SNP位点间的成对LD系数(r2)进行。LD衰减通过绘制r2与SNP对间物理距离的关系图来分析,并用LOESS曲线拟合。LD半衰距离定义为r2降至其初始值一半时的物理距离。
2.8 全基因组关联研究
使用六种ML-GWAS模型对209,572个高质量单核苷酸多态性(SNP)进行标记-性状关联分析。这些模型包括:多位点随机SNP效应MLM(mrMLM)、因子谱变换多位点随机SNP效应MLM(FASTmrMLM)、因子谱变换多位点随机SNP效应高效混合模型关联(FASTmrEMMA)、基于多基因背景控制的最小角回归加经验贝叶斯(pLARmEB)、基于多基因背景控制的Kruskal-Wallis检验加经验贝叶斯(pKWmEB)以及迭代确定独立筛选EM-贝叶斯LASSO(ISIS EM-BLASSO)。所有模型均在“mrMLM.GUI”R包中实现。显著阈值设为LOD值 ≥ 3.0(p≤ 0.001)。为确保稳健性,仅保留至少被六种模型中的三种检测到的QTNs。解释表型变异大于10%(r2> 10%)的QTNs被确定为主要QTNs。使用Holm-Bonferroni校正控制错误发现率。
2.9 候选基因鉴定
将ML-GWAS鉴定的显著QTNs与先前报道的QTL进行比较。使用生物信息学工具在Phytozome平台上鉴定与这些QTNs相关的候选基因。同时,利用高粱数据库检索所识别基因组区域内基因的功能描述。
结果
3.1 土壤分析
土壤分析提供了每个地点肥力状况的重要信息。Jimma总体上显示出较高的有机质和氮含量,但pH和电导率(EC)较低,表明盐分较少,土壤更偏酸性且肥沃。相比之下,Melkassa的EC最高,表明盐分条件较高。Miesso的各项数值相对中等,但氮和有机质含量低于Jimma。
3.2 表型变异
籽粒产量、千粒重、蛋白质和支链淀粉的方差分量和BLUP均值在环境间存在差异,反映了遗传和环境因素的共同影响。籽粒产量表现出高度变异性,从JM21的28.61克/株到MK20的79.50克/株。遗传方差和环境方差在MK20最高,而广义遗传力范围从19.90%(MS20)到77.04%(JM21)。蛋白质含量范围从MK21的7.64%到MS20的11.61%,遗传方差在MK21达到峰值1.07,遗传力在38.68%(JM20)到68.39%(MK21)之间变化。千粒重在JM21的24.89克到MK20的34.74克之间变化,遗传方差范围从4.03到44.65,遗传力从14.40%(MS20)到80.85%(MK20)。支链淀粉在各环境中相对稳定,从80.06%(JM20)到80.65%(MS20),遗传力范围从44.40%(JM20)到87.31%(MK21)。部分测量性状在不同环境间的值存在显著相关性。籽粒产量表现出广泛的相关性范围,Jimma环境间显示出强相关性,但与其他地点相关性弱。千粒重除MS20外,大多呈现正相关。蛋白质含量具有中到高度的正相关。支链淀粉含量在所有环境间显示出非常高的相关性,反映了其强大的稳定性。这些结果证明了使用METs和LMMs来捕获一般和特定适应性的合理性。
3.3 群体结构与连锁不平衡
群体结构分析将358份高粱地方品种根据其祖先和地理起源分为三个亚群。主成分分析显示,PC1和PC2解释了总表型方差的最大比例。ADMIXTURE和亲缘关系分析一致地将埃塞俄比亚高粱地方品种分为三个主要集群。亲缘关系热图显示,大多数亲缘关系值在0到0.5之间,表明相关性非常弱或遗传多样性最大。
10条染色体的平均LD显示出相对一致的模式,QTN关联(r2)值在0.10到0.14之间,总体均值为0.12。显著标记对的比例反映了有多少QTN对显示出有意义的连锁。LD衰减曲线从r2值0.47开始,达到其初始值一半的距离为7630 bp或约7.6 kb。
3.4 ML-GWAS鉴定的QTNs
使用六种模型进行的ML-GWAS鉴定了与籽粒产量、蛋白质含量、千粒重和支链淀粉含量相关的QTNs。mrMLM模型在所有性状中检测到的QTNs数量最多,表明其关联检测能力很强。pKWmEB模型对籽粒产量的解释方差最高(18.19%),而ISIS EM-BLASSO对支链淀粉的r2最高(15.23%)。QTNs、效应大小和解释方差在不同模型间的变异凸显了使用多种GWAS方法识别高粱育种和遗传改良候选位点的重要性。
3.5 通过ML-GWAS鉴定的多环境稳定QTNs
在多个环境和ML-GWAS模型中共鉴定出27个与籽粒产量、蛋白质含量、千粒重和支链淀粉相关的稳定QTNs。这些QTNs被认为是稳定的,因为它们至少在三个环境中出现,并被多种GWAS方法检测到,表明关联性强且可靠。
3.5.1 籽粒产量
五个QTNs在不同环境中与籽粒产量相关。位于2号染色体的QTN S02_34978104最稳定且最显著,在四个环境(MK20, MK21, MS20, MS21)和六种GWAS模型中被检测到。其LOD值在3.06到6.74之间,最高可解释11.54%的表型方差。另一个显著的QTN是位于9号染色体的S09_50940522,在三个环境(JM20, JM21, MK21)中出现。其他籽粒产量相关QTNs包括S01_65245223、S05_56213423和S08_56572493。
3.5.2 蛋白质含量
鉴定出九个与蛋白质含量相关的QTNs。最稳定且影响最大的是位于5号染色体的S05_53371984,在所有六个环境和全部六种GWAS模型中均被一致检测到。位于4号染色体的QTN S04_67840213具有最高的解释方差(9.13%)。其他稳定QTNs,如S02_75791835、S06_51118555和S09_50581549,也在多个环境和模型中显示出显著性。
3.5.3 千粒重
七个QTNs与千粒重表现出强关联,每个至少在五个环境中被检测到。位于3号染色体的QTN S03_3571908表现出最高的表型解释方差(高达14.42%),并在五个环境中被五种GWAS模型一致检测到。类似地,位于6号染色体的S06_1047672出现在所有六种模型和五个环境中。位于1号染色体的QTN S01_73998261的LD区块内关联基因数量最多(5个),表明其可能是一个关键调控位点的一部分。
3.5.4 支链淀粉
鉴定出六个与支链淀粉浓度相关的QTNs,其中位于4号染色体的QTN S04_62662803最为显著。S04_62662803与支链淀粉生物合成基因GBSSI和SSIIa直接相关。位于8号染色体的S08_53120256最稳定,在所有六个环境中均被检测到。这些结果突显了支链淀粉含量调控的多基因性质,并为定向育种提供了强有力的候选位点。
3.6 潜在候选基因预测
基于±7.6 kb的LD衰减距离,使用Phytozome数据库预测了这些QTN LD区块内的候选基因或注释蛋白。鉴定出多个与性状相关的潜在候选基因。例如,与籽粒产量相关的QTN S01_65245223附近定位了编码通用胁迫蛋白的基因Sobic.001G363100,而S09_50940522附近定位了编码E3泛素连接酶的基因Sobic.009G153100。与蛋白质含量相关的QTN S01_1332500附近定位了编码EMC2的基因Sobic.001G014800,S05_53371984附近定位了编码HVA22样贮藏蛋白的基因Sobic.005G121200和Sobic.005G121300。与千粒重相关的QTN S03_3571908附近定位了编码磷脂酶A1的基因Sobic.003G038000,S01_73998261附近定位了编码肽酰-脯氨酰异构酶/E3连接酶的基因Sobic.001G466700。与支链淀粉相关的QTN S04_62662803对应GBSSI/SSIIa(Sobic.004G284400),S08_53120256对应APS还原酶(Sobic.008G118900),这些基因分别与淀粉生物合成和氧化还原调控相关。
结论
本研究通过对一个多样化的埃塞俄比亚高粱地方品种群体进行多环境ML-GWAS,成功鉴定了27个在多个环境中稳定的QTNs,这些位点与高粱的产量和关键营养品质性状(蛋白质、千粒重、支链淀粉)显著相关。表型分析揭示了这些性状受遗传和环境共同影响,但遗传力存在差异。群体结构分析将材料分为三个遗传集群。LD分析表明基因组范围内存在中等程度的连锁不平衡。候选基因预测揭示了与胁迫响应、蛋白质折叠与积累、种子灌浆与生长调控、淀粉生物合成等重要生物学通路相关的基因。这些发现验证了已知位点,也发现了新位点。该研究为利用埃塞俄比亚丰富的高粱遗传资源进行分子标记辅助育种,培育高产、抗逆、营养强化的高粱品种提供了宝贵的基因组学靶点和理论依据,对应对气候变化和保障粮食安全具有重要意义。