《The Plant Genome》:A whole-genome assembly of St. Augustinegrass and visualizing diversity within the species
编辑推荐:
本研究针对流行暖季型草坪草圣奥古斯丁草(Stenotaphrum secundatum)缺乏高质量基因组参考序列,限制其有利性状遗传基础研究和分子育种进展的问题,以耐寒品种‘Raleigh’为材料,利用PacBio CCS、Hi-C等先进测序技术,完成了该物种首个染色体级别的二倍体单倍型基因组组装,并注释了62,454个蛋白质编码基因。进一步,通过对79份种质资源进行低覆盖度测序,鉴定了超过60万个SNP,有效揭示了种内遗传多样性结构。该高质量参考基因组和遗传变异图谱,为圣奥古斯丁草的基因组学辅助遗传改良奠定了基础,并证明了低成本测序策略在高GC含量物种遗传分析中的可行性。
想象一下,在气候温暖湿润的美国南部,有一种草坪草以其浓密的绿荫、卓越的耐热耐湿和突出的耐阴能力,占据了家庭庭院高达70%的份额,它就是圣奥古斯丁草(Stenotaphrum secundatum)。这种禾本科的暖季型草坪草,因其能形成致密冠层抑制杂草,被视为经济环保的选择。然而,在光鲜的外表下,圣奥古斯丁草的育种家们却面临着一个根本性的困境:尽管对其形态和农艺性状了如指掌,但对其遗传组成的了解却极为有限。缺乏高质量的参考基因组,如同没有一张精确的“基因地图”,使得研究人员难以深入探究其优良性状(如耐寒、抗病)背后的基因秘密,也严重制约了利用现代分子标记进行高效育种的可能。历史上,育种依赖表型观察和形态学分类,虽然已开发出一些SSR(简单序列重复)和SNP(单核苷酸多态性)标记用于遗传图谱构建和多样性分析,但这些零散的“路标”无法揭示整个“基因组大陆”的全貌。特别是圣奥古斯丁草作为异交物种,具有较高的杂合度,明确其两个单倍型(来自父母本的各一套染色体)的具体序列,对于理解其遗传多样性、定位关键基因至关重要。为了打破这一僵局,一个国际研究团队开展了一项雄心勃勃的研究,旨在为圣奥古斯丁草绘制首张完整的染色体级别基因组图谱,并借此深入探索该物种的遗传多样性。这项研究成果最终发表于植物学领域的知名期刊《The Plant Genome》。
为了达成上述目标,研究团队采用了多组学技术整合的策略。他们选择了耐寒品种‘Raleigh’作为测序材料,这是一个二倍体栽培种,是圣奥古斯丁草耐寒性的商业标准。研究人员首先通过改良的CTAB(十六烷基三甲基溴化铵)法提取高质量高分子量DNA,利用PacBio公司的环状共识测序技术进行长读长测序,以获得高准确度的连续序列。同时,还进行了Illumina短读长测序用于纠错和评估,以及Hi-C(染色质构象捕获)测序以辅助染色体级别的组装。为了进行基因注释,研究还收集了接种灰斑病病原菌(Magnaporthe grisea)不同时间点的叶片样本,进行了RNA-seq(转录组测序),为基因预测提供转录本证据。最终,利用Hifiasm和HiCanu等软件进行从头组装,并结合遗传连锁图谱和Hi-C数据进行支架和染色体挂载。在获得高质量基因组后,研究团队对包含79个二倍体基因型(包括商业品种、育种系和种质资源)的多样性面板进行了低覆盖度基因分型测序,利用新建的参考基因组进行SNP鉴定和群体遗传结构分析。
3.1 基因组测序、组装与评估
研究人员首先通过流式细胞术和k-mer分析估算了‘Raleigh’的基因组大小,随后利用PacBio CCS测序数据,比较了Hifiasm和HiCanu两种组装工具的效果。结果显示,Hifiasm产生的初级单倍型组装在连续性上更优,其最大contig(重叠群)长度达到30.37 Mb。通过与已发表的两个以‘Raleigh’为亲本的遗传连锁图谱比对,验证了组装的准确性,并手动校正了三个存在单倍型混合的contig。利用Hi-C数据进一步进行染色体级别支架后,最终的初级单倍型组装大小为455.27 Mb,被锚定在9条染色体上,占基因组的97%以上;次级单倍型组装大小为401.53 Mb。BUSCO(基准通用单拷贝同源基因)评估显示,初级和次级单倍型的完整度分别高达98.7%和97.2%,LTR(长末端重复序列)组装指数也表明组装达到了参考基因组质量。序列比对分析表明,该组装与近缘物种Setaria italica(狗尾草)的基因组具有高度共线性,并与遗传图谱位置高度相关。进一步对两个单倍型进行共线性分析,揭示了高水平的杂合性,计算得出平均每194个碱基就存在一个SNP。
3.2 基因组注释
研究人员将两个单倍型基因组合并后进行注释。重复序列分析显示,约50.7%的基因组由重复元件构成。通过整合RNA-seq证据和近缘物种蛋白质同源性,研究团队最终在二倍体基因组中共预测了62,454个蛋白质编码基因,其中初级单倍型含33,836个,次级单倍型含28,618个。利用EggNOG、InterProScan等数据库进行了功能注释,并特别关注了可能与抗病相关的NLR(核苷酸结合富含亮氨酸重复)基因。蛋白质组质量评估显示,该注释的质量与其他高质量禾本科植物基因组相当。
3.3 多样性分析
利用新建的参考基因组,研究人员对79份圣奥古斯丁草二倍体材料(13份种质资源、20个栽培品种、46个育种系)进行了低覆盖度(平均约7x)重测序。经过严格过滤,共鉴定出605,038个高质量SNP。群体遗传结构分析表明,基因型能清晰地按照其系统发育和育种历史进行分组。种质资源材料主要聚类成两个大群,位于多维尺度分析图的两侧;而亲本已知的育种系材料,则准确地聚类在两个亲本之间。这证明了即使是高GC含量的物种,低成本的、低覆盖度的测序策略也能有效地用于遗传多样性分析和基因分型。研究还利用fastStructure分析了群体祖先成分,在K=3时,材料被划分为三个主要类群,与基于系谱和地理来源的分类基本一致。
本研究成功构建了圣奥古斯丁草品种‘Raleigh’的首个染色体级别、单倍型分辨的参考基因组,其完整性和连续性均达到高质量标准。基因组注释发现了超过6.2万个蛋白质编码基因,为功能基因组学研究提供了宝贵资源。更为重要的是,研究利用此参考基因组,通过对广泛种质资源的低覆盖度测序,高效地绘制了该物种的遗传多样性图谱,揭示了清晰的群体遗传结构,并验证了低覆盖度测序策略在此类高GC含量、高杂合度物种中的应用价值。这项工作标志着圣奥古斯丁草研究进入了基因组学时代,所产生的高质量基因组序列、基因注释和全基因组范围的SNP标记,共同构成了强大的分子工具箱。这些资源将极大地促进未来对圣奥古斯丁草重要性状(如耐寒性、抗病性、耐阴性)的遗传解析、数量性状位点(QTL)的精细定位以及分子标记辅助选择育种,从而加速培育出更具适应性、更抗病、品质更优的新品种,对于草坪草产业的可持续发展具有重要的科学意义和应用前景。