《Theoretical and Applied Genetics》:Accessing crop genetic diversity via pangenomics
编辑推荐:
这篇综述系统性地阐述了泛基因组学在作物改良中的应用价值与方法学进展。文章指出,随着测序技术的进步,结构变异(SV)在作物重要性状形成中的关键作用日益凸显。泛基因组通过整合多个个体的基因组,能够更全面地捕捉物种遗传多样性,为关联分析和育种提供支持。文中详细比较了线性与图泛基因组构建方法,并探讨了其在全基因组关联分析(GWAS)、基因组选择(GS)以及基于基因编辑的精准育种等领域的应用前景。
DNA测序技术的进步彻底改变了基因组学领域,从手动Sanger测序到高通量测序,成本不断降低,使得构建多个个体的参考基因组成为可能。早期研究揭示了植物基因组中广泛存在存在/缺失变异(PAV)。随着长读长测序准确性的提高,我们得以在物种层面审视基因组变异,揭示了其全貌、形成机制以及在自然和驯化群体中的影响。泛基因组作为多个体基因组资源,能够捕获这些基因组变异,从而实现比单一参考基因组更全面的分析。
结构变异对作物进化和适应具有显著影响——从早期证据到今天
早期的比较基因组分析表明,基因拷贝数变异(CNV)和PAV广泛存在,并且常与适应性性状相关。例如,在玉米和大豆中,转座子活性和古多倍化事件被认为是SV形成的重要驱动力。一个关键的案例来自于最近形成的异源多倍体作物甘蓝型油菜(Brassica napus)。其首个基因组组装揭示了广泛存在的同源染色体交换和基因转换。尽管其遗传多样性有限,但甘蓝型油菜已成为全球最成功的油料作物之一。研究表明,多倍化期间及之后广泛的SV形成是其驯化和多样化后产生新多样性的驱动力,特定的基因内缺失/插入与抗病性或开花行为等性状相关。在其他重要作物如小麦、燕麦和高粱中,全基因组范围的基因PAV也被证明与生态地理分化和重要性状(如物候适应、抗病性)密切相关。这些证据支持了一个观点:SV在作物进化、适应和重要性状变异中扮演着主要角色,其发现和利用将在未来十年持续推动作物遗传学研究。
泛基因组方法的发展
泛基因组旨在捕获一组相关个体中观察到的遗传多样性,其概念最初在无乳链球菌(Streptococcus agalactiae)中提出,将基因分为核心基因和辅助基因。泛基因组能够捕捉复杂的基因组多态性,包括SV、PAV和CNV。构建方法主要分为线性方法和基于图的方法,以及其他一些方法。
线性泛基因组方法 在线性坐标框架中表示遗传多样性,方法相对简单,计算需求较低,但无法完全表示单倍型或大规模结构重排。其中,迭代比对和组装策略通过将多个个体的读数重复比对到单一参考序列,组装未比对的读数并将其整合到参考序列中来构建泛基因组。另一种是基于从头组装的泛基因组方法,它独立组装每个基因组并进行比较,从而避免参考偏倚并能够发现新位点。随着长读长和HiFi测序以及Hi-C、光学图谱等支架技术的出现,从头组装已能达到染色体水平的高连续性。
基于图的泛基因组方法 以非线性结构表示基因组序列及其变异。节点对应序列片段,边连接相邻区域,路径追踪特定的基因组遍历。基于参考的图方法将变异锚定到现有参考基因组上,并通过比对和变异检测整合新序列。例如,番茄泛基因组项目就采用了这种方法,结合Minimap2、DeepVariant和多个SV检测器,使用vg工具包构建变异图。Minigraph则能将变异扩展到数百个组装体,通过对齐每个组装到参考序列来自动检测插入、缺失和重排。Minigraph-Cactus整合了Minigraph和Cactus框架,能更准确地整合新序列,保留更大比例的非参考序列,同时保持参考坐标系统。参考无偏方法如PanGenome Graph Builder(PGGB)则通过全对全序列比对和图归纳来构建无参考偏倚的泛基因组,能捕获广泛的SV,但计算强度大。
不同图构建方法的比较研究表明,Minigraph所需的CPU、内存和时间显著少于Minigraph-Cactus和PGGB,但无法捕获SNP或短插入缺失等小变异,且受参考偏倚影响。而Minigraph-Cactus和PGGB能保留更多非参考序列,PGGB构建的图最为复杂,识别出的SNP和单倍型路径最多。在植物中的基准测试也显示了相似趋势:成对检测器在受控模拟中精度略高,但基于图的方法在真实数据中能捕获更广泛的SV。综合来看,最合适的泛基因组图构建方法取决于可用的计算资源和预期的下游分析。
其他泛基因组构建方法 包括实用单倍型图(PHG),它使用共享的单倍型区块而非完整的核苷酸水平组装来表示遗传多样性,能有效进行基因型填充和基因组预测。PanTools则使用广义德布鲁因图表示基因组,结合了泛基因组表示与功能及比较基因组学。
泛基因组图的可视化工具 对于解释复杂的图结构至关重要。ODGI提供了一个用于图操作和统计分析的综合工具包。Panache是一个基于Web的平台,提供直观的界面来可视化泛基因组。Bandage为查看中小型GFA图提供了可访问的图形界面。PanGraphViewer则引入了用于泛基因组图的专用界面。
泛基因组的未来发展方向 需要提高组装和图构建的效率,支持新基因组加入时的增量更新,并开发更用户友好且能保留结构和功能信息的可视化工具。同时,需要一致的格式和注释实践,以便跨方法交换和比较基因模型、SV和存在/缺失信息。将基因组、转录组和表观基因组数据整合到统一的泛基因组框架中,并利用单倍型方法进行下游应用,将有助于推动植物泛基因组学发展成为全面的、可用于实际应用的资源。
作物泛基因组学的现状
基于图的泛基因组因其能够表示全基因组单倍型、存储参考基因组信息以及个体间变异,并能代表多个物种(包括驯化作物的野生近缘种),被认为是构建泛基因组的黄金标准。受益于此,越来越多基于图的泛基因组被构建出来,例如代表16个面包小麦品种的图泛基因组,以及包含14个猕猴桃品种的图泛基因组。在玉米中构建的图泛基因组发现,37.36%的SV与SNP的连锁不平衡程度低,表明这些SV代表了仅用SNP无法识别的遗传变异。此外,这些SV具有更高的遗传力评分,比SNP多解释了14%的表型变异,因此更可能具有功能重要性。
属级泛基因组通过识别可通过杂交和基因组编辑引入作物物种的新遗传变异来源,有助于作物改良。近年来,已为主要作物和一些次要作物构建了多物种和属级泛基因组。例如,一个代表16个驯化和野生水稻物种的水稻泛基因组在野生近缘种中发现了额外的63,881个基因家族。栽培水稻品种中的抗病基因多样性低于其野生近缘种,表明野生水稻种质可能是抗病性的新来源。大豆属(Glycine)的属级泛基因组发现,在去除重复基因后,野生多年生近缘种中约70%的基因在一年生驯化大豆中不存在。同样,包含栽培和野生品种的苹果泛基因组也显示了野生物种中蕴含的新遗传变异。
然而,对图和属级泛基因组的比对质量取决于序列的质量和相关性,可能导致短序列、低质量或高度分化的序列在最终泛基因组中缺失。例如,使用Minigraph构建的芸苔属属级泛基因组发现,由于所使用的白菜(B. rapa)基因组质量较低,甘蓝型油菜与甘蓝(B. oleracea)共享的序列比其与更近缘的白菜共享的更多。所有其他基于参考的图构建方法都存在因参考偏倚而无法比对属级泛基因组中高度分化序列的风险。参考无偏方法如从头构建泛基因组可能更适合识别新的或高度分化的序列。
泛基因组在作物改良中的应用
在泛基因组中识别出的SV会影响基因表达和性状变异,并且已与可用于作物改良的农艺重要性状显著关联。泛基因组辅助育种(PAB)是标记辅助育种的一种适应形式,它将基于泛基因组的标记(包括SNP和SV)与目标性状相关联。基于泛基因组的标记可以通过组装泛基因组、将读数比对到泛基因组并调用SNP和SV来识别。一旦识别出泛基因组标记,就可以用于开发基于泛基因组的基因分型芯片,从而高效、准确且低成本地对群体进行基因分型,并为泛基因组全基因组关联分析(pan-GWAS)和基因组选择(GS)等PAB方法提供标记。当前的泛基因组基因分型芯片包括:含有54,765个标记的甘蓝型油菜芯片BnaPan50T、包含271份水稻种质和8万多个标记的水稻泛基因组基因分型芯片RPGA,以及小麦新一代芯片TaNG。这些资源使得利用泛基因组数据加速作物遗传改良成为可能。