编辑推荐:
尽管能够反映物种内遗传多样性的泛基因组(Pan-genome)是作物改良的基础,但超级泛基因组(Super pan-genome)通过捕获作物物种及其野生近缘种的遗传多样性增加了新的维度,从而为遗传改良提供了坚实基础。本综述介绍了泛基因组和超级泛基因组的概念,
尽管能够反映物种内遗传多样性的泛基因组(Pan-genome)是作物改良的基础,但超级泛基因组(Super pan-genome)通过捕获作物物种及其野生近缘种的遗传多样性增加了新的维度,从而为遗传改良提供了坚实基础。本综述介绍了泛基因组和超级泛基因组的概念,比较了三种常用的构建策略:从头组装(de novo assembly)、迭代组装(iterative assembly)和变异图(variation graph)方法。研究人员还总结了当前可用的数据分析与可视化工具,并比较了基于基因(gene-based)和基于序列(sequence-based)的泛基因组及超级泛基因组。最后,讨论了超级泛基因组在作物育种中的应用,并提出了未来的研究方向。
引言
随着人口增长、气候条件变化及抗性病原体出现,作物改良的紧迫性日益凸显。遗传多样性是育种的基础,而准确识别与有效利用遗传变异至关重要。传统方法依赖于单一参考基因组结合重测序,虽能识别单核苷酸多态性(SNP)和小片段插入缺失(InDel, <50 bp),但对于大片段插入缺失、重复区域变异及结构变异(SV,包括拷贝数变异CNV、存在缺失变异PAV、倒位及易位)则难以检测。即使采用长短读长混合测序,仍可能遗漏参考基因组中不存在或高度分化的区域。鉴于单一参考基因组不足以捕捉包括SV在内的全部遗传多样性,组装多个代表性材料的基因组并进行比较分析变得必要。
泛基因组与超级泛基因组
泛基因组被定义为一个物种所有成员基因和/或DNA序列的非冗余集合。植物中首个泛基因组研究于2014年在野生大豆中报道,旨在鉴定驯化与育种过程中丢失的遗传多样性。此后,小麦、玉米、水稻、大豆等主要作物及其近缘种均开展了相关研究。泛基因组通常分为核心基因组(core genome,存在于所有测序个体)和可塑性基因组(dispensable genome,仅存在于部分个体)。核心基因组包含生存必需基因,而可塑性基因组可能携带适应多样环境的基因。超级泛基因组则是在泛基因组基础上,纳入属内其他物种(特别是密切相关的野生种)的基因组信息。这对于克服驯化瓶颈(domestication bottleneck)导致的遗传多样性丧失具有重要意义,作物野生近缘种(CWRs)是抗逆等性状宝贵遗传资源的宝库,例如小麦中的TmHKT1;5-A基因和大豆中的GmCHX1基因均源自野生种。构建超级泛基因组不仅能恢复驯化丢失的多样性,还能精确鉴定SV、解析基因功能及基因组进化轨迹。
超级泛基因组的构建
构建超级泛基因组的第一步是选择代表性材料,通常利用低覆盖度短读长重测序评估遗传多样性与亲缘关系,确保涵盖不同生态地理来源及标准核型。目前主要有三种构建策略:从头组装法(de novo assembly)独立组装每个基因组再进行比较,理论上能更好捕获大尺度变异,但对组装质量要求极高;迭代组装法(iterative assembly)依赖高质量参考基因组,将未比对上的reads组装后整合,但在高相似区域易出错;变异图法(VG)将所有基因组变异表示为图路径,可变区域为节点,个体特异性变异为边,相比前两者能更有效地解析复杂SV,是构建泛基因组的优势方法。
基于基因与基于序列的超级泛基因组
超级泛基因组分析主要分为基于基因和基于序列两种策略。基于基因的方法依据序列相似性聚类各材料基因并进行多态性分析,成本较低且易于实施,但受基因注释一致性影响大,且在面对多倍化、片段复制等高度相似序列时面临定义同源基因及区分旁系同源基因的挑战。相比之下,基于序列的泛基因组不仅包含蛋白编码基因,还涵盖转座元件(TE)、非编码RNA及调控区等非编码序列。SV位于非编码区常通过影响邻近基因表达进而决定表型,例如玉米Harbinger-like DNA转座子抑制ZmCCT9表达促进开花,水稻Gypsy型逆转录转座子增强OsFRDL4表达提高耐铝性。此外,长链非编码RNA(lncRNA)也在调控基因表达中发挥重要作用。鉴于SV在非编码区的生物学意义,精确识别至关重要。随着PacBio和ONT等长读长技术的发展,尤其是端粒到端粒(T2T)基因组组装的实现,为构建基于序列的泛基因组提供了技术支撑,这将极大推动功能基因组学研究。
泛基因组与超级泛基因组的可视化
构建好的泛基因组可采用线性模型展示,如JBrowse、GBrowse和IGV等基因组浏览器可显示相对于单一参考基因组的变异,但难以有效展示倒位和易位等大尺度SV。基于变异图(VG)的方法为此提供了解决方案,SequenceTubeMap、MoMI-G、PPanG等图形化浏览器应运而生,能在单核苷酸分辨率下展示泛基因组变异。其他工具如GfaViz、Bandage和AGB等也各有侧重,但多适用于较小基因组。vg toolkit、minigraph和Practical Haplotype Graph等工具仍在持续开发中。
用于作物改良的超级泛基因组
超级泛基因组为作物育种提供了全面的遗传多样性视角,是植物基因挖掘的重要平台。通过比较基因组学分析可识别基因组受选择区域,并通过群体水平的基因型-表型关联分析检测有利单倍型。例如,在水稻永久群体研究中鉴定出与16个性状相关的96个候选基因。SV可通过基于SV的全基因组关联研究(SV-GWAS)直接与农艺性状关联,常用工具包括TASSEL、GAPIT、mrMLM和GEMMA。SV-GWAS已在棉花、番茄等多种作物中成功应用,鉴定出与风味物质、代谢物及驯化改良相关的SV。一旦SV或受其影响的基因与性状关联得到确认,可利用锌指核酸酶(ZFN)、转录激活因子样效应物核酸酶(TALEN)和CRISPR/Cas9等基因组编辑技术进行功能验证或工程化改造,甚至诱导大片段(可达百万碱基对)缺失、重复或倒位。目前研究多集中于蛋白编码区PAV/CNV的功能解析,随着基于序列的超级泛基因组发展,非编码区SV与表型的关联将被更多揭示。
多组学整合用于作物育种
“泛组学”(Panomics)概念指整合基因组学、转录组学、翻译组学、蛋白质组学、代谢组学、离子组学、微生物组学和表型组学等多组学数据。通过泛组学分析可系统鉴定与表型相关的生物组分及调控网络,为精准分子设计育种提供资源。传统育种依赖表型评价和杂交,耗时费力,而基因组选择(GS)利用全基因组测序数据和表型预测个体育种值。然而,仅靠序列多态性难以充分解释表型变异,整合SV、基因表达和代谢谱等其他组学数据可提高预测准确性,这在大麦、小麦、水稻等多种作物中已得到验证。越来越多的多组学数据库为跨学科研究提供了便利,促进了生物标志物开发、基因工程靶点识别及基因调控网络构建。
未来展望
随着长读长测序技术的普及,越来越多高质量超级泛基因组将成为可用资源。未来研究的重点应在于标准化构建流程、统一数据存储格式、开发新型可视化工具以及将多组学数据集整合至统一管道。研究重心预计将从基因导向转向真正的全基因组研究,阐明非编码区变异如何影响重要农艺性状。