编辑推荐:
本综述系统阐述了植物基因组学领域从样本采集到功能注释的全流程突破,重点介绍了长读长测序(PacBio/ONT)、Hi-C支架等技术如何实现端粒到端粒(T2T)的单倍型分型组装,并指出人工智能(AI)驱动注释、多组学整合将是解决植物基因组高重复性、多倍体复杂性的关键方向。
植物基因组组装与注释领域正经历革命性变革。随着长读长测序技术、改进的组装算法和强大支架策略的融合,植物基因组生物学进入了由完全分型、染色体尺度、端粒到端粒组装定义的新时代。如今,即使是多倍体物种,实现无间隙、单倍型分辨的基因组也已成为可能,瓶颈从组装转向了注释和解读。
引言
植物de novo基因组组装已进入新纪元,其标志是完全分型、染色体尺度、单倍型分辨、端粒到端粒基因组的出现。在测序技术突破的推动下,植物基因组学达到了十年前难以想象的准确性、通量和可及性水平。然而,植物基因组仍然是自然界中最具挑战性的之一:它们通常异常庞大,主要由着丝粒、端粒、核糖体DNA和转座元件等重复元件主导。反复的多倍体化事件进一步使组装复杂化,模糊了单倍型边界并放大了复杂性。尽管存在这些障碍,测序、支架和计算算法的创新已经重塑了植物基因组学的格局。
植物基因组组装的历史反映了这种快速的技术进步。2000年的第一个参考基因组拟南芥开启了BAC-by-BAC时代,这是一个劳动密集型过程,耗时数年,成本数百万美元,最终将高质量基因组组装限制在少数模式生物中。短读长测序的兴起将基因组测序转变为计算挑战,产生了数百个具有扩展基因空间覆盖度的组装,但往往是碎片化且不完整的基因组。随着长读长测序和先进支架方法的出现,一个新的阶段开始了,它实现了第一轮高度连续、几乎完整的T2T基因组。最近拟南芥的T2T组装首次提供了整个着丝粒的完整视图,揭示了驱动植物基因组进化的先前未知区域。
如今,de novo策略常规产生染色体尺度、单倍型分辨的基因组,涵盖模式物种和关键作物。这些资源正在推动注释框架的创新,包括泛基因组、机器学习和多组学整合,这些现在揭示了长期被碎片化、低连续性植物基因组隐藏的功能元件。展望未来,持续的进展有望更深入地解析多倍体复杂性并获得更一致的基因预测,人工智能和大规模机器学习有望标准化从组装、抛光到注释的流程。然而,关键的挑战依然存在,因为样本选择、保存和高分子量DNA的提取仍然是主要的瓶颈。
采集、保存和DNA分离对植物de novo组装至关重要
当前植物基因组组装状态的一个标志是其跨实验室和项目的广泛可及性,这已将组织采集、保存和DNA分离提升为成功的最关键决定因素之一。de novo植物基因组测序的一个持续限制仍然是用于生成长读长数据的输入DNA质量。与微生物或动物系统不同,植物组织是出了名的困难底物,通常含有丰富的次生代谢物、多糖和多酚,这些会干扰DNA提取、文库构建和下游测序。对于高质量组装,特别是那些旨在达到染色体尺度、T2T分辨率的组装,获得具有卓越纯度和完整性的高分子量DNA至关重要。
项目的最早阶段,样本采集和保存,对决定DNA完整性至关重要。组织类型、发育阶段和储存方法等因素都强烈影响下游DNA分离的成功。即使是轻微的降解也会减少读长并损害组装连续性,使得仔细的规划和保存方案与测序本身一样关键。
DNA质量的重要性随着最新的长读长测序技术只增不减。便携式测序为野外基因组项目创造了机会,允许直接从偏远环境的新鲜采集物中生成参考质量数据。
这些创新正在改变植物基因组学的可及性和影响力。保护和生态恢复项目现在可以快速组装濒危或稀有物种的基因组以指导管理决策。植物园和标本馆正越来越多地采用这些技术来构建其收藏的基因组目录,为生物多样性保护创建持久的资源。这些努力也通过将高质量基因组资源与应用目标联系起来,为育种计划、适应性研究和气候恢复力策略提供信息。
完全分型、染色体尺度、单倍型分辨、端粒到端端的植物基因组
植物基因组学领域已经进入了一个由完全分型、染色体尺度、单倍型分辨、T2T组装定义的新时代。这一转变是由PacBio和ONT的高精度长读长测序技术的融合,以及能够解析一些最大和最复杂多倍体基因组的下一代组装算法和支架策略所推动的。最近的进展现在表明,仅使用ONT超长读长或通过ONT自适应采样实现的缺口填充即可实现无间隙T2T组装。尽管有这些最新进展,大多数被称为T2T的基因组组装仍然未能完全解析高度重复的着丝粒和核糖体DNA区域,并且稳健的多倍体基因组组装仍然超出了甚至最佳组装工具的能力范围。尽管如此,这些发展强调了植物基因组组装从技术上艰巨的努力转变为日益常规的实践的速度之快。
在植物中实现T2T分辨率长期以来一直是一个挑战,主要是由于高度重复的基因组特征普遍存在、高水平的杂合性和多倍性。着丝粒、端粒、rDNA以及大块的转座元件,特别是长末端重复逆转录转座子,对连续性和准确性构成了持续障碍。长度超过数百kb的ONT超长读长提供了跨越着丝粒区域的连续性,而PacBio HiFi读长则提供了最小化组装错误所需的基础准确性。互补的支架技术,包括光学图谱和高通量染色质构象捕获,进一步将重叠群锚定到完整的染色体中。
同样具有变革性的是生成完全分型、单倍型分辨组装的能力。与单倍型共识基因组不同,分型组装捕获杂合性和结构变异,为异交物种、杂种和多倍体提供了关键见解。几种互补策略用于单倍型分辨,其中基于Hi-C的分型因其广泛的适用性和可扩展性而成为标准方法。Hi-C利用染色质接触图在染色体尺度支架上对单倍型进行分型;然而,这种方法通常需要大量的手动检查和接触图校正。错误连接、方向错误和单倍型转换很常见,特别是在多倍体基因组和富含长重复元件的基因组中,需要专家驱动的质量控制流程。更专业的策略包括三重分箱,它使用亲本序列数据将后代读长分配给单倍型;以及花粉测序,它利用单倍体配子体直接对单倍型进行分型。这些方法共同实现了基因组重建,揭示了等位基因特异性表达、结构重排和进化历史,这些在单倍型组装中常常被掩盖。
尽管有这些进展,多倍体基因组组装仍然具有挑战性。大多数当前的长读长组装器基本上都是围绕二倍体假设设计的,将组装图建模为两个单倍型气泡。在多倍体基因组中,特别是同源多倍体或近期分化的异源多倍体中,这经常导致相似同源物的坍缩、冗余重叠群的保留,或由测序和组装错误驱动的单倍型膨胀。在重复区域区分真实的结构变异与组装伪影也很困难。虽然可以通过仔细的参数调整、覆盖度管理和辅助数据整合来产生高质量的多倍体植物基因组,但稳健的自动化多倍体感知组装仍然是一个未解决的挑战。
随着组装接近T2T和完全分型状态,质量控制必然超越了传统基准。虽然基准通用单拷贝直系同源物仍然广泛用于衡量基因含量,但其对有限直系同源物集的依赖仅提供了一种完整性的度量。额外的指标现在包括量化逆转录转座子组装质量的LTR组装指数;通过k-mer分析评估基础准确性的Merqury;以及评估分型保真度的转换错误率。覆盖均匀性和读长映射率等标准QC措施仍然不可或缺。除了单基因组评估,泛基因组框架现在正被用来识别跨物种和科的结构不一致、单倍型转换和组装间隙。越来越多地,用于共线性、单倍型分化和结构变异的专用可视化工具正在与探索重复区域的新策略和可视化单倍型的新框架相辅相成。
植物基因组注释从艺术发展为科学
尽管完全分型、染色体尺度、单倍型分辨、T2T植物基因组正变得越来越常规,但基因组注释仍然是植物生物学、农业和生物技术发现中最持久的挑战和最大的机遇之一。注释不仅包括准确预测蛋白质编码基因模型等基因组特征,还包括可靠地将生物学功能分配给这些基因。此外,多组学数据集的快速扩展,由将测序有效定位为“新显微镜”的创新测序应用所推动,已将注释范围远远扩展到蛋白质编码基因之外。
该领域正稳步超越传统的ab initio预测,转向基于证据的注释框架。越来越强调生成跨不同组织、发育阶段和环境条件的全面RNA测序数据集,以改进基因模型预测并捕获异构体多样性。同时,结合转座酶可及染色质测序、染色质免疫沉淀测序、DNA甲基化分析和Hi-C的多组学整合提供了互补和正交的证据。这些数据集不仅增强了启动子、非翻译区、增强子、绝缘子、激活域和拓扑关联域等特征的训练和识别,还将注释扩展到历史上未被充分探索的基因组的调控和结构维度。
与此同时,人工智能驱动的基因预测器已经出现,即使在缺乏经验证据的情况下,其在准确性和效率上也优于许多传统的ab initio工具。例如,Helixer结合了卷积和循环神经网络与隐马尔可夫模型解码器来预测基因结构,并且已被证明比AUGUSTUS等经典预测器提高了外显子-内含子边界准确性。Tiberius通过将卷积层、双向长短期记忆网络和可微分隐马尔可夫模型集成到单一的端到端框架中推进了这种方法,使其能够直接从DNA学习序列特征和结构规则。与其它ab initio基因预测器一样,当前基于AI的方法在定义富含重复序列的植物基因组中的外显子-内含子边界、UTR和真实的单外显子基因方面面临挑战,并且通常不模拟可变剪接,而是报告主要基因模型。展望未来,这些基于AI的预测器可以通过在快速扩展的多组学数据集上进行训练来进一步增强,使它们能够捕获经验证据管道可能忽略的微妙基因组信号和调控复杂性。
除了结构预测,功能注释正受益于植物基因组资源的指数级增长。目前有超过5000个植物基因组 deposited 在NCBI中,其中大约1500个符合草案基因组组装的标准。尽管这些基因组中许多缺乏高质量的注释,但AI基因预测的最新进展使得能够快速生成标准化的基因模型。这些统一的注释促进了比较分析,例如OrthoFinder,它利用密集的直系同源网络来产生越来越准确的跨物种基因功能预测。同时,大型语言模型和基于图的AI框架正在被开发,以整合异质数据源,包括序列同源性、基因表达、蛋白质-蛋白质相互作用和进化信号,以注释缺乏充分表征同源物的基因。尽管有这些进展,注释仍然是一个迭代和解释的过程,需要专家监督来区分有生物学意义的特征和技术伪影。
AI用于de novo植物基因组组装与注释的前景
未来的de novo植物基因组组装将越来越依赖于自动化的端到端流程,以最小化人工干预,同时提高一致性、可扩展性和可重复性。随着测序通量的持续增加和成本的下降,下一代框架将把长读长和短读长数据、光学图谱和Hi-C信号整合到近乎完整的组装中,大部分实现自动化。通过标准化流程进行持续基准测试将进一步协调质量控制,减少项目间的可变性并确保可靠的比较。
大型语言模型代表了一个特别有前途的基因组解读新方向,迄今为止在很大程度上尚未被开发。适用于生物序列和基因组图,LLMs有潜力改变复杂植物基因组的分型和单倍型划分,特别是在传统方法往往不足的多倍体和异倍体中。通过学习识别重复出现的序列和结构模式,LLMs可能有助于解开高度重复和着丝粒区域的单倍型,这些区域即使对当前的T2T组装也仍然具有挑战性。
同时,单细胞基因组学和其他多组学数据集的整合将改进组装和注释。单细胞和单核RNA-seq与ATAC-seq一起提供了表达和染色质可及性的前所未有的分辨率,使得能够进行细胞类型和阶段特异性的功能基因注释。当与蛋白质组学、代谢组学和甲基化组数据结合时,这些模式将为AI驱动模型提供动力,这些模型能够检测细微的调控特征,如增强子、绝缘子和TAD。结果将是功能丰富、上下文感知的植物基因组注释,将结构与功能联系起来。
展望未来,自动化组装流程、LLM引导的分型和多组学整合的融合指向一个未来,即生成一个完全分型、染色体尺度、单倍型分辨且功能注释的植物基因组变得常规,并且可能最重要的是可重复。这种标准化将迎来基因组探索的新时代,对生物多样性保护、生态恢复、精准农业和合成生物学产生变革性影响。最终,这种范式将实现从原始序列数据到功能可解释基因组的无缝过渡,加速基础发现和应用创新。