动物比较基因组学中的拓扑学方法:从染色体结构到三维基因组进化

【字体: 时间:2026年03月09日 来源:Annual Review of Animal Biosciences 8.7

编辑推荐:

  本综述全面评述了动物比较基因组学的现状与前沿,重点介绍了染色体水平基因组(chromosome-scale genomes)的爆炸性增长、3D基因组学(3D genomics)的兴起以及“进化基因组拓扑学”(evolutionary genome topology)这一新型框架。文章系统梳理了基因组学分类学取样、测序技术和三维基因组学的进展,并提出了利用“多基因座拓扑学”(Multi-locus topology, MLT)和“多基因组拓扑学”(Multi-genome topology, MGT)等方法,对远缘进化枝进行拓扑学、多尺度比较,以解析染色体与亚染色体水平变化的互联进化及其功能意义(如通过“调控缠结”, regulatory entanglement)。最后,文章展望了该领域的未来研究方向及其在理解动物基因组进化规律、保护基因组学(conservation genomics)和染色体疾病(chromosome-based diseases)研究中的潜力。

  
动物比较基因组学的新时代与早期基础
比较基因组学在解析深层进化历史中扮演了关键角色。早期动物比较遗传学研究依赖于小型遗传标记,而染色体水平基因组测序技术的进步,正在彻底改变我们跨越漫长地质时间研究基因组进化的能力。大规模测序计划的开展,使得数千个新测序的染色体水平基因组迅速填补了动物多样性的系统发育空白,使我们能够比较跨越整个动物多样性谱系的基因组结构、重排、调控组织和关键的进化基因组变化。
显微镜和测序技术的改进,也极大地增强了我们对动物基因组如何随时间在所有尺度上组织的理解:从单碱基相互作用到染色体在不同细胞类型中以三维方式独特折叠的方式。新技术使我们能够更好地理解动物进化过程中基因组的变化。早期工作量化了基因和染色体在漫长进化时间中如何混洗或保持静态,并描述了动物基因组的哪些部分在其超过6亿年的共同历史中变得对它们的成功至关重要。
尽管我们在比较基因组学的能力上取得了进步,但仍然存在重要挑战阻碍我们看到基因组进化的全貌。大部分动物多样性的高质量基因组取样仍存在空白;3D基因组的比较仍处于起步阶段;并且很少有方法能够整合跨多个尺度的基因组组织,尽管它们通过功能和选择相互关联。
基因组学取样与比较方法的现状与局限
染色体水平基因组测序的分类学取样进展,最初集中在脊椎动物基因组,随后扩展到其他动物进化枝。到2017年底,已发表的136个染色体水平基因组组装中,77%来自脊椎动物,而来自原口动物(Protostomia)的仅有30个,来自更远缘的非两侧对称动物(non-bilaterian)门(刺胞动物、扁盘动物、多孔动物、栉水母)的染色体水平组装则为零。这种分类学广度的缺乏严重限制了全染色体进化的比较分析。
高通量、廉价的邻近连接测序方法(如Hi-C)已成为将亚染色体水平的基因组重叠群(contig)搭建成重建整个染色体序列的强大工具。与此同时,准确长读长(HiFi)和超长读长测序技术的发展,以及测序成本的持续下降,推动了一波高质量基因组组装的新浪潮。地球生物基因组计划等大规模倡议,旨在组织广泛的生命测序,并统一分支特定的努力。
到2024年底,这些大型倡议和个人贡献已产生了来自2,287个物种的染色体水平基因组组装。这代表了分类学取样从生物医学和商业重要物种到覆盖大部分动物多样性的一个数量级的加速。然而,重要的系统发育差距和偏差仍然存在。尽管在缩小主要系统发育差距方面已基本实现目标,但在多个进化支中,特别是节肢动物和软体动物中,代表性严重不足的问题依然存在。许多基因组仍存在错误、未定位的支架、结构不确定性或缺口,很少有达到端粒到端粒的完整度。
演化中的拓扑学方法:多尺度比较的框架
面对比较基因组学中的新挑战,需要一个整体的、多尺度的分析方法。传统的比较基因组学通常将不同尺度的基因组组织视为独立的分析领域。进化基因组拓扑学(evolutionary genome topology)框架旨在应对跨多级组织比较基因组进化的挑战。该框架不将核苷酸序列、微同线性(microsynteny)和宏同线性(macrosynteny)的变化视为独立领域,而是将基因组建模为一个结构化系统,其中同源基因座(orthologous loci)在谱系间具有空间关系,这些关系会发生转变、持续存在或重复出现。这个框架包括两个互补的方法:多基因座拓扑学(Multi-locus topology, MLT)和多基因组拓扑学(Multi-genome topology, MGT)。
多基因座拓扑学关注单个同源基因座在基因组间的空间行为。它通过比较跨多个物种的基因座之间的距离,来分析基因组构型的多样性。在MLT中,一个数据点就是一个基因座,其特征是到所有其他基因座的距离。这产生了一个对称矩阵,代表了单个基因组的空间构型。通过对MLT矩阵进行降维可视化,可以揭示保守的共定位簇,这些簇通常代表了共源性状(synapomorphic configurations),即在特定进化枝中变得独特共定位的基因座,可能源于调控“缠结”(entanglement)。
多基因组拓扑学则在更大尺度上比较物种间的基因组构型。在这个框架中,每个基因组被表示为一个由基因座间距离、染色体邻域组成和共享结构特征定义的多维空间内的拓扑构型。简单来说,每个数据点是一个基因组,其特征是基因组中每对基因座之间的距离。通过比较不同进化枝的这些构型,MGT揭示了染色体和亚染色体水平的变化如何塑造基因组进化的轨迹。MGT分析表明,即使基因组成相似的基因组,也可能具有截然不同的拓扑结构。
进化基因组拓扑学的应用与未来方向
MLT/MGT方法在跨学科领域具有多种潜在应用。在进化生物学中,该框架强调基因组邻域在远比群体动态更长的时间尺度上演化和持续存在。一个主要挑战是如何在流形(manifold)空间中量化、界定和比较进化轨迹。一个重要的未来方向是开发结合系统发育学和不可逆染色体变化信息的计算模型,以预测动物基因组的未来进化轨迹。在保护基因组学中,拓扑学方法可以提供关于基因组多样性、恢复力和独特性的补充信息。此外,这些方法还可应用于癌症基因组学,识别不稳定的基因组区域,并通过荧光原位杂交(Fluorescent in situ hybridization, FISH)验证结果。未来,该框架可扩展到整合3D基因组数据(如Hi-C衍生的接触矩阵或TAD边界),以更完整地描绘基因座的组织和约束。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号