《Trends in Environmental Analytical Chemistry》:Organelle genomes as universal standard for phylogenetics: a sociotechnical perspective
编辑推荐:
整合多领域研究,提出器官体基因组作为分子系统学的统一标准,解决当前缺乏通用标记的问题。标准化需社区共识,类似DNA条形码成功经验,器官体基因组具备广泛数据基础、易获取和系统发育分析优势,可支撑树状结构构建,弥合核基因组与低覆盖测序数据的断层。
Seunghyun Lee | Douglas Chesters | Alfred P. Vogler
生命科学系,伦敦自然历史博物馆,英国
摘要
从基因组数据中构建一个密集采样的生命之树需要整合系统发育学、基因组学和生态学中的不同研究结果。目前,我们尚未就一个能够在所有分类单元和层次结构中通用的一致遗传标记达成共识。细胞器基因组的普遍性和结构简洁性,以及与全基因组序列相比其获取和系统发育分析的相对容易性,表明它们应该作为通用数据标准发挥更大的作用。标准化需要得到广泛社区的认可,这可以通过推动其普遍采用的社会技术因素来体现。类似的过程可以促进细胞器基因组成为系统发育学中的下一代标准,只需对数据生成和可访问性进行少量调整,就能作为当前高度多样化的基因组数据结构的支撑框架。
节选内容
在基因组时代构建物种丰富的生命之树
DNA测序革命正在迅速扩展到对地球上所有生命形式的研究中,为越来越多的物种和种群生成了大量的序列数据[1]。连接所有生物多样性组成部分的最终框架是生命之树,它通过共同的祖先将生物及其特征联系起来[2](见框1)。然而,构建所有物种的系统发育树仍然受到实际限制,例如后勤和官僚障碍等。
系统发育数据的整合及标记标准化的重要性
基因组规模的数据正在迅速改变我们对系统发育关系的理解,尤其是在生命之树的深层节点上,这些节点在Sanger时代基于扩增子的研究中是无法处理的[29, 30]。然而,这类数据往往缺乏进行全面进化综合所需的分类单元覆盖范围。目前序列数据的分类单元覆盖范围仍然主要依赖于通过PCR扩增细胞器和核糖体RNA基因产生的传统基因标记。
从社会技术的角度看待标准化条形码和碎片化基因组数据
社区的认可对于数据标准化至关重要。从社会技术的角度来看,DNA条形码的历史提供了一个有用的先例[39, 40]。细胞器来源的条形码现在构成了最大的单标记DNA物种目录[41, 42]。其中,COI(细胞色素c氧化酶亚基I)是成功标准化的典型例子。它被广泛用于后生动物的分子分类和物种鉴定,同时也应用于许多多位点研究中。
细胞器基因组的核心作用
为了弥合这些差距,需要将核基因组序列数据与广泛可用的通用标记结合起来,这些标记能够跨越不同的方法、探针集和分类层次。细胞器基因组符合这些要求。它们已经在公共数据库中大量存在[40, 67, 68, 69],并且通过专门的分类学研究不断被生成[70],还可以通过低覆盖率的鸟枪法测序和基因组浏览(包括多重索引文库池化)大规模生成[71, 72]。
以细胞器基因组序列为中心的生命之树
关于细胞器标记的进化遗传学的已知问题(单基因位点的进化历史、缺乏重组、母系遗传、位点数量少)仍然存在,但这些错误在系统发育学上是局部化的。在深层次的系统发育水平上,线粒体基因组受到组成和速率异质性的影响,导致树推断不准确。复杂的似然模型可以在一定程度上缓解这些问题,例如正确推断不同基因位点之间的关系。
结论性意见
过去几十年的分子系统发育学产生了大量的数据,但个别研究主要集中在特定的分类问题和目标群体上。通过整合这些信息,我们现在可以朝着将这些研究联系成一个代表完整生命之树的单一结构的最终目标迈进,但这种综合需要一个能够连接所有分类单元的通用标记。对于大多数高等真核生物来说,细胞器基因组因其独特性而显得尤为重要。
致谢
我们感谢Brent Emerson对手稿的审阅并提供了宝贵的反馈。本工作得到了韩国国家研究基金会(NRF)的资助(由韩国政府提供,项目编号为:RS-2024-00405751和RS-2024-00452022),以及SITE-100对伦敦自然历史博物馆的慈善捐赠,还有伦敦帝国理工学院的Leverhulme全生物体中心的支持。
利益声明
作者没有需要声明的利益关系。
术语表
- 条形码OTUs(条形码操作分类单元)
- 由算法定义的、彼此密切相关的DNA条形码序列簇。条形码索引编号(BINs)是BOLD系统中的一个标准化且广泛使用的实现方式。
- 主干约束
- 一种方法,它将基于较大且特征较少的矩阵的树搜索限制在来自小型数据集的基因丰富矩阵中得到的可靠拓扑结构上。主干树定义的关系得以保持,而所有其他分类单元则保持不变