使用通用单拷贝直系同源基因解决蟋蟀科(Gryllidea)系统发育问题的综合工作流程

《Molecular Phylogenetics and Evolution》:A comprehensive workflow for resolving Gryllidea phylogeny using universal single-copy orthologs

【字体: 时间:2026年02月28日 来源:Molecular Phylogenetics and Evolution 3.6

编辑推荐:

  通过全基因组测序和USCOs(通用单拷贝正交基因)分析,解决了蟋蟀目(Gryllidea)系统发育争议,确认其分为两大类群:Gryllotalpoidea(含Gryllotalpidae和Myrmecophilidae)和Grylloidea,并明确了部分亚科的系统位置, divergence time分析显示主要分化始于早侏罗世并加速于白垩纪,与被子植物兴起同步。该研究提出整合多数据集和分析方法的标准化工作流程。

  
郑彦娜|马立斌|黄圆
陕西师范大学生命科学学院,中国西安710119

摘要

蟋蟀总科(Gryllidea)展现出显著的物种多样性,但其高级别的系统发育关系长期以来一直存在争议。本研究旨在开发并验证一种可复制的系统发育分析工作流程,使用通用单拷贝直系同源基因(USCOs)作为可扩展的基因组骨架,以解决蟋蟀总科内的关键系统发育问题。我们对代表所有现存蟋蟀科的物种进行了低覆盖率全基因组测序(10X)。通过优化的流程,我们完成了基因组组装、USCO提取,并构建了多个数据矩阵,严格控制了组成异质性和质量过滤。我们使用多模型比较框架重建了系统发育树。通过AU、WKH、WSH和FcLM等统计测试进一步评估了关键拓扑结构的稳健性。拓扑测试一致且稳健地支持将蟋蟀总科分为两个主要分支:Gryllotalpoidea(包含Gryllotalpidae和Myrmecophilidae)和Grylloidea,其内部关系为:(Mogoplistidae, (Trigonidiidae, (Phalangopsidae, (Oecanthidae, Gryllidae)))。我们的分析还揭示了Trigonidiidae中Nemobiinae的非单系性,并阐明了多个亚科的系统发育位置。根据最可靠的拓扑结构,分歧时间估计表明主要的分化事件始于早侏罗世,并在白垩纪加速,这与被子植物的兴起相吻合。总体而言,本研究为解决蟋蟀总科长期存在的系统发育争议提供了可靠的分子证据和进化时间尺度。我们的结果强调,稳健的系统发育推断需要整合和比较多个互补的数据集和分析方法。在此背景下,提出的“矩阵优化–模型比较–拓扑验证”框架为系统发育研究提供了可复制和可扩展的基础。

引言

系统发育学是理解生物多样性起源、构建分类框架和阐明进化机制的核心工具(Felsenstein, 2004, Morrison, 2013)。近年来,随着高通量测序技术的进步,基于分子数据的系统发育研究取得了显著进展。然而,传统的系统发育研究通常依赖于形态特征、线粒体基因组或有限的核基因片段,在解决深层系统发育关系和高级别节点时仍存在明显局限(Rokas et al., 2003, Morgan et al., 2014)。具体来说,这些局限表现为系统发育信号碎片化、节点支持度低以及对关键科级分类单元的数据缺失(Chintauan-Marquier et al., 2016, Sanno et al., 2021, Yu et al., 2024, Zheng et al., 2025a)。这些局限不仅限制了深层系统发育关系的解析,也阻碍了分类系统的重建和进化模式的理解。
蟋蟀总科(Gryllidea)是直翅目(Orthoptera)中的一个主要分支,广泛分布于全球各种陆地生态系统中,具有丰富的物种多样性、行为特征和生态适应性。迄今为止已记录了6,397种现存物种,约占所有已知直翅目物种的五分之一(Cigliano et al., 2025)。尽管蟋蟀总科在分类上已被提升到亚目级别,但其高级别的系统学问题仍存在大量争议——特别是其科级分类单元之间的系统发育关系。现有研究经常提出不同的系统学和系统发育关系。例如,Desutter-Grandcolas(1987)提出了一个包含三个超科的系统:Grylloidea、Gryllotalpoidea和Mogoplistoidea:其中Gryllotalpidae属于Gryllotalpoidea,Myrmecophilidae和Mogoplistidae属于Mogoplistoidea,其余分类单元属于Grylloidea。相比之下,Otte(1994)提出了一个不含超科的四科系统,包括Gryllidae、Gryllotalpidae、Mogoplistidae和Myrmecophilidae。更近期的分子研究提出了一个包含两个超科的框架(Chintauan-Marquier et al., 2016, Jing et al., 2025),承认Gryllotalpoidea(包括Gryllotalpidae和Myrmecophilidae)和Grylloidea(包括Mogoplistidae和Gryllidae)。然而,Mogoplistidae、Myrmecophilidae和Gryllotalpidae在各种分子系统发育研究中的位置各不相同(图1A)。一些分析支持Myrmecophilidae作为一个独立的分支,位于Mogoplistidae和Gryllotalpidae之间(Sanno et al., 2021, Shin et al., 2024, Yu et al., 2024, Jasso-Martínez et al., 2025),而其他研究则表明Myrmecophilidae和Mogoplistidae之间是姐妹关系(Song et al., 2015)。还有一些研究支持将Myrmecophilidae和Gryllotalpidae聚为一个分支(Chintauan-Marquier et al., 2016, Sanno et al., 2021, Jing et al., 2025)。Trigonidiidae、Oecanthidae和Gryllidae的系统位置在不同研究中也存在显著不一致(Song et al., 2015, Chintauan-Marquier et al., 2016, Shin et al., 2024, Yu et al., 2024, Jasso-Martínez et al., 2025)。此外,当前研究对某些亚科的系统位置也存在显著分歧和不确定性(图1B–D),例如Gryllidae和Nemobiinae是否各自代表单系群(即Pentacentrinae是否属于Gryllidae以及Marinemobiini是否属于Nemobiinae)(Zheng et al., 2025b)。这些争议部分源于蟋蟀分类单元的高度形态趋同性和强烈的进化可塑性,使得形态分类变得具有挑战性(Gray, 2011, Bailey et al., 2019, Song et al., 2020, Zheng et al., 2025a)。这些问题也主要与现有分子数据的覆盖范围和采样限制有关。
在这种情况下,通用单拷贝直系同源基因(USCOs)被认为是解决这些挑战的关键突破。USCOs是从OrthoDB直系同源基因组中筛选出来的,这些直系同源基因在至少90%的物种中存在单拷贝形式,对于推断物种系统发育的基础尤为重要(Rannala & Yang, 2020)。与线粒体基因或少数核基因片段相比,USCO基因具有高度保守性、广泛的分布、稳定的拷贝数以及较低的复制或丢失风险(Rokas et al., 2003, Waterhouse et al., 2018)。近年来,它们被广泛用于重建不同分类单元的中高级别系统发育树,表现出出色的解析能力和统计支持,特别是在阐明深层系统发育关系方面(Zhang et al., 2022, Lai et al., 2025, Zhang et al., 2025)。
本研究旨在应用并系统评估一种基于USCO的集成系统发育工作流程,包括基因组组装和USCO提取、数据集构建、系统发育分析、拓扑测试和分歧时间估计。通过这一流程,我们解决了蟋蟀总科内主要科级分类单元之间的高级别系统发育关系,构建了一个稳健的科级骨架树,为解决长期存在的争议节点提供了数据支持。更重要的是,该工作流程展示了可复制性和通用性,为其他复杂分类单元的系统发育研究提供了参考和实用指南。

分析框架概述

为了解决蟋蟀总科内高级别系统发育关系的长期争议,我们设计并实现了一个以USCOs为中心的系统发育重建工作流程(图2)。该流程包括数据获取和低覆盖率基因组组装、USCO提取和矩阵优化、组成异质性控制、系统发育推断和模型比较、拓扑一致性测试以及分歧时间校准等模块。

数据恢复和基因组完整性

为了验证低覆盖率基因组在USCO系统发育研究中的可行性,我们组装并评估了九个蟋蟀科(Gryllidae)的代表性物种(表S1)。BUSCO分析显示,大多数样本恢复了arthropoda_odb10数据库中50–95%的单拷贝直系同源基因。总共成功提取了1,012个直系同源基因,形成了包含1,014,681个核苷酸位点和333,326个氨基酸位点的数据矩阵。

讨论

本研究应用并系统评估了一种以通用单拷贝直系同源基因(USCOs)为中心的集成系统发育分析工作流程,旨在通过方法创新解决蟋蟀总科内长期存在的系统发育争议。该流程整合了多个模块,包括低覆盖率基因组组装、USCO提取、多维矩阵优化、多模型比较推断、拓扑冲突统计测试和分歧时间估计。

未引用的参考文献

Xu et al., 2020, Yuan et al., 2022.

CRediT作者贡献声明

郑彦娜:撰写 – 审稿与编辑、可视化、验证、方法学、正式分析、数据管理。马立斌:撰写 – 审稿与编辑、验证、资源管理、项目管理、资金获取。黄圆:撰写 – 审稿与编辑、验证、监督、资源管理、项目管理、方法学、资金获取、概念构思。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

致谢

本工作得到了中国国家自然科学基金(资助编号:31872217、32070474、31750002)以及陕西省自然科学基础研究计划(项目编号:2023-JC QN-0210)的支持。感谢Rui Wang、Siying Guo、Yinqi Cheng、Qian Yang、Yang Zheng、Yufei Wang、Wenxin Jia等人在蟋蟀线条绘制方面的协助。我们衷心感谢南京农业大学的Feng Zhang教授。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号