《Natural Sciences》:A Targeted BLAST-CAP3 Workflow for Rapid and Reproducible Mitochondrial Gene Assembly From Public Transcriptomes: Acheta domesticus as a Model
编辑推荐:
这篇研究论文提出了一种快速、可重复的转录组学管线,用于从公共RNA测序(RNA-seq)数据中高效组装线粒体标记基因。该工作流通过靶向BLAST筛选和CAP3从头组装,成功从7个家蟋蟀(A. domesticus)公共转录组数据集中提取并组装出完整或近全长细胞色素c氧化酶I亚基(COX1)基因。验证结果表明,组装序列与参考基因(COX1)具有100%的核苷酸覆盖率和序列一致性。该方法避免了传统实验室工作,为物种鉴定、系统发育学和生态学应用提供了一种节省成本的分子标记获取途径。
引言
线粒体基因组是现代生物学研究中重要的分子标记,特别是在动物系统学、系统发育研究、生物地理学和昆虫群体遗传学中。在13个线粒体蛋白编码基因中,细胞色素c氧化酶I亚基(cytochrome c oxidase subunit I, COX1)基因已成为动物物种鉴定的“金标准”,其一个短片段可作为通用动物“条形码”区域,用于可靠的物种水平鉴定和初步系统发育定位。传统的DNA提取、PCR扩增或基因组浅层测序(genome skimming)方法耗时且耗费资源。然而,公共测序库(如NCBI序列读取档案,Sequence Read Archive, SRA)中存储的大量真核生物转录组数据,为从计算层面获取基因序列提供了前所未有的机会,这些数据原本用于研究核基因表达模式,但在细胞器基因组学中未得到充分利用。本研究以家蟋蟀(Acheta domesticus)为模型,利用其已发表的完整线粒体基因组(GenBank登录号OK504623.1)作为参考,开发和展示了一种能够快速(约1小时/数据集)从公共转录组数据中检索和组装线粒体COX1基因的简化生物信息学流程。
材料与方法
2.1 参考序列准备
从先前已注释的A. domesticus线粒体基因组(OK504623.1)中获取1531 bp的参考COX1基因序列,作为靶向读取检索和后续组装验证的主要查询模板。
2.2 转录组数据源识别
通过系统搜索NCBI SRA,筛选出七个代表A. domesticus不同发育阶段的高质量RNA-seq数据集(SRR7692599–SRR7692605)。
2.3 靶向读取检索
采用靶向读取检索策略以减少计算负担。将A. domesticusCOX1参考序列提交至NCBI BLASTN,搜索参数设定为最大化敏感性和覆盖度(最大目标序列5000,每查询范围最大目标20,字大小16),以检索与COX1基因具有高度相似性的转录组读段,并将其下载为FASTA格式。
2.4 从头序列组装
检索到的COX1相关读段在Galaxy Europe服务器上使用CAP3序列组装程序进行从头组装。参数设定为:重叠长度截止值40 bp,重叠百分比一致性截止值90%。组装输出结果进行检查,并保留对应于COX1的contig。
2.5 组装质量评估与一致性验证
作为质量控制步骤,首先使用ClustalW对七个数据集中组装的所有COX1contig进行多序列比对,以评估组装一致性。之后,每个组装的contig通过BLASTN查询NCBI核苷酸数据库(nr/nt),以确认其线粒体来源和物种身份。
2.6 跨物种稳健性评估
为评估工作流在不同物种间的稳健性,该流程还应用于另外两种蟋蟀Gryllus bimaculatus(SRA: SRR35994660)和Gryllodes sigillatus(SRA: SRR28734870)的公共RNA-seq数据集。此外,还使用了G. bimaculatus的全基因组测序运行(SRR35113092)作为独立数据集进行验证。所有操作步骤均使用与A. domesticus相同的参数。
结果
3.1 靶向读段提取与从头组装
使用1531 bp的参考序列对七个A. domesticus转录组数据集进行BLAST查询,在所有运行中成功检索到总共1406个高置信度读段,平均每个数据集检索到200.9 ± 11.8个读段。BLAST比对可视化()显示了读段在整个基因长度上的全面覆盖,为稳健的从头组装提供了足够的冗余度。CAP3组装产生了单个contig,其长度在1545至1784 bp之间(平均1646.4 ± 83.9 bp),覆盖了参考序列的100.9%至116.5%()。大于100%的覆盖度可能是由于转录组数据中包含了部分UTR(Untranslated Region,非翻译区)区域。
3.2 初步组装验证
ClustalW多序列比对显示,在方向校正后,七个contig与参考COX1编码序列在整个1531 bp区域上实现了100%的核苷酸一致性,确认了组装的准确性。其中一个数据集(SRR7692599)的contig最初为反向方向,经过反向互补校正后与其他序列完全一致。
3.3 数据库验证
每个组装contig的独立BLASTN分析结果均显示,与参考A. domesticusCOX1基因(OK504623.1)具有100%的序列一致性。在所有BLAST结果的top hits中,均未观察到脱靶线粒体基因或核线粒体假基因(Nuclear Mitochondrial Pseudogene, NUMT)的匹配,证明了该靶向方法的高特异性。
3.4 跨物种组装验证
将相同的工作流应用于G. bimaculatus和G. sigillatus的转录组数据,以及G. bimaculatus的全基因组测序数据,均成功组装出了近全长的COX1contig,并通过ClustalW比对和BLAST验证确认了与各自参考序列在重叠区域的高度一致性。这进一步验证了该流程在不同物种和测序数据类型(转录组与全基因组)中的稳健性和可移植性。
讨论
4.1 方法与效率
靶向BLAST过滤策略表现出色,从数百万转录组读段中高效筛选出数百个基因特异性序列。每个数据集平均稳定检索到约200个COX1相关读段,表明该方法在不同发育阶段的数据中具有良好的可重复性。CAP3组装成功产生了覆盖完整编码区及部分侧翼序列的contig。工作流依赖网络工具(NCBI BLAST,Galaxy上的CAP3,ClustalW),消除了传统生物信息学分析的技术壁垒,使其无需命令行专业知识或特殊软件安装即可进行。整个流程(从BLAST读段提取到最终BLAST验证)每个数据集大约在1小时内完成,这得益于服务器端的BLAST读取提取以及从小规模输入集合进行的组装。
4.2 科学意义与应用
从现有A. domesticus转录组中成功挖掘出完整COX1序列,验证了基于转录组的线粒体基因挖掘既具有科学严谨性,又具有实际变革意义。该方法将现有转录组重新定义为标记发现的再生资源,推进了可扩展、低成本的分子系统学研究。与MITGARD或GetOrganelle等旨在重建整个细胞器基因组的全自动工具相比,本研究的基因中心方法优先考虑速度和简便性,特别适用于需要单个线粒体标记的应用场景。该方法的民主化意义深远,有潜力改变全球分子系统学的研究能力和科学公平性。其概念框架可自然扩展到从植物转录组中挖掘叶绿体基因、用于深度系统发育分析的核糖体RNA(rRNA)回收,甚至从宿主转录组中检测病原体序列。
结论
本研究成功地利用公开的A. domesticus转录组数据,通过一个简化的、靶向的生物信息学流程,高效、准确地组装了线粒体COX1基因。所有七个独立组装得到的contig与参考序列均显示出100%的核苷酸一致性,这证明了基于转录组的线粒体基因挖掘是科学严谨且具有实际应用价值的。该研究形式化了一个最小化的、经过验证的线粒体标记获取工作流,填补了全自动线粒体基因组重建与劳动密集型的湿实验室条形码技术之间的空白。通过重新利用现有转录组数据进行标记发现,该方法为可扩展、低成本的分子系统学、生态学、检疫和博物馆收藏标本的身份验证等应用提供了一条高效的途径。