CtGAP 2.0:改进的衣原体(Chlamydia trachomatis)基因组组装技术、菌株鉴定能力及系统基因组学分析
《Microbiology Resource Announcements》:CtGAP 2.0: enhanced genome assembly, strain resolution, and phylogenomics for Chlamydia trachomatis
【字体:
大
中
小
】
时间:2026年02月25日
来源:Microbiology Resource Announcements 0.6
编辑推荐:
沙眼衣原体基因组组装流程CtGAP 2.0实现无缝安装与命令行界面优化,新增自动质量评分系统选择最佳组装,整合染色体与质粒分型及系统发育分析,支持多参考比对与混合菌株检测。
摘要
我们推出了 Chlamydia trachomatis 基因组组装流程(CtGAP)2.0,这是一个改进版的CtGAP。它提供了无缝的安装流程(无需多个独立工具),简化了命令行界面,引入了自动组装质量评分和选择功能以支持后续分析,并整合了染色体和质粒的类型鉴定以及系统基因组学分析。
公告
Chlamydia trachomatis(简称
Ct)是一种全球范围内重要的细菌病原体,是全球细菌性性传播疾病和传染性失明的主要原因(
1)。此前,我们发布了CtGAP(
2),这是一个自动化处理
Ct 基因组组装、基因分型和系统基因组学的工具。该工具可以接受双端读取数据,并通过
de novo 或参考基因组指导的方法进行质量控制、宿主基因清除和组装。用户也可以选择同时运行这两种方法,并手动检查输出结果,以选择最适合后续分析的组装结果。CtGAP 已成功用于组装和表征
Ct 基因组、进行
ompA 基因分型、基因组骨架和多位点序列分型(MLST)、质粒检测以及系统基因组学分析(
2)。
公告
Chlamydia trachomatis(简称
Ct)是一种全球范围内重要的细菌病原体,是全球细菌性性传播疾病和传染性失明的主要原因(
1)。此前,我们发布了CtGAP(
2),这是一个自动化处理
Ct 基因组组装、基因分型和系统基因组学的工具。该工具可以接受双端读取数据,并通过
de novo 或参考基因组指导的方法进行质量控制、宿主基因清除和组装。用户也可以选择同时运行这两种方法,并手动检查输出结果,以选择最适合后续分析的组装结果。CtGAP 已成功用于组装和表征
Ct 基因组、进行
ompA 基因分型、基因组骨架和多位点序列分型(MLST)、质粒检测以及系统基因组学分析(
2)。
CtGAP 2.0 在架构上进行了显著改进,并更新了相关工具。改进包括:简化了命令行界面,允许用户选择组装模式和参考基因组(
图 1);实现了无缝安装流程,无需多个独立工具;以及引入了自动组装质量评分和选择系统,解决了细菌基因组学中的一个关键问题:确定哪种组装方法能为给定样本产生更好的结果。在“自动”模式下,CtGAP 2.0 会同时执行
de novo 和参考基因组指导的组装,然后根据综合质量评分(包括 N
50、contig 数量、总组装长度和 GC 含量)自动选择最佳组装结果。该评分系统针对
Ct 的基因组特征进行了校准(1.04 Mb 的染色体,约 41% 的 GC 含量,理想情况下 1–2 个 contig 代表染色体,约 7.5 Mb 的质粒)。最佳组装结果将自动用于所有后续分析。组装模式框架也得到了简化。原来的“同时”模式会分别执行
de novo 和参考基因组指导的组装并分别进行分析,现在被“自动”模式取代,后者避免了重复工作,并通过评分框架提供了质量比较功能。用户仍然可以根据具体需求选择模式,或对评分框架进行编辑以满足自己的组装需求。这一架构变化要求对整个工作流程进行模块化处理,提高了可维护性,并为未来的扩展提供了便利。
图 1 CtGAP 2.0 命令行界面。[REF] 可以替换为“resources/references/ct”中列出的任何 Ct 参考菌株的基因组名称(例如 E_bour)。
其他更新包括通过平均核苷酸身份(ANI)和 Mash 距离计算来整合
Ct 菌株的类型鉴定,以便将组装后的基因组与包含 26 个
Ct 参考菌株的数据库进行比较。该系统采用了两种方法的共识算法:fastANI 提供高分辨率的物种级比较(
3),而 Mash 提供快速的 k-mer 基础距离估计(
4)。CtGAP 2.0 还通过两步法扩展了
ompA 基因分型功能。首先被识别为眼部菌株一部分的基因型会进一步与扩展的手动整理的
ompA 基因型进行比对,从而更好地表征特定菌株之间的
ompA 多样性。新增了一个质粒分析模块,可进行专门的组装和质量检查、针对手动整理的质粒序列的 BLAST 分析以及 MLST 分型。
表 1 展示了 CtGAP 2.0 中新增功能的概览。
表 1 显示了 CtGAP 和 CtGAP 2.0 在关键功能上的改进之处(已加下划线标出)
| 功能 |
CtGAP |
CtGAP 2.0 |
| 安装 |
克隆仓库 + 单独下载数据库 |
克隆仓库(包含所有数据库) |
| 数据库 |
手动下载宿主基因组、Kraken2 数据库和 Ct 参考基因组 |
随软件包一起预装 |
| 设置 |
手动配置 conda 环境 + 路径 导出文件 + 依赖项 构建 |
ctgap 设置(自动化,一个命令即可完成) |
| 用户界面 |
snakemake -j n --use-conda -k |
ctgap 运行(带有直观的参数选项) |
| 命令行界面 |
需要编辑配置文件 |
CLI 参数:--denovo, --ref-guided, --auto |
| 组装模式 |
de novo, 参考基因组指导的组装, 同时执行 |
de novo, 参考基因组指导的组装, 以及自动模式 |
| 默认模式 |
de novo(需要手动选择) |
自动模式(同时执行两种方式并选择最佳结果)
| 组装结果选择 |
不可用 |
基于质量的自动评分(N50、contig 数量、长度和 GC%)
| 组装评分 |
不可用 |
综合评分(0–100 分,包含详细指标)
| 选择透明度 |
不可用 |
提供每个样本的报告,包含评分、指标和理由
| 组装过滤 |
不可用 |
基于 minimap2 的 contig 过滤(排除非 Ct 成分)
| 间隙报告 |
不可用 |
报告主 contig 中的 Ns 含量
| 工作流程架构 |
混合组装和类型鉴定规则 |
模块化设计:独立的组装、选择和类型鉴定模块
| Ct 菌株类型鉴定 |
不可用(需要单独的流程) |
整合了 ANI 和 Mash(针对整个基因组)
| 混合菌株检测 |
不可用 |
杂合位点分析(用于识别潜在混合菌株)
| 基因分型 |
BLAST(ompA)、MLST(质粒、染色体) |
BLAST(ompA, 质粒)、MLST(质粒、染色体) |
| 基因组注释 |
不可用 |
基于 90% 覆盖率的 Bakta 注释
| 质粒模块 |
不可用 |
全面的功能
| 组装报告 |
每种模式的 QUAST 报告 |
每种模式 + 选择理由 + 统计摘要 |
| 输出组织 |
扁平结构 |
按样本、报告、结果和系统发育关系组织
| 可重复性 |
取决于版本(用户下载情况) |
使用固定数据库版本时完全可重复
| 文档 |
GitHub 上的 README 文件 |
全面:包含 README、帮助系统和内联文档
a
C 列中加下划线的文本表示 CtGAP 2.0 相较于之前的版本(B 列)新增的功能。
CtGAP 2.0 用 Python 实现,并作为 Snakemake 工作流程分发,具备完整的 conda 环境管理功能,可通过 conda/mamba 自动处理依赖项的安装。安装说明和文档可在
https://github.com/D-Dean-Lab/CtGAP/tree/main 获取。
致谢
本项目得到了美国国家过敏和传染病研究所(National Institutes of Allergy and Infectious Diseases)的资助(项目编号:R01AI151075 和 R01AI158527,资助对象为 D.D. 和 T.D.R.)
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号