使用牛津纳米孔测序技术在基于图形用户界面的Galaxy平台上进行优化的全新组装(De Novo Assembly):准确检测流感嗜血杆菌(Haemophilus influenzae)的MLST(多位点序列分型)突变、PBP3基因突变以及实现系统发育聚类分析

《Diagnostic Microbiology and Infectious Disease》:Optimized De Novo Assembly of Haemophilus influenzae Using Oxford Nanopore Sequencing without Short-Read Data on a Graphical User Interface-Based Galaxy Platform: Accurate Detection of MLST, PBP3 Mutations, and Phylogenetic Clustering

【字体: 时间:2026年02月20日 来源:Diagnostic Microbiology and Infectious Disease 1.8

编辑推荐:

  牛津纳米孔测序通过图形用户界面(Galaxy平台)优化实现嗜血杆菌属全基因组无短读测序组装,验证R10.4.1流细胞与Dorado超准基调用结合质量阈值≥10、飞马组装及Medaka polished模式可达到0.0007%误差率,MLST分型与PBP3基因突变检测与杂交组装完全一致。

  
中村昭宏|小野智敏|小松正
日本天理大学保健学院临床实验室科学系,天理

摘要

牛津纳米孔测序技术能够实现快速、长读长且成本效益高的细菌基因组分析;然而,由于历史上较高的错误率以及对命令行界面(CLI)工作流程的依赖,其在临床实验室中的应用受到限制。
我们使用开源的Galaxy平台(usegalaxy.eu)优化了一个完全基于图形用户界面(GUI)的工作流程,仅利用纳米孔数据对流感嗜血杆菌基因组进行从头组装,无需短读长校正。十六个菌株在MinION Mk1B仪器上使用R9.4.1和R10.4.1流式细胞器进行了测序。在Galaxy中系统地评估了读长修剪、过滤、组装和 polishing等步骤。通过SNP和插入/缺失(Indel)计数、多位点序列分型(MLST)、青霉素结合蛋白3(PBP3)突变检测以及系统发育聚类等方法评估了组装准确性。
使用R10.4.1、Dorado超级精确(SUP)碱基调用算法、≥1 kb的读长过滤、质量分数≥10以及结合细菌甲基化模型的Medaka polishing算法时,获得了最佳性能。在这些条件下,错误率为0.0007%,MLST和PBP3突变检测与混合组装结果完全一致,系统发育聚类也完全吻合。在THUN1414菌株的亚采样分析中,100倍的覆盖度足以保持这种准确性。相比之下,R9.4.1的错误率为0.1989%,且结果不完全一致。R9.4.1数据中包含更多的Indel,尤其是在重复序列中;而R10.4.1数据则表现出更多的残留SNP差异,大多数剩余的差异集中在同聚物区域或其他低复杂性区域。
本研究提供了基于完全GUI的纳米孔测序细菌组装工作流程的概念验证,并强调了其更广泛应用和未来多中心验证的关键考虑因素。

引言

全基因组测序已成为微生物基因组学的基石,能够进行高分辨率的流行病学研究、抗菌素耐药性监测和进化研究[1,2]。像Illumina这样的短读长下一代测序平台虽然具有出色的碱基调用准确性,但在覆盖重复区域和解析大型结构变异方面存在局限性,这限制了完整基因组的重建[3]。2012年推出的便携式MinION设备使牛津纳米孔测序技术实现了实时、长读长的测序,且成本相对较低。其长读长特性有助于在存在复杂重复序列的情况下组装完整的细菌和质粒基因组[4,5]。
然而,早期的纳米孔测序错误率较高(约3-4%),主要是插入和缺失(Indels),尤其是在同聚物区域[6,7],这导致了混合组装策略的广泛应用,即结合纳米孔长读长和Illumina短读长数据[8,9]。最近在纳米孔测序化学、碱基调用算法和 polishing工具方面的进展显著提高了每次测序的准确性。特别是R10.4.1流式细胞器结合SQK-LSK114文库制备试剂盒和Dorado碱基调用算法,可以实现平均Q分数超过10(约99%的碱基准确性),多项研究仅使用纳米孔数据就完成了细菌基因组的组装,共识准确性超过99.99%[10,11]。
最近使用最新的R10.4.1化学技术和Dorado超级精确(SUP)碱基调用算法的研究进一步提高了测序准确性和物种特异性错误校正,包括增强了同聚物区域的分辨率并减少了系统性错误。这些研究报道了单核细胞增生李斯特菌的多位点序列分型(MLST)准确率超过99.97%,以及使用Dorado算法对粪肠球菌金黄色葡萄球菌的基因组组装实现了超过99.99%的共识准确性[12,13]。另有研究表明,仅使用R10.4.1读长组装的肺炎克雷伯菌百日咳博德特氏菌基因组可以达到Q50–Q55的质量水平,与Illumina参考结果相当[14],并且在抗菌素耐药性生物体中可以实现可靠的单核苷酸多态性(SNP)级别的区分[15]。这些证据表明,纳米孔测序的准确性和错误特征受到物种特异性因素的影响,如GC含量、重复序列组成和DNA甲基化状态,强调了针对特定病原体进行评估的必要性。
因此,要实现准确的仅基于纳米孔测序的从头组装,需要仔细优化读长预处理参数、组装算法和 polishing策略。对于细菌基因组,Flye和Raven等组装工具已显示出与纳米孔数据的良好兼容性,而Medaka等 polishing工具可以纠正系统性测序错误,生成的组装结果与基于Illumina的参考结果相当[16,17]。尽管如此,大多数先前的基准研究依赖于命令行界面(CLI)工作流程,虽然功能强大,但需要编程知识,可能限制了可重复性。开源的Galaxy平台(https://usegalaxy.eu)提供了一个基于图形用户界面(GUI)的工作流程,集成了Porechop、Filtlong、Flye和Medaka等关键生物信息学工具。Galaxy会自动记录工具版本和参数,确保透明性并便于无需CLI的工作流程的可重复分析——这对于缺乏专业生物信息学人员的临床微生物实验室来说是一个优势。
准确表征流感嗜血杆菌的基因组需要在其关键分析终点(包括MLST、系统发育聚类和临床相关耐药性决定因子的检测)上表现出可靠的性能。MLST提供了标准化的菌株级特征描述,而系统发育聚类则能够实现高分辨率的遗传相关性评估。此外,β-内酰胺类抗生素的敏感性受到编码ftsI基因的青霉素结合蛋白3(PBP3)突变的影响;D350N、S357N、S385T、L389F和V562L等替换突变会降低β-内酰胺类抗生素的亲和力,从而降低对氨苄西林和头孢菌素的敏感性[18]。这些指标共同构成了评估仅基于纳米孔测序的基因组组装准确性的关键要素。
在这项研究中,我们优化并验证了一个基于Galaxy的工作流程,用于仅使用纳米孔数据对流感嗜血杆菌进行从头组装,无需短读长数据。通过使用R10.4.1流式细胞器、Dorado SUP碱基调用算法和结合细菌甲基化模型的Medaka polishing算法,我们通过与高精度混合组装结果进行对比来评估组装准确性。

章节片段

细菌分离株和鉴定

本研究分析了16株流感嗜血杆菌临床分离株。所有分离株均来自2018至2020年间日本近畿地区七家医疗机构中患有侵袭性流感嗜血杆菌感染的患者。物种鉴定使用MALDI Biotyper(Bruker Daltonics,不来梅,德国)完成,并通过全基因组测序和混合组装进行确认,随后使用SpeciesFinder 2.0软件(//cge.food.dtu.dk/services/SpeciesFinder/)进行物种确认。

测序数据总结

测序数据总结见补充表S1。Illumina测序每株分离株产生206万至310万条读长(2×150 bp),总计3.08至4.66 Mb,其中93.9–94.4%的读长质量分数(Q30)≥10,覆盖度为163–245倍。
使用R9.4.1流式细胞器的纳米孔测序每株分离株产生5,729至38,299条读长(平均读长10.5–12.6 kb;N50值为10.9–12.8 kb;平均Q分数为10.2–10.7),总计63–450 Mb,覆盖度为34–234倍。

讨论

本研究评估了在Galaxy平台上使用完全基于GUI的工作流程进行仅基于纳米孔测序的流感嗜血杆菌从头组装的可行性和准确性。通过系统比较测序化学和碱基调用模式,我们证明了碱基调用准确性(而非单纯的测序深度)是决定组装质量和下游分析性能的主要因素。
先前的研究已经证明,仅使用纳米孔测序也可以生成

作者声明

实验设计和构思:A. N. 和 M. K. 全基因组测序:A. N. 分子分析:A. N. 和 T. O. 数据分析:A. N. 和 T. O. 手稿撰写:A. N. 严格审阅和最终批准:所有作者。
0_原始文章_MinION从头组装_DMID_COI
作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。

资金信息

本研究得到了内部资金的支持。

CRediT作者贡献声明

中村昭宏:撰写——原始草稿、验证、软件开发、项目管理、方法论、实验设计、数据分析、概念化。小野智敏:撰写——审阅与编辑、可视化、验证、监督、资源协调、方法论、数据分析、概念化。小松正:撰写——审阅与编辑、资源协调、资金获取、概念化。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号