MALDI-TOF MS联合全基因组测序用于沙门氏菌分子分型的综合分析与机器学习策略

《Frontiers in Microbiology》:Integrated analysis of MALDI-TOF MS and whole-genome sequencing for subtyping Salmonella

【字体: 时间:2026年03月10日 来源:Frontiers in Microbiology 4.5

编辑推荐:

  本文综述了一项创新性研究,该研究整合了基质辅助激光解吸电离飞行时间质谱(MALDI-TOF MS)与全基因组测序(WGS)技术,通过机器学习模型(如稀疏逻辑回归)和峰-基因共现分析,成功构建了沙门氏菌(Salmonella)的高效分子分型与快速筛查策略。该方法不仅能以高AUC值区分主要血清型和序列型(如鼠伤寒沙门氏菌、ST19、ST11等),还将关键质谱峰与特定的基因组特征(如噬菌体相关基因、代谢基因等)进行了关联,从而揭示了质谱分型的基因组学基础。其研究意义在于为常规诊断和疫情监测提供了一种成本低廉、高通量的前期筛查工具,可作为WGS的“预过滤器”,精准聚焦高风险克隆,加速食源性疾病暴发调查的响应速度。

引言:食源性疾病监测的精准需求
非伤寒沙门氏菌是全球食源性疾病的主要病原体之一,其中少数优势血清型和谱系(如鼠伤寒沙门氏菌、肠炎沙门氏菌)导致了大部分人类严重感染。快速、准确地鉴别这些流行病学相关的高风险克隆,对于疫情应对至关重要。传统的血清分型方法(Kauffmann-White方案)依赖表型,操作繁琐且成本高昂。分子分型方法如MLST和PFGE提高了分辨率,而全基因组测序(WGS)已成为系统发育分析的“金标准”,但其资源密集和生物信息学分析复杂的特性,限制了其在常规一线实验室中的应用。因此,迫切需要一种快速、经济高效的工具来实现精确的沙门氏菌分型。基质辅助激光解吸电离飞行时间质谱(MALDI-TOF MS)已成为物种鉴定的标准方法,尽管传统上被认为不适用于亚型分型,但近期研究表明,其光谱的细微差异可以区分部分沙门氏菌血清型。然而,此前研究多集中于光谱分类,而区分性质谱峰与谱系特异性基因组特征之间的统计学关联仍未阐明。这限制了MALDI-TOF MS在揭示流行病学重要谱系特定遗传决定因素方面的分辨率。为突破此局限,本研究建立了一种机器学习策略,不仅能进行快速分型,还能通过峰-基因共现分析,将区分性质谱峰映射到特定的基因组基因集上,使其成为指导高风险分离株进行靶向WGS的快速筛查工具。
材料与方法:多组学整合分析流程
本研究对2023至2024年间从中国江苏省宜兴市收集的96株沙门氏菌分离株进行了分析,其中包括46株来自食源性腹泻门诊患者,50株来自健康携带者的常规粪便筛查。所有分离株均进行了血清分型、全基因组测序(WGS)和MALDI-TOF MS谱图分析。
实验流程如图所示,从样本采集开始,分离株同步进行WGS和MALDI-TOF MS分析。WGS使用DNBSEQ-T7平台进行PE150测序,数据经质控、组装和注释,用于MLST分型、抗菌素耐药基因和毒力因子鉴定。MALDI-TOF MS使用EXS1600系统采集谱图,经过预处理、峰提取和峰对齐,构建特征矩阵。随后,将MALDI-TOF MS特征峰与对应的基因组数据通过分离株标识进行匹配,构建统一的特征矩阵,用于机器学习模型构建。
机器学习模型采用带L1正则化的稀疏逻辑回归,以执行三类“一对多”分类任务:样本来源(腹泻患者 vs. 健康携带者)、主要血清型、主要序列型。通过L1惩罚实现特征选择,并采用阈值移动策略以优先保证灵敏度。模型性能通过分层5折交叉验证进行评估,使用AUC、灵敏度和特异性进行量化。通过优化的逻辑回归模型,可以识别出具有非零系数的区分性质谱峰,并根据其系数绝对值计算重要性指数。
为进一步阐明质谱特征的基因组关联,研究整合了MALDI-TOF MS数据与WGS结果。对质谱峰强度进行二值化处理后,通过Phi系数和卡方检验(经FDR校正)分析其与基因存在/缺失模式的统计学关联。显著的峰-基因共现模式被可视化展示。
结果
1. 沙门氏菌分离株的血清型与序列型分布
96株分离株被鉴定为25种血清型,其中鼠伤寒沙门氏菌占主导地位(42.7%),其次是肠炎沙氏菌和伦敦沙门氏菌(各占9.4%)。MLST分析将分离株归入21个序列型,ST19最为常见(26.0%),其次是ST34、ST11、ST155和ST358。
2. 系统发育结构与耐药、毒力基因分布
基于核心基因组构建的系统发育树显示,ST19、ST34、ST11和ST155各自形成独立的聚类簇。在ST19簇中,68.0%的分离株来源于腹泻患者,而在ST155簇中,仅有12.5%来源于患者。耐药基因检测显示,平均每个分离株携带26.2 ± 1.1个耐药基因,其中绝大多数为固有耐药基因,获得性可移动耐药基因较为少见。毒力基因平均数量为103.5 ± 4.2个,以核心毒力基因(如SPI-1、SPI-2、菌毛簇等)为主,可变的噬菌体相关基因则具有谱系特异性且数量有限。
3. 不同亚型间区分性MALDI-TOF MS特征的识别
基于多任务分类分析,识别出前40个峰为主要区分性特征。热图分析显示,相同ST的分离株其MALDI-TOF MS光谱指纹高度保守,而不同的ST则表现出明显的峰模式差异。某些峰在特定ST中表现为连续的高强度条带,例如m/z 3020.0和6037.0是ST11的特征,m/z 7099.4与ST19和ST34相关,m/z 6286.8为ST40所独有,而m/z 8448.6则仅出现在ST358和ST155等少数ST中。
4. 基于MALDI-TOF MS的分类模型性能评估
样本来源分类模型取得了优异的AUC值(0.970)和灵敏度(97.8%)。在血清型识别中,对优势血清型鼠伤寒沙门氏菌的预测性能良好(AUC 0.945),而对罕见血清型(如伦敦沙门氏菌、肠炎沙门氏菌、德比沙门氏菌)的预测准确性则较为有限。在序列型预测层面,模型表现最佳,ST11和ST155均达到了完美的分类效果(AUC 1.000,灵敏度100%),ST19和ST34也表现出很强的区分潜力(AUC分别为0.962和0.926)。而ST358由于阳性样本数有限,性能相对一般。
5. MALDI-TOF MS特征峰与基因组注释的关联
通过关联分析,研究者将关键质谱峰与特定基因建立了联系。例如,对于ST11,关键峰m/z 3020.0和6037.0与噬菌体整合酶intA、缺陷蛋白intQ、L-鼠李糖质子同向转运蛋白rhaT和重组相关蛋白rdgC显著相关。对于德比沙门氏菌,标志性峰m/z 6286.8与D-阿拉伯糖醇磷酸脱氢酶、木酮糖激酶xylB、甘露糖基-D-甘油酸转运/代谢系统阻遏蛋白mngR等多个代谢基因相关。对于鼠伤寒沙门氏菌和ST19,关键峰m/z 7099.4与intA、分子伴侣蛋白caf1M、草酰乙酸脱羧酶γ亚基oadG、噬菌体尾丝组装蛋白tfaE、内切核糖核酸酶symE等基因显著关联。此外,峰m/z 8448.6和4909.1均与酪氨酸重组酶xerC、I型限制酶特异性蛋白hsdS、麦芽糖调节子调节蛋白malI、DNA损伤诱导蛋白dinI等基因存在显著关联。
讨论
本研究整合MALDI-TOF MS与WGS,揭示了江苏宜兴地区沙门氏菌的分子流行病学特征,优势谱系与国内主要流行谱系一致。基于机器学习的MALDI-TOF MS模型能够有效区分主要沙门氏菌血清型和序列型,特别是对优势亚型(如鼠伤寒沙门氏菌、ST19、ST34、ST11、ST155)具有高诊断准确性,其光谱表型显示出与MLST相当的系统发育分辨率。通过峰-基因关联分析,研究证实了区分性质谱峰是相应亚型独特基因组集合的统计学指标。例如,ST11的标志性峰m/z 6037.0和3020.0关联了其特有的基因集(intA, intQ等);德比沙门氏菌的特征峰m/z 6286.8则指向了其独特的代谢基因集合,这与其已知的特定底物利用表型相吻合;鼠伤寒沙门氏菌的关键峰m/z 7099.4关联的基因多与噬菌体编码的毒力决定簇和粘附结构相关,解释了该谱系的高致病性。这些发现表明,MALDI-TOF MS的预测能力源于沙门氏菌固有的系统发育结构,其光谱差异反映了深层次的基因组学差异。因此,该方法可作为常规诊断中高效的谱系鉴定筛查工具,作为WGS的“预过滤器”,将测序资源集中用于高风险克隆,从而加速疫情调查。当然,本研究也存在样本量和地域来源有限、对罕见血清型灵敏度不足等局限性,且未对区分性峰的精确分子身份进行蛋白质组学鉴定,这些是未来研究可以改进的方向。
结论
本研究证明了整合MALDI-TOF MS光谱分析与WGS在快速表征沙门氏菌谱系方面的有效性。机器学习分析证实,光谱表型具有与MLST相当的系统发育分辨率。将光谱特征与基因组注释相关联,揭示了MALDI-TOF MS的预测能力源于沙门氏菌固有的系统发育结构。尽管当前WGS方法仍是系统发育分析的黄金标准,但这些发现表明,MALDI-TOF MS可以作为常规诊断中用于快速谱系鉴定的高效筛查工具。本研究实现了一种高通量筛查方法,其中MALDI-TOF MS充当“预过滤器”,将WGS工作重点集中在高风险克隆上,以加速疫情暴发调查。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号