《Journal of Proteome Research》:Toward Robust Machine Learning Models for MALDI-TOF MS: Novel Approaches for Mycobacterium abscessus Subspecies Identification
引言
自然界中,分枝杆菌广泛存在于土壤、水和灰尘等环境中。其中一些物种以其快速生长和在水中形成生物膜的能力而闻名。自21世纪初以来,由非结核分枝杆菌(NTM)引起的感染不断增加,导致发病率和死亡率升高。脓肿分枝杆菌是NTM家族的成员,其栖息地与人类活动区域重叠。临床上,它是肺部和皮肤感染的主要原因,尤其是在免疫功能低下的患者中。此外,它已成为囊性纤维化患者的重要病原体,导致全球感染率上升。这种快速生长的分枝杆菌由于其高抗生素耐药性,对医疗保健构成严重挑战,其耐药性通常由降解抗生素或改变其靶点的酶驱动。
脓肿分枝杆菌被分为三个亚种,构成所谓的脓肿分枝杆菌群:脓肿分枝杆菌脓肿亚种(M. abscessussubsp. abscessus)、脓肿分枝杆菌博莱蒂亚种(M. abscessussubsp. bolletii)和脓肿分枝杆菌马西里亚种(M. abscessussubsp. massiliense),下文分别简称为脓肿分枝杆菌(M. abscessus)、博莱蒂分枝杆菌(M. bolletii)和马西里分枝杆菌(M. massiliense)。这三个亚种在抗生素耐药机制上表现出显著差异。例如,脓肿分枝杆菌和博莱蒂分枝杆菌对多西环素耐药,尽管前者有时可以用克拉霉素治疗。相比之下,马西里分枝杆菌通常对这两种抗生素都敏感。由于这些差异,识别特定的亚种对于有效治疗至关重要。然而,传统方法通常无法区分密切相关的生物体,因为它们共享核糖体序列,尽管其他基因,如erm(41),可以成功区分它们。尽管分子方法具有更高的准确性,但由于成本较高和程序劳动密集,它们仍然未被充分利用。相比之下,基质辅助激光解吸/电离飞行时间质谱(MALDI-TOF MS)可以识别特征性蛋白质组谱,为临床应用提供了一种有前景的替代方案。
MALDI-TOF MS被广泛认为是一种快速且经济高效的细菌和真菌病原体识别工具,因为它能够分析蛋白质组信息以进行准确、及时的分析。尽管有这些优势,准确区分密切相关的亚种仍然具有挑战性。例如,传统的MALDI-TOF系统可以可靠地将脓肿分枝杆菌复合体鉴定到物种水平(log分数>2.0),但由于蛋白质组谱高度相似,无法区分亚种。为了克服这一限制,机器学习(ML)技术已成为一种有前景的策略,监督算法在足够多样化的数据集上展示了高分类准确性。然而,当验证数据来源于与训练集不同的来源或条件时,许多ML模型无法泛化,这凸显了对更稳健方法的需求。此外,整合来自多个实验室的MALDI-TOF MS数据通常会引入“批次效应”:与温度、湿度或提取方案差异相关的系统性变异。尽管批次效应校正技术在转录组学中已经成熟,包括在结核分枝杆菌或鸟分枝杆菌转录组数据中的应用,但它们在MALDI-TOF MS中的系统性使用仍然 largely unexplored。解决批次效应对于提高基于ML的分析的可靠性至关重要,并且符合旨在提高卫生技术相对于现有替代方案的效力、有效性和效率的新法规。除了批次效应,抗生素敏感性是一个潜在的混杂因素,当耐药性在不同亚种或批次之间分布不均时,可能会偏倚模型估计。
MALDI-TOF MS数据集也常常因其高维性(即每个光谱有数千个质荷比峰,跨越大量光谱)和显著的计算需求而具有挑战性。传统的特征选择方法,如顺序特征选择、“包装器”方法和基于随机森林(RF)的变量重要性,有助于减轻数据噪声。然而,先进的技术,如RF树,因其识别判别性特征的能力而受到关注。通过识别MALDI-TOF MS光谱中常见且具有生物学相关性的质量峰,先进的特征选择方法可以为区分密切相关的亚种提供创新的预处理解决方案。此外,许多MALDI-TOF MS数据集存在类别不平衡问题,少数亚种的代表性不足,无法训练稳健的预测模型。重采样方法,如合成少数类过采样技术(SMOTE)、随机过采样器(RandomOverSampler)、聚类中心(ClusterCentroids)和邻域清理规则(NeighborhoodCleaningRule),在其他领域已被证明是成功的,但在MALDI-TOF MS数据中仍未得到充分利用。通过整合批次效应校正、基于Boruta的特征选择和样本偏差策略(这些方法已在转录组数据中显示出分类准确性的显著提高),我们相信这些措施可以 substantially improve MALDI-TOF MS数据的分类准确性,从而实现更可靠的微生物诊断。基于这些概念,我们提出了一个用于MALDI-TOF MS数据的集成预处理流程,并将其应用于从九家欧洲医院收集的分枝杆菌数据集。我们的目标是开发一个稳健的机器学习分类模型,能够准确区分脓肿分枝杆菌、博莱蒂分枝杆菌和马西里分枝杆菌,从而为盲样样本的亚种水平分类提供一个概念验证。这种方法解决了当前MALDI-TOF MS工作流程中的关键挑战,并为在临床和研究环境中更广泛的应用奠定了基础。
材料与方法
数据集
我们的数据集包含325个脓肿分枝杆菌样本的光谱,这些样本收集自八家不同的欧洲医院。总共获得了325个光谱,每个光谱对应一个独特的菌株。对于每个菌株,光谱数据通过三次独立测量获得,每个菌株产生九个光谱。这些重复在预处理阶段随后被平均,以产生每个菌株的一个代表性光谱。
该数据集先前在HUGM收集并发表,可在Zenodo获取。批次分类标签是根据样本培养所在医院的城市/国家来源分配的。因此,我们将数据分为六个批次:马德里、巴塞罗那、挪威、法国、荷兰和比利时。此外,样本属于三个脓肿分枝杆菌亚种,每个亚种的光谱数量分别为156、53和116。在所有样本中,13个分离株(均来自HUGM医院)可获得克拉霉素(CLA)和阿米卡星(AMK)的敏感性数据。
MALDI-TOF质谱采集、处理和归一化
所有分离样本在37°C下培养4至7天。光谱使用Bruker Daltonics MBT Smart MALDI Biotyper在2000-20000 Da的质量范围内获取。使用Clover MS数据分析软件(Clover MSDAS)对光谱进行处理、分区、对齐和归一化。
初步光谱处理涉及方差稳定化(通过对强度值取平方根实现)、应用Savitzky-Golay滤波器进行平滑处理(窗口大小为11,多项式阶数为3)、使用Top-Hat滤波器去除基线(因子设为0.02)以及对每组重复计算平均光谱。
随后,80%的数据分配给模型开发,20%保留用于测试。通过分层确保随机抽样,因此每个分割都包含来自每个类别的足够代表性样本。数据分区在对齐和归一化之前进行,以保证获得独立的测试光谱而不是组合矩阵。同时对齐和归一化整个数据集将使测试样本的生物学信息影响训练数据。为了避免这个问题,我们划分了训练数据并分别处理每个测试样本。测试样本与训练矩阵一起对齐和归一化,从而保证峰数量一致,与训练矩阵和每个相应的测试样本一致。然后对每个测试样本执行该过程,导致所有测试光谱都相对于训练数据进行预处理,同时防止其他测试样本的交叉影响。
分区过程后,所有光谱通过应用稳健点匹配方法使用一组共同的峰进行对齐,依次应用2 Da的恒定容差、300 ppm的线性质量容差,并将质量光谱测量点分箱为0.5 Da的固定箱。光谱随后通过将每个光谱中的每个强度值除以总离子流(TIC)进行归一化,该技术称为总离子流(TIC)归一化。
MALDI-TOF谱图中地理影响的批次效应的协调
为了解决在不同地点培养的同一物种的MALDI-TOF光谱中存在的地理变异,我们采用了最初为微阵列数据开发的ComBat算法。ComBat是一种开源工具,提供两种校正方法,参数和非参数经验贝叶斯方法,以调整批次效应,同时保留真实的生物学变异。在本研究中,我们应用了参数方法,该方法调整由非生物因素引起的位置(均值)和尺度(方差)效应。数据归一化在应用ComBat Python包之前进行。我们测试了ComBat提供的两种校正选项:调整批次间方差和均值的默认方法(称为TVAR + MEAN),以及标准化均值同时保留方差的仅均值校正(称为TMEAN)。
一方面,两种ComBat算法选项都应用于具有地理批次效应的训练分区样本。另一方面,测试样本首先与仍显示批次效应的预处理训练样本的副本配对。然后在这个组合集合上运行ComBat算法。最后,在去除批次效应后,每个测试样本从训练样本中分离出来。执行此程序是因为ComBat方法需要一个数据集(而不是单个样本),该数据集包含所有批次的样本,以便区分每个批次,从而进行后续的批次效应调整。为了比较去除MALDI-TOF MS批次对机器学习方法性能的影响,我们保留了原始数据集,反映了该领域当前的最佳实践。
两种ComBat去除方法对对照数据集的影响使用主成分分析(PCA)结合Clover MSDAS进行可视化。在此阶段,从我们的原始数据中提取出各种数据集,每个数据集具有不同的处理方法:(a)经过预处理但仍包含地理批次效应的对照数据;(b)使用ComBat方法“by var. + mean”校正地理批次效应后的预处理数据;和(c)使用ComBat方法“by mean”校正地理批次效应后的预处理数据。
使用Boruta进行特征选择
为了减小数据集的规模,应用了Boruta特征选择过程。这种降维方法使用随机森林(RF)分类来识别最相关的特征。它通过随机打乱原始特征的值来创建影子特征。该算法训练RF模型,并将原始特征的重要性与影子特征的重要性进行比较。重要性低于最佳影子特征的特征被视为无关紧要并被丢弃。这个过程迭代重复,调整阈值并验证特征重要性的稳定性。最终,获得一组与目标变量密切相关的统计显著特征。
特征选择在三个不同的训练数据集上独立实施:(1)原始未校正数据;(2)使用方差和均值批次效应校正归一化的数据;和(3)使用仅均值批次效应校正处理的数据。每个选择过程产生的亚种特异性光谱特征列表随后应用于其相应的测试集和数据,以确保方法学的一致性。这种分层方法确保未校正数据中数据集特定的噪声特征不会污染批次校正数据集中的特征选择过程,从而保持每个分析流程的完整性。独立的特征选择路径有助于直接比较校正方法之间的分类性能,同时控制潜在的混杂变量。
在统计上,这种方法通过选择一组最小相关的光谱特征来帮助减轻多重共线性,增强模型可解释性,同时降低高维光谱空间中的过拟合风险。该算法保留了每个组中最具判别性的变量,捕获数据的底层生物学信号结构,同时消除冗余信息。
机器学习开发模型
对于脓肿分枝杆菌亚种分类,我们使用了两种具有不同能力的最先进分类算法。随机森林(RF)擅长处理大型数据集并提供特征重要性,并利用神经网络架构进行复杂模式识别;支持向量机(SVM)在高维空间和类间清晰边界分离方面有效。我们使用scikit-learn包,所有模型使用Python 3.11版本。
用于模型开发的样本被随机分为包含80%样本的训练数据集和剩余20%的测试数据集,同时按物种进行分层。
三个脓肿分枝杆菌亚种在样本中的分布是不平衡的。“脓肿分枝杆菌”是最普遍的物种,跨批次总共156个样本,其次是“马西里分枝杆菌”116个样本和“博莱蒂分枝杆菌”53个样本。为了解决数据集的不平衡问题,我们采用了四种不同的技术,包括过采样和欠采样。随机过采样器(RandomOverSampler)和SMOTE是基于过采样的两种选定技术。基于欠采样的两种方法是聚类中心(ClusterCentroids)和邻域清理规则(NeighborhoodCleaningRule)。所有这些技术都属于imbalanced-learn库,它是Python Scikit-learn库的扩展。
为了选择最佳模型配置,我们使用GridSearch结合5折分层交叉验证(CV)确定每个模型的最佳超参数集。使用5折CV可以更准确地估计模型性能(较低偏差),但需要足够的数据来维持足够的训练分区大小。通过选择5折CV,我们确保了更大的训练分区,减少了方差并增强了性能评估的稳健性。超参数被调整以最大化F1加权分数,该分数仅在校正数据的训练数据集上进行评估,以便与未校正数据进行比较。对“no_batch_effect_by_default”和“no_batch_effect_by_mean”两个数据集执行相同的过程。
鉴于抗生素敏感性可能混淆模型训练和评估,我们检查了13个记录有克拉霉素(CLA)和阿米卡星(AMK)敏感性的样本在5折交叉验证分区中的分布。我们还进行了PCA,以探索光谱空间中按耐药表型的潜在聚类,因为这种结构可能影响分类性能。
评估指标
在确定最佳超参数后,执行模型拟合以估计最终参数,并根据其评估指标选择性能最佳的模型。评估框架包括标准性能度量,如准确度、精确度、召回率、F1分数、受试者工作特征曲线下面积(AUC-ROC)和精确度-召回曲线下面积(AUC-PRC)。为了解决不平衡分类的挑战,使用了专门为此类场景设计的额外指标,包括平衡准确度、几何平均分数(GEO)和平衡准确度指数(IBA)。
用于理解MALDI-TOF分类中菌株差异的可解释性
为了深入了解MALDI-TOF MS质谱分类器识别的菌株特异性差异,我们采用了SHAP(SHapley Additive exPlanations),这是一种用于解释机器学习模型的强大工具。SHAP值提供了个体特征如何影响模型预测的定量度量,有助于理解驱动菌株分化的特征的全局洞察力,以及对特定菌株独特特征的局部洞察力。生成摘要图以可视化跨菌株的全局特征重要性和个体预测的局部贡献,突出显示与菌株水平变异相关的关键光谱模式。
完整工作流程
方法学流程始于数据收集,其中MALDI-TOF MS光谱从多个合作医院获得。
然后流程进行到处理,包括几个预处理步骤:方差稳定化、平滑、基线减去和重复光谱的平均。所得数据集被划分为80%用于训练和20%用于测试。为了确保峰对齐的一致性,两个分区都进行归一化。具体来说,训练集独立归一化,而每个测试样本附加到训练集的副本上并联合对齐和归一化,以确保两个集合之间的峰结构一致。预处理后,通过将处理后的数据分成三个分支来构建实验组:无批次效应校正;使用“by var. + mean”进行批次校正;和使用“by mean”进行批次校正。使用Boruta算法执行特征选择,独立应用于三个训练子集中的每一个。然后将所得的峰列表转移到它们相应的测试分区,以确保一致的特征表示。然后流程进行到模型开发,其中机器学习分类器在三个训练子集上分别训练。对于两个批次校正的数据集,应用过采样和欠采样技术来解决类别不平衡问题。未校正的数据集直接进行模型训练,无需重采样。每个训练的模型随后使用其相应的测试分区进行验证。
这种结构化的方法确保批次校正和类别平衡对模型性能的影响得到严格评估,支持分类框架的稳健性和泛化能力。
结果
ComBat作为地理协调方法的评估
由于每个分离株都在马德里和巴塞罗那的相同Bruker MBT Smart MALDI-TOF MS上以相同的采集设置运行,在两个地点分析样本没有引入平台相关的批次效应,这一结论得到没有站点特异性聚类的支持。
然而,对处理、对齐和归一化后的数据集进行主成分分析(PCA)揭示了明显的地理批次效应,样本根据其来源医院聚类,而不是形成均匀分布。这种分离可能源于培养条件的差异,包括孵化温度、湿度、培养基处理和其他实验室特定参数,这些参数在不同设施的光谱采集之前存在。这种地理驱动的偏移可能 substantially compromise 机器学习模型的性能,需要有效的批次校正策略。
为了解决这一挑战,我们使用两种不同的方法学将ComBat算法应用于这个处理、对齐和归一化的数据集:“var. + mean”和“mean”。两种方法都有效地减轻了批次效应,尽管“var. + mean”方法学在此数据集上表现出 superior performance。校正后分析显示样本分布更加均匀,显著增强了跨地理来源的数据一致性。在两种校正方法中,ComBat的应用导致样本分布与未校正数据相比显著改善。
光谱分析证实了校正前存在明显的批次效应,特别是在5700–5800 m/z范围内,峰对齐在不同批次之间显著变化。应用“var. + mean”校正后,这些差异显著减少,批次间光谱显示改进的对齐和强度标准化。例如,先前在马德里批次中观察到的微弱的5650 m/z峰变得清晰明确,而其他批次特异性峰趋于一致的强度水平。总的来说,这些结果证明了“var. + mean”方法在减轻此数据集中地理批次效应方面的 superior performance。
特征选择
采用Boruta算法进行特征选择,以从原始数据集中识别最具信息量的质荷比(m/z)峰。这个过程将来自所有325个MALDI-TOF MS光谱的35,493个初始质量峰大幅减少到三个不同的子集:未校正光谱为365个峰,经过“by var. + mean”批次校正后为401个峰,经过“by mean”批次校正后为493个峰。实现的降维率分别为98.97%、98.87%和98.61%,从而减轻了维度灾难,同时保留了后续机器学习分析中最具判别性的光谱特征。
地理协调、特征选择和样本平衡技术对ML模型开发的影响
为了系统评估地理协调(批次效应校正)、特征选择和样本平衡技术对基于MALDI-TOF MS的分枝杆菌亚种分类的影响,我们评估了两种机器学习算法:随机森林(RF)和支持向量机(SVM)。我们的实验框架包括三种不同的分析条件:没有批次校正、特征选择或重采样的基线场景,以及两种结合了ComBat批次校正方法学(“var. + mean”和“mean”)并与基于Boruta的特征选择集成的方法。我们进一步实施了四种重采样策略来解决类别不平衡挑战:随机过采样器(RandomOverSampler)、SMOTE、聚类中心(ClusterCentroids)和邻域清理规则(NeighborhoodCleaningRule)。结果表显示了优化参数化模型的分类性能指标,其中聚类中心(ClusterCentroids)成为 superior resampling methodology。
无地理协调的性能
在没有批次效应校正的情况下,随机森林(RF)表现出 superior performance,平均F1分数为0.86,平衡准确度为0.84,而支持向量机(SVM)的值分别为0.80和0.79。在这些未校正条件下,RF在所有关键性能指标上 consistently outperformed SVM。然而,明显的地理批次效应的存在限制了两种算法的整体分类潜力,强调了对有效校正策略的需求。
“var. + mean”地理协调的性能
“var. + mean”校正方法学的实施在所有分类模型中产生了 substantial performance enhancements,支持向量机(SVM)表现出更大的改进。SVM分类器相对于未校正数据,F1分数显著提高了17%,而随机森林(RF)也显示出显著的性能提升。优化后的SVM在测试样本中表现出 exceptional discriminative capability,准确率达到97%,超越了文献中先前建立的基准。特别值得注意的是,历史上最难准确识别的亚种——博莱蒂分枝杆菌(M. bolletii)的分类在所有建模方法中都显示出显著改进。经过地理协调后,模型性能趋于一致,RF和SVM分类器达到了 comparable accuracy(0.92–0.97)和曲线下面积(AUC)值(0.97–0.98)。这些发现强调了地理协调技术在减轻数据集间变异性和增强分类稳健性方面的关键重要性。
“Mean”地理协调的性能
“mean”批次校正方法学的实施产生了与“var. + mean”方法 comparable 的性能增强。支持向量机(SVM)分类器表现出 exceptional discriminative capability,在测试样本中达到97%的准确度,相应的加权精确度、召回率和F1分数,以及受试者工作特征曲线下面积(AUC-ROC)为98.30%。随机森林(RF)算法相对于SVM表现出 slightly diminished performance metrics,反映了“var. + mean”校正方法中观察到的模式。
所有经过协调增强的模型在评估指标上都 substantially outperformed 其未校正的对应模型。值得注意的是,当与“var. + mean”或“mean”校正方法学集成时,SVM和RF算法 consistently achieved superior classification accuracy 对于所有亚种分类,超越了文献中先前建立的性能基准。
样本平衡技术的影响
在评估的各种重采样方法学中,聚类中心(ClusterCentroids)表现出 superior classification performance,特别是与支持向量机(SVM)算法集成时,在独立测试样本中实现了 exceptional F1 score of 97%。邻域清理规则(NeighborhoodCleaningRule)、随机过采样器(RandomOverSampler)和SMOTE在与均值批次校正方法学和SVM分类器结合实施时也表现出 robust classification capabilities。然而,这三种重采样算法在与“var. + mean”批次校正方法配对时提供了更 moderate performance improvements,通常超过了未校正数据的性能指标,但未达到聚类中心(ClusterCentroids)实现的分类效力。总的来说,这些发现强调了实施有效的地理协调和适当的样本平衡策略以优化基于机器学习的MALDI-TOF MS光谱数据亚种分类的关键重要性。
模型的可解释性
使用SHapley Additive exPlanations(SHAP)方法学评估了最优支持向量机(SVM)分类器的可解释性,该方法将每个预测分解为个体特征贡献。该分析框架提供了全面的全局和局部可解释性,量化了每个光谱特征在亚种分类中的相对重要性,同时提供了关于特定光谱峰如何影响模型预测的见解。前27个峰的排名重要性清楚地 delineates 它们对分类结果的 proportional contribution,突出了 key discriminative 驱动模型性能。
SHAP摘要图显示,个体行代表特定的光谱峰,数据点对应于数据集中的个体样本。颜色梯度表示特征强度(红色表示高强度,蓝色表示低强度),而水平位移表示特征对亚种特异性分类决策的模型预测的贡献。这些视觉表示通过揭示每个峰对算法结果的方向和幅度特定影响来增强模型可解释性。对性能最佳的SVM模型(使用“var. + mean”批次校正方法协调)的SHAP分析揭示了 distinct subspecies-specific peak signatures,具有特征性重叠模式:博莱蒂分枝杆菌(M. bolletii)和马西里分枝杆菌(M. massiliense)共享15个判别峰,而脓肿分枝杆菌(M. abscessus)与马西里分枝杆菌(M. massiliense)共享多达22个峰。在相同的批次校正参数下,随机过采样器(RandomOverSampler)+ RF模型观察到了 comparable distribution pattern,其中前27个峰中有8-10个在脓肿分枝杆菌(M. abscessus)和马西里分枝杆菌(M. massiliense)之间重叠,而与博莱蒂分枝杆菌(M. bolletii)的重叠少于5个。这些 differential overlap patterns 与亚种之间已建立的系统发育关系一致,并证明了该模型在减轻地理批次效应的同时捕获生物学相关特征的能力。
所有实施我们集成方法的评估模型在分类最具挑战性的亚种——博莱蒂分枝杆菌(M. bolletii)方面都显示出 substantial improvements, consistently outperforming 先前发表的方法 across all classifiers。高分类准确度在多菌株样本中得以保持,表明 strong generalization and robustness。性能最高的模型 consistently achieved 地理和 imbalance accuracy(GEO and IBA)分数超过0.95,反映了在所有亚种(包括训练数据集中代表性有限的亚种)中 well-balanced classification performance。这些结果 underscore 我们的综合机器学习流程在解决类别不平衡同时保持 superior predictive accuracy 方面的功效,特别是对于分类学上具有挑战性的亚种。
对CLA和AM