将指纹识别技术与理化性质筛选方法相结合，用于从高分辨率质谱（MS/MS）数据中注释未知代谢物

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Microchemical Journal》：Integrating fingerprint prediction and physicochemical property filtering to annotate unknown metabolites from high-resolution MS/MS spectra

【字体：大中小】 时间：2026年05月11日 来源：Microchemical Journal 5.1

编辑推荐：

　　艾哈迈德·马尼-瓦尔诺斯法德拉尼（Ahmad Mani-Varnosfaderani）、斯里·V·钦塔帕利（Sree V. Chintapalli）、海勒马里亚姆·阿布拉哈·阿塞斯（Hailemariam Abrha Assress）、雷尼·S·兰（Renny S. Lan）、伊

　　艾哈迈德·马尼-瓦尔诺斯法德拉尼（Ahmad Mani-Varnosfaderani）、斯里·V·钦塔帕利（Sree V. Chintapalli）、海勒马里亚姆·阿布拉哈·阿塞斯（Hailemariam Abrha Assress）、雷尼·S·兰（Renny S. Lan）、伊丽莎白·博尔斯海姆（Elisabet B?rsheim）、布莱恩·D·皮科洛（Brian D. Piccolo）和科林·凯（Colin Kay）来自美国阿肯色大学医学科学分校儿科系，位于阿肯色州小石城。

摘要：非靶向代谢组学研究通常只能识别出检测到光谱特征的30%左右，剩余的70%特征被广泛称为代谢组学中的“暗物质”。在这里，我们开发了一种机器学习流程MS2FinProp，它利用高分辨率质谱/质谱数据与分子指纹之间的关系，结合物理化学性质预测，来改进相关未知代谢物的注释。该方法使用166个由基于标记化合物的质谱/质谱光谱训练出的优化随机森林模型预测的Molecular ACCess System（MACCS）指纹。同时，预测了关键分子性质，包括辛醇-水分配系数（logP）、拓扑极性表面积（TPSA）和色谱保留时间（RT），并用于精细化候选分子的筛选。然后，使用一种结合Tanimoto系数（TC）和基于性质的相似性的混合相似性度量标准，将未表征光谱特征的预测指纹和性质查询到人类代谢组数据库（HMDB）中。该方法使用一个人类血浆的高分辨率LC-MS/MS代谢组学数据集进行评估，该数据集包含1071个已标记的特征和1902个未知特征。在25个成分中，质谱/质谱数据的降维保留了97%的光谱方差，预测的指纹在3折交叉验证中的平均准确率为0.867。当使用TC阈值>0.7时，MS2FinProp为1902个未识别光谱中的1025个至少检索到一个HMDB候选分子，从而为53.8%的未知代谢物提供了候选级别的分配。该方法还在一个人类尿液的代谢组学数据集上进行了进一步验证，并在排名前100的候选分子中恢复了79.3%的参考标准确认的代谢物。这些结果表明，MS2FinProp能够有效地将高分辨率质谱/质谱数据与分子结构联系起来，为跨生物流体的代谢组学“暗物质”问题提供了一种可扩展的解决方案。

引言：小分子代谢物（<1500 Da）作为预测性生物标志物，可以提供关于生理状态、饮食摄入和环境暴露的见解[1]。因此，代谢组学已成为系统表征代谢物谱型并阐明其在健康和疾病中功能作用的一般方法。尽管存在多种分析型代谢组学工具，但由于其高灵敏度，液相色谱与质谱（LC-MS）和高分辨率质谱（HRMS）平台被广泛使用[2]。然而，由于化学宇宙的巨大规模和多样性以及可靠代谢物注释所需的实验质谱库覆盖不足，代谢物的鉴定仍然是一个关键瓶颈[3]。虽然理论上的化学空间估计超过10^60种500 Da以下的有机结构[4]，但在代谢组学工作中只有很小一部分被可靠鉴定[5]。例如，像PubChem[6]和CAS[7]这样的化学数据库总共包含超过1亿种分子，但这仅占理论可能化学空间的不到0.001%。重要的是，即使对于已知结构，也只有不到1%的分子在其生物学或毒理学效应方面经过了实验验证[8]。在LC-MS可测量的空间内，只有有限的部分被常规检测到，而在典型的非靶向分析中，不到10%的特征被成功注释[5],[8],[9],[10],[11]。LC/MS基代谢组学中典型的代谢物鉴定方法是是将实验串联质谱与NIST[12]、MassBank[13]、GNPS[14]和METLIN[15]等库进行匹配。然而，即使这些数据库加在一起，也只能覆盖PubChem[6]和ChemSpider[16]中索引的化学空间的大约1%。为了填补这一空白，科学界开发了一系列基于计算机的方法，可以从质谱/质谱谱预测或推断化合物的结构，而无需直接匹配质谱库。这些方法大致分为两类[17]。第一类是计算机生成光谱库的方法，其中为候选结构预测理论质谱/质谱谱，然后将其与未知谱进行匹配。这实际上从已知结构创建了一个合成的光谱库，大大扩展了覆盖范围。MetFrag[18]、CFM-ID[19]、MAGMa[20]和MS-FINDER[21]等方法属于这一类。第二类方法依赖于基于机器学习的指纹预测，将未知分子的质谱/质谱谱映射到高维亚结构指纹，并在大型数据库（如PubChem）中进行搜索。CSI:FingerID[22]、MetFID[23]、DeepEI[24]、IDSL_MINT[25]、MSNet[26]和多任务人工神经网络（ANNs）是这一类的方法示例。总体而言，基于指纹的方法提供了一种强大的方式，在化学空间中“撒下更广的网”，因为即使确切的化合物不在光谱库中，预测的指纹也能检索到正确的结构[23],[24],[28]。这些策略各司其职，但没有一种方法能够完全解决“暗物质”的难题。这些限制继续促使人们开发新的集成方法，在之前的成功基础上进一步扩展可识别化学的范围。

除了基于指纹的预测方法外，深度学习的最新进展为基于质谱/质谱的分子注释引入了新的范式。对比学习框架，如CMSSP[29]和CSU-MS2[30]，旨在直接以端到端的方式学习联合嵌入空间，使跨大型化学数据库的基于相似性的检索变得高效。同时，从头结构生成方法，包括MSNovelist[31]、Spec2Mol[32]和MSGo[33]，尝试直接从质谱/质谱谱重建候选分子结构，而无需依赖于预定义的数据库。尽管CSI:FingerID、DeepEI和多任务ANNs[34]等机器学习方法取得了显著进展，但在这些模型在非常庞大且异构的质谱/质谱库上进行训练时，仍存在一些固有的局限性。主要问题包括训练数据中的相当大的可变性和不一致性；考虑到大规模光谱库是由不同实验室和仪器平台组装的，因此引入了相当大的异质性。常见的变异来源包括：(i) 不兼容或模糊的元数据，例如报告的能量单位在不同仪器类型之间往往不可转换；(ii) 来自不同电离源（例如，离子阱与四极杆式仪器）的光谱包含；(iii) 碰撞能量范围广泛，从<5 eV到>70 eV；(iv) 前体离子超出最常见加合物的范围（例如，[M + H]+、[M + Na]+、[M + K]+）。这些不一致性使得跨数据集实现可重复的指纹预测变得困难。此外，大模型的结构偏差也会增加预测准确性：例如，大型质谱/质谱到指纹模型在具有密集和信息丰富光谱的复杂分子上表现更好，其中预测的指纹包含更高比例的活跃位。相比之下，小分子通常具有较少的峰和稀疏的指纹，因此预测准确性较低。这种不平衡反映了这些模型适用范围的限制。因此，结构复杂的分子对模型优化有不成比例的影响，而小分子在代谢组学中却受到忽视。此外，包括基于深度学习的最新进展进一步扩展了基于质谱/质谱的分子注释，但往往依赖于大规模数据集和复杂的模型架构。这些方法可能会限制可解释性，增加计算需求，并降低对实验室特定条件的适应性。因此，需要替代策略来平衡预测性能和透明度。在这方面，集成可解释的中间预测（如结构特征和物理化学性质）与数据库驱动的优先级的模块化方法提供了一种灵活且实用的代谢物鉴定框架。这些挑战可以通过开发在相同实验室生成或在相同类型的仪器上训练的局部、特定于上下文的模型来解决。实际上，专注于特定生物流体（例如血浆和尿液）的团队会逐步丰富内部光谱库，其中包含感兴趣的代谢物。基于许多这些生物流体中的未知分子在结构上接近已知代谢物的假设，本地模型可以利用这种化学相似性来提高鉴定准确性。虽然这样的模型可能不会泛化到所有化合物类别，但它们可以在其预期领域内实现可接受的性能。此外，本地模型更易于训练，需要的计算开销更少，并避免了因适应高度多样化的分子空间而产生的不稳定性。通过减少实验室间和仪器间的变异性，它们为改进小分子生物活性分子的鉴定提供了一条实用且可扩展的途径。

在本研究中，我们使用来自人类血浆样本的内部高分辨率质谱/质谱数据训练了一组随机森林（RF）[35]模型，以预测166个Molecular ACCess System（MACCS）指纹[36]。然后，使用Tanimoto系数（TC）[38]将未知分子的预测指纹查询到人类代谢组数据库（HMDB）[37]。为了精细化候选选择，我们实施了包括预测的辛醇-水分配系数（logP）、拓扑极性表面积（TPSA）[39]和保留时间（RT）在内的分子性质过滤器，随后使用一种结合指纹相似性和物理化学性质的混合评分函数来对候选结构进行排名，以评估其内部色谱和生物利用度的相关性。我们将开发的工作流程称为MS2FinProp，反映了使用“质谱/质谱”数据来计算“指纹”和化合物注释的“性质”。该工作流程在血浆和尿液数据集上进行了验证，显示出可靠的鉴定性能和改进的候选优先级。据我们所知，这是第一项使用结合MACCS指纹、logP和TPSA相似性的混合评分策略来鉴定代谢组学中未知分子的研究。通过将模型开发限制在相同实验室和生物矩阵生成的数据上，这种方法最小化了实验室间的异质性，同时提高了特定生物流体（如血浆和尿液）的鉴定准确性。重要的是，该框架是灵活的，可以扩展到其他复杂的生物和环境矩阵，包括粪便、呼吸和食品样本，从而为非靶向代谢组学中未知代谢物的阐明提供了可扩展的途径。需要注意的是，质谱/质谱碎裂并不保留前体分子的完整分子拓扑，因此从碎裂数据推断分子结构代表了一个不确定的逆问题。因此，现代计算方法不尝试确定性结构重建，而是估计与碎裂模式相关的概率性结构特征。在这种背景下，指纹预测方法旨在推断亚结构基序的存在或缺失，然后可以用来从大型化学数据库中优先选择候选分子。MS2FinProp工作流程通过结合预测的指纹与物理化学性质约束和保留时间过滤来逐步缩小候选搜索空间。

部分代码片段：
- 血浆LC-MS/MS数据集：从与270个人类血浆样本的非靶向代谢组学分析相关的内部分析高分辨率LC–MS/MS数据集中检索了2973个质谱[40],[41]。LC–MS/MS分析是在Orbitrap Exploris 480 MS（ThermoFisher）上进行的，色谱分离使用Waters Acquity Premier CSH C18柱（2.1 × 100 mm, 1.7 μm）。流动相由水和乙腈组成。数据以数据依赖性采集（DDA）模式在15分钟内采集，每次脉冲持续6秒。
- 数据降维使用rSPCA算法：血浆分析产生了2973个质谱/质谱谱，其中1071个被标记为1到3级，1902个保持未知。由于仪器运行在高分辨率下，结果数据矩阵在0.01分辨率下分箱后的维度为2973 × 86,000。鉴于收集的质谱/质谱数据的稀疏性，我们使用了rSPCA算法进行降维。图1(a)可视化了PC1–PC2空间中已标记和未知质谱/质谱谱的分布。

结论：在这项研究中，我们引入了MS2FinProp，这是一个集成的机器学习工作流程，通过结合指纹预测和物理化学性质过滤将高分辨率LC–MS/MS谱与分子结构联系起来。应用于大型非靶向代谢组学数据集时，MS2FinProp显著提高了鉴定结果，实现了之前未标记血浆特征的候选级别分配增加了53.8%，并在血浆和尿液数据集上展示了稳健的性能。

作者贡献声明：
艾哈迈德·马尼-瓦尔诺斯法德拉尼（Ahmad Mani-Varnosfaderani）：撰写 – 审稿和编辑、撰写 – 原始草稿、可视化、验证、软件、方法学、调查、形式分析、数据 curatio、概念化。
斯里·V·钦塔帕利（Sree V. Chintapalli）：撰写 – 审稿和编辑、方法学、概念化。
海勒马里亚姆·阿布拉哈·阿塞斯（Hailemariam Abrha Assress）：撰写 – 审稿和编辑、软件、资源、调查、数据 curatio、概念化。
雷尼·S·兰（Renny S. Lan）：撰写 – 审稿和编辑、软件、方法学、数据 curatio。

利益冲突声明：作者声明他们没有已知的竞争性财务利益或个人关系，这些关系可能会影响本文报道的工作。

联系信箱：

粤ICP备09063491号

热点排行