编辑推荐:
现代质谱技术通过LC-IM-MS与DIA实现多维数据采集,但高维噪声数据处理需求催生AI与质谱深度融合。研究从DIA优化、干扰消除到开源工具开发,提出AI原生质谱模型、多组学无偏工具,并构建确定性分析与生成式AI协同框架,推动微生物系统生物学发现民主化。
Aivett Bilbao
环境分子科学实验室,太平洋西北国家实验室,华盛顿州里奇兰,99352,美国
摘要
现代人工智能(AI)为质谱(MS)和多组学开启了一个变革的时代。随着仪器灵敏度、分辨率和维度的提高,解释其多维数据的计算需求也在不断增长。这篇青年科学家观点文章回顾了我的研究历程,从早期在蛋白质组学和代谢组学中的数据独立采集、干扰去除和离子迁移率预处理工作,到开发自由或开源软件以及基于AI的工具,以加速生物学发现。我讨论了将AI整合到MS工作流程中的计算支柱,以及具有MS固有能力的新兴基础模型。我还概述了分子注释中错误率估计的新方向、用于确定性和自主AI分析的用户界面,以及这些进展如何能够彻底改变微生物系统生物学,特别是在生物技术和环境应用方面。最后,我提出了未来十年的展望,即MS和AI将共同发展,成为科学界自主、互操作和民主化的工具。
引言
质谱(MS)长期以来一直是分子和细胞生物学不可或缺的工具(1),(2),并已成为现代科学中最强大的分析平台之一。由于其无与伦比的灵敏度、多功能性、广泛的覆盖范围以及能够在表型水平上为各种生物分子(包括蛋白质、肽、代谢物、脂质、糖链等)生成高质量、定量数据的能力(3),(4),它已成为综合多组学研究的基石。如今的混合仪器集成了液相色谱(LC)、离子迁移率谱(IM)和数据独立采集(DIA)技术。这些能力对于分析复杂混合物的非靶向工作流程特别有利,能够实现任何单一分离或碎裂策略都无法实现的更完整的多维表征5。
采用DIA技术的LC-IM-MS方法生成了丰富的多维数据集,包括MS1+MS2、同位素分布、碎裂图、洗脱时间和到达时间,这对传统算法和现有计算基础设施都构成了挑战6。同时,每个组学层次仅提供了生物系统的一部分视图或投影。真正的系统级理解需要跨这些模式的整体整合7,这推动了能够解释原始信号、推断分子身份并将其与生物途径和知识联系起来的计算工具和人工智能(AI)模型的发展。
本文回顾了我的研究历程,涉及原始MS信号、算法、软件、蛋白质组学、代谢组学和AI,并利用这些经验来说明计算进展如何重塑多维MS和多组学。我概述了处理高维MS数据的当前进展和持续挑战、开发适用于多个基于MS的组学领域的通用计算工具(即无需特定领域算法重新设计的计算工具)、新兴的具有MS内在能力的AI模型及其影响,以及分子注释中置信度和错误率估计的新范式。我还讨论了确定性分析与AI辅助和自主工作流程的融合,并说明了这些创新如何能够加速微生物生物学的系统级洞察。这些主题展示了MS和AI如何共同发展,成为统一、自动化和基于生物学知识的分析流程。
章节摘录
原始MS数据和通用软件工具
我的MS科学之旅始于我的博士研究期间,当时我从事DIA蛋白质组学和代谢组学工作,开发了软件并致力于改进数据采集和减少碎片离子干扰8。早期的工作包括对DIA处理方法的全面回顾9、使用SwathTuner优化可变四极杆分离窗口10,以及基于机器学习的策略来通过考虑干扰的碎片离子排序提高无标记定量11。从一开始,我就
将AI整合到质谱工作流程中
尽管机器学习早已应用于MS,但传统方法无法建模原始MS数据的高维性和噪声特性。诸如主成分分析、支持向量机和随机森林等方法依赖于表格格式的提取特征,这需要精心设计和深厚的领域专业知识25。因此,这些方法主要限于后处理,而不是直接的光谱解释。深度学习的进步,特别是
质谱的基础模型
受到深度学习和变换器架构突破的启发,多个团队开始开发在数百万光谱上训练的MS基础模型。这些具有AI内在能力的MS模型能够捕捉碎裂行为、光谱模式和物理化学关系的通用表示。基础模型是一个在大量数据上训练的大型AI模型,之后可以针对特定任务进行微调(即 fine-tuning)。与特定任务模型不同,
对新错误率估计方法的需求
错误率估计方法对于最小化假阳性结果并将原始信号转化为生物学上有意义且可重复的发现至关重要。虽然传统的假发现率(FDR)估计框架在蛋白质组学中已经建立,但它们是为通过数据库搜索进行肽识别而设计的(31),(32)。因此,普遍认为这种范式不适用于其他分子类型,需要更强大的置信度估计框架
连接确定性分析和自主AI
MS数据分析历来依赖于确定性计算工作流程,其中算法使用用户设定的显式参数执行预定义步骤。这些方法对于生成透明、可重复和可审计的结果仍然不可或缺。确定性方法支持基本操作,如原始信号的可视化、质量控制和人工专家评估与验证,而完全由人类用户控制的软件对于学习也极为宝贵
理解和工程化微生物系统
尽管MS通常被视为一种测试或验证技术(即用于检查分子是否存在),但现代MS工作流程,特别是结合DIA的多维LC-IM-MS测量,从根本上将其转变为强大的发现工具。这些平台能够捕捉蛋白质组、代谢组、脂质组和糖组中的高维分子特征,从而实现回顾性和迭代性挖掘、假设生成、途径推断和整合
结论性评论
未来的十年,MS将在各个层面深度融合AI,从原始信号处理到基于知识的生物学解释。随着现代仪器在分辨率、动态范围和维度上的不断扩展,AI提供了将这些日益复杂的数据流转化为连贯的分子和系统级洞察所需的计算能力。
具有AI内在能力的MS工作流程,即直接处理原始多模态信号的流程,将使
生成式AI声明
在准备这项工作时,作者使用ChatGPT协助内容组织和改进某些部分的语言和可读性。所有由AI生成的文本都经过了作者的仔细审查和编辑,作者对发表文章的内容负全责。
Dr. Bilbao是太平洋西北国家实验室(PNNL)环境分子科学实验室(EMSL)的科学家和团队负责人,负责开发和应用先进的算法和软件工具,用于质谱(MS)和人工智能/机器学习(AI/ML)在科学研究和仪器中的应用。她获得了委内瑞拉东方大学的计算机工程学士学位(优等学位),以及自动数据