《npj Antimicrobials and Resistance》:Accelerating natural product discovery with linked MS-genomics and language/transformer-based models
编辑推荐:
对微生物菌株库进行整合的化学-生物学表征可通过优先考虑候选生产者来简化天然产物发现流程。在此,研究人员采用基于语言和Transformer的模型,从关联的质谱(MS)-基因组数据集中提取可操作的见解。该框架能够对微生物生产者进行排序,以优先考虑用于靶向验证的高
对微生物菌株库进行整合的化学-生物学表征可通过优先考虑候选生产者来简化天然产物发现流程。在此,研究人员采用基于语言和Transformer的模型,从关联的质谱(MS)-基因组数据集中提取可操作的见解。该框架能够对微生物生产者进行排序,以优先考虑用于靶向验证的高潜力候选者。在三个代表性案例研究中,该方法以75–100%的精确度优先选择了多种天然产物的生产者。这些发现证明了人工智能赋能的化学-生物学表征具有变革性潜力,可显著加速天然产物发现,并实现超越参考知识的微生物化学多样性获取。
论文解读:基于多模态AI框架的天然产物高效发现策略
研究背景与立项依据
天然产物(NPs)以其卓越的化学多样性和治疗潜力著称,但其发现过程长期受限于将基因组信息与结构验证相关联的效率低下问题。尽管基因组学和质谱(MS)等分析技术取得了进步,现有的方法往往严重依赖预定义的规则和参考数据库。这导致大多数结构鉴定仍局限于先前已表征的代谢物,使得巨大的自然化学空间未能得到充分探索。为了突破这一瓶颈,研究人员在《npj Antimicrobials and Resistance》上发表研究,旨在引入一种多模态优先级排序框架,整合互补的基因组和代谢组推断层,将天然产物发现从参考数据库的束缚中解耦出来,实现对未开发微生物化学空间的快速导航。
关键技术方法概述
本研究构建了一个集成的计算框架,核心技术包括:利用蛋白质语言模型(PLM),特别是ESM-2,将蛋白质编码为捕获结构和功能关系的高维嵌入向量,以实现可扩展的相似性搜索;开发了工作流智能结构解析(WISE),这是一种结合生成化学和基于Transformer模型的方法,可从MS数据中生成推定的分子结构;通过对2138个LC-MS/MS分析数据进行再处理,涵盖了来自A*STAR国家生物库(NOL)的54株放线菌及其突变体组成的样本队列;最后,通过跨模态交叉验证,将基因组推断与代谢组推断相结合,对候选生产者进行优先级排序。
研究结果
基于蛋白质语言模型(PLM)嵌入的基因组推断
研究人员利用ESM-2等PLM将蛋白质序列编码为高维嵌入向量。与传统的基于同源性的方法不同,这种方法能够捕捉超越一级序列相似性的结构和功能细微差别。该策略的一个关键优势在于其不依赖于完整的生物合成基因簇(BGC)注释,即使在片段化或不完整的基因组组装中,也能从单个蛋白质水平评估潜在的生物合成能力。为了减少假阳性,研究人员定义了一个复合评分系统,结合了群组平均欧几里得相似度和超过阈值(0.75)的个体蛋白命中数,从而筛选出具有协调相似性的菌株,而非仅匹配单一泛在酶家族的菌株。
基于工作流智能结构解析(WISE)的代谢组推断
WISE流程首先对LC-MS/MS数据进行去卷积,分离单个代谢物质谱。它利用分子语言处理(MLP)生成大型天然产物类似物库,并使用基于Transformer的预测模型模拟这些候选物的参考MS/MS谱图。WISE评分结合了MS/MS相似度、同位素分布和单同位素质量相似度。通过在Critical Assessment for Small Molecule Identification (CASMI2022)基准数据集上的评估,WISE评分在区分同量异位候选结构时表现出94%的精确度和0.971的AUROC值。研究确定了两个功能阈值:高于0.65代表高置信度分配,低于0.35则代表低置信度区域。
加速天然产物发现的多模态优先级排序框架
将PLM分析和WISE流程相结合,提供了互补的基因型和表型证据。PLM评估菌株产生特定类别分子的基因组潜力,而WISE评估在特定培养条件下观察到的实际化学表型。这种跨模态的交叉验证减少了对单一模态的依赖,降低了假阳性率。研究人员将此框架应用于包含2138个LC-MS/MS分析的放线菌数据集,涵盖54株菌株及其突变体。
案例研究应用:新霉素B,一种氨基糖苷类抗生素
研究人员将该框架应用于搜索新霉素B的生产者。利用ESM2模型对编码新霉素生物合成的BGC(BGC0000709)的蛋白质组件进行嵌入,并通过最近邻算法与基因组数据集进行比对,成功识别出顶级匹配。同时,通过WISE处理LC-MS/MS数据,发现了具有高潜力的候选生产者。通过这种交叉验证矩阵,预测了4株独特的菌株为新霉素B生产者,其中3株通过真实产物MS/MS光谱匹配得到了验证(75%精确度)。值得注意的是,其中有两株是先前未表征的链霉菌属新霉素B生产者。相比之下,antiSMASH分析未能在其中一个菌株(T354)的基因组中检测到新霉素BGC,这凸显了基于规则的基因组挖掘方法在处理草图基因组组装时的局限性。
普适性与性能验证
为了验证框架的通用性,研究人员还将其应用于缬氨霉素(valinomycin)和表面活性素B(surfactin B)的生产者筛选。结果显示,这两种化合物的优先级排序精确度分别达到了86%和100%。在这三个案例研究中,验证预测的总体假发现率(FDR)为13%(23例中3例)。为了进一步证实预测信号源于真实的生物学关联,研究人员进行了阴性对照分析,随机排列了WISE和PLM评分。结果显示,随机情况下的精确度大幅下降至10–39%,证实了观察到的优先级排序性能是由结构化的生物信号驱动的,而非随机配对。
讨论与结论
该研究提出的多模态整合框架显著解决了天然产物研究中诸如非靶向代谢物推断和在可扩展、加速模式下识别新生产者等长期挑战。虽然单独的PLM或WISE评分可能会显著高估潜在生产者,但通过利用具有明确置信阈值的多模态优先级排序策略,研究人员有效地实现了高精确度(75–100%)。通过整合代谢组和基因组洞察力,该框架有效地弥合了数据生成与可操作生物学见解之间的关键差距,实质性地加速了目标化合物生产者菌株的发现。尽管由于数据质量和算法固有的偏差,预测中仍存在少量假阳性,但这种能够大规模联合审视代谢组和基因组数据的能力,为前瞻性发现新型天然产物和以前未被识别的生产者菌株创造了激动人心的机会。这项工作表明,通过将搜索的化学和生物合成空间扩展到经过整理的参考数据库之外,研究者能够揭示以前无法进入的天然产物多样性区域,从而拓宽已知化学和微生物生物多样性的边界。