
-
生物通官微
陪你抓住生命科技
跳动的脉搏
统一的基因组与化学表示方法支持双向的生物合成基因簇及天然产物的检索工作
《Scientific Reports》:Unified genomic and chemical representations enable bidirectional biosynthetic gene cluster and natural product retrieval
【字体: 大 中 小 】 时间:2026年05月10日 来源:Scientific Reports 3.9
编辑推荐:
摘要天然产物的发现越来越依赖于分析微生物基因组以寻找编码次级代谢产物的生物合成基因簇(BGCs)的能力。虽然现有的方法已经成功地将BGCs与广泛的化学产品类别关联起来,但它们通常只采用单一的模式(基因组学或化学),从而限制了双向预测的范围。在这项工作中,我们提出了一个多模态框架,
天然产物的发现越来越依赖于分析微生物基因组以寻找编码次级代谢产物的生物合成基因簇(BGCs)的能力。虽然现有的方法已经成功地将BGCs与广泛的化学产品类别关联起来,但它们通常只采用单一的模式(基因组学或化学),从而限制了双向预测的范围。在这项工作中,我们提出了一个多模态框架,该框架通过将来自预训练语言模型的嵌入投影到一个共同的表示空间中来整合基因组信息和化学信息。我们使用基于BGC的基础模型对基因组序列进行嵌入,并通过化学语言模型来表示分子,然后利用度量学习模型将BGCs及其相关的化学结构共同嵌入到一个空间中。这种共同嵌入空间使我们能够使用相似性度量来量化BGCs与化合物之间的相似性,从而实现对检索任务的高效支持(包括正向检索和反向检索)。我们的方法始终优于非对齐方法,并代表了一种通用且可扩展的策略,用于在天然产物发现过程中连接生物学和化学领域。