MGM:基于大规模预训练基础模型的跨情境微生物组分析新范式

《Advanced Science》:MGM as a Large-Scale Pretrained Foundation Model for Microbiome Analyses in Diverse Contexts

【字体: 时间:2026年01月27日 来源:Advanced Science 14.1

编辑推荐:

  本文提出微生物通用模型(MGM),这是首个基于26万样本预训练的微生物组基础模型。该模型通过自注意力机制和自回归预学习捕获微生物组成的上下文表征,在微生物群落分类(平均ROC-AUC达0.99)、跨区域疾病诊断、婴儿肠道发育追踪和肿瘤微生物标志物发现等任务中显著优于传统方法。MGM的创新性在于将自然语言处理技术成功应用于微生物组分析,为微生物组研究提供了可扩展的统一框架。

  
MGM架构与预训练策略
研究团队构建了包含263,302个样本的Microcorpus-260K数据集,涵盖9,665个菌属。MGM采用8层Transformer架构,通过因果语言建模(CLM)方式进行预训练。与掩码语言建模(MLM)相比,CLM在微生物群落分类任务中表现更优(AUROC 0.99 vs 0.92)。模型采用秩值编码策略,将菌属按相对丰度排序转化为离散标记,有效避免了极端值的影响。
语言建模捕获通用模式
预训练后的MGM展现出强大的模式捕获能力,即使仅提供20%的原始菌属,预测嵌入与原始嵌入的余弦相似度仍超过0.9。值得注意的是,模型在没有显式系统发育信息的情况下,成功将细菌和真核生物菌属在嵌入空间中区分开来,并识别出以节肢动物门为主的异常菌属簇。
微生物群落分类与批次整合
在微生物群落分类任务中,微调后的MGM平均ROC-AUC达到0.99,显著优于随机森林(RF)、EXPERT和DeepPhylo等基线方法。特别值得注意的是,在MGnify新发布的43,528个样本上,MGM在更深层次的生物群落分类(第3-5层)中表现出更好的泛化能力。通过UMAP可视化显示,经过微调的MGM嵌入在样本聚类方面优于原始丰度谱。
突破跨区域限制
在炎症性肠病(IBD)的跨区域诊断任务中,MGM展示了卓越的适应性。当在爱尔兰队列上训练并在加拿大队列上测试时,MGM的零样本性能超过了其他方法经过转移学习后的表现。这表明基于异构数据训练的基础诊断模型能够有效缓解区域偏差,为跨人群的微生物组疾病预测提供了可扩展的解决方案。
婴儿发育监测与关键菌属发现
在Roswall等人的纵向婴儿肠道微生物组数据集上,MGM成功预测了婴儿发育阶段和分娩方式,F-max值达到0.60,相比RF基线提升约15%。注意力权重分析揭示了不同分娩方式下的特异性模式:阴道分娩婴儿中,拟杆菌属(Bacteroides)和双歧杆菌属(Bifidobacterium)在早期阶段获得更高关注;而剖宫产婴儿中,流感嗜血杆菌属(Haemophilus)在整个发育过程中持续受到关注。通过留一法删除分析,研究证实具有高注意力权重和高keystone属性的菌属在塑造微生物群落结构中发挥关键作用。
潜在癌症治疗靶点识别
在TCMA数据库的五种胃肠道肿瘤分析中,MGM实现了0.97的宏观ROC值,展现出卓越的诊断准确性。注意力机制成功识别出癌症特异性生物标志物,如大肠癌(COAD)和直肠癌(READ)样本中的埃希氏菌属(Escherichia)和肠杆菌属(Enterobacter),以及头颈部鳞状细胞癌(HNSC)中的链杆菌属(Streptobacillus)。体外扰动实验验证了这些菌属在塑造肿瘤微生物组中的关键作用。
提示引导的疾病特异性微生物组生成
研究团队开发了提示引导的生成管道,通过在序列开始标记后添加疾病标签标记,指导模型生成条件特异性微生物组谱。重构器网络将生成的秩序列映射回相对丰度尺度。通过微生物组图灵测试评估显示,生成样本在统计保真度和生物学相关性方面均优于MB-GAN等现有方法,为微生物组研究的合成数据生成提供了有力工具。
方法论创新
MGM采用秩值编码将微生物群落转化为序列表示,输入长度固定为512个标记,覆盖99.99%的样本。下游任务通过替换语言建模头为任务特定头进行微调,所有预训练层均参与更新。提示引导生成通过扩展词汇表实现,新增标签标记指示样本身份,使模型能够生成特定于样本的序列。
该研究首次将基础模型概念引入微生物组分析领域,通过大规模自监督预训练捕获微生物群落的通用模式,为微生物组研究提供了从表征学习到数据生成的统一框架,在微生物分类、疾病诊断和生物标志物发现等方面展现出显著优势。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号