基于大语言模型的噬菌体关键蛋白高分辨率宿主归属预测框架VirHost Hunter

《Nature Communications》:High-resolution phage-host assignment through key proteins using large language models

【字体: 时间:2026年03月21日 来源:Nature Communications 15.7

编辑推荐:

  针对环境中大量病毒序列功能未明的难题,研究人员开发了VirHost Hunter框架,通过聚焦噬菌体尾部蛋白和裂解酶,利用蛋白质语言模型和视觉Transformer捕捉功能同源性,实现了不依赖全基因组的、高效的宿主预测。该方法显著提升了预测准确性,成功揭示了靶向Akkermansia、Prevotella等肠道菌的未表征噬菌体,并据此构建裂解酶库,合成了可特异性靶向促肥胖细菌的裂解酶,为病毒组研究和微生物组疗法开辟了新途径。

  
在人类生存的各个角落,从深不可测的海洋到我们自身的肠道,存在着数量远超细菌的病毒。其中,噬菌体是感染细菌的病毒,它们与宿主之间上演着永无休止的“军备竞赛”,深刻影响着微生物生态系统的平衡,并在人类健康中扮演着双重角色——既是潜在的“天然抗生素”,也可能是抗生素耐药基因传播的“帮凶”。然而,我们对这支庞大的“病毒暗物质”军团知之甚少。宏基因组测序技术虽然为我们揭示了海量的病毒序列,但其中绝大多数是功能未知的“孤儿”序列,它们的遗传信息、感染哪些宿主、具有何种生物学功能,这些基本问题长期悬而未决。这种认知鸿沟严重阻碍了我们对病毒世界的探索,也限制了基于噬菌体的精准疗法等潜在应用的开发。问题的核心在于,传统方法鉴定噬菌体宿主主要依赖于与已知噬菌体的基因组序列相似性比对,或者需要同时获得噬菌体和其宿主细菌的全基因组信息,这在复杂环境样本中往往难以实现。因此,亟需一种不依赖全基因组、能够穿透序列差异、直接洞察功能关联的新型分析方法,来照亮这片“病毒暗物质”的广阔疆域。
为了应对这一挑战,研究人员开发了名为VirHost Hunter的计算框架。这项研究的主要技术方法包括:利用蛋白质语言模型(Protein Language Models)和视觉Transformer(Vision Transformers)模型,从噬菌体尾部蛋白和裂解酶的序列与结构中提取高维特征,以捕捉功能同源性;构建并校准预测模型,用于在疾病相关肠道细菌的背景下进行高精度宿主分配;以及基于预测结果建立肠道噬菌体裂解酶数据库,并从中设计合成具有特异杀菌活性的裂解酶。研究所用的病毒和细菌序列数据来源于公共宏基因组数据库。
研究结果
VirHost Hunter利用关键蛋白实现宿主预测
研究人员提出,噬菌体的尾部蛋白和裂解酶是决定其宿主范围的关键。VirHost Hunter框架绕过了对噬菌体全基因组的要求,仅基于这些关键蛋白的序列信息,通过蛋白质语言模型(如ESM-2)将其转化为蕴含结构和功能信息的向量表示。同时,研究人员创新性地将蛋白质序列视为“文本图像”,利用视觉Transformer模型提取序列模式特征。这两种特征的融合,使模型能够识别即使序列相似性很低、但功能相似的蛋白质,从而实现了高分辨率的噬菌体-宿主关联预测。
在肠道菌背景下验证并超越现有方法
为了评估VirHost Hunter的效能,研究团队在疾病相关的肠道细菌场景中对其进行了系统校准和测试。结果显示,相较于现有的流行方法(如iPHoP、PHIST等),校准后的VirHost Hunter将可分配宿主的噬菌体数量提升了一倍,并显著扩展了可预测的细菌分类学范围。更重要的是,它成功揭示了一批此前未被表征的、靶向重要肠道细菌如AkkermansiaPrevotella的噬菌体,这些细菌与代谢健康、炎症等密切相关。
构建裂解酶库并实现精准抗菌应用
基于VirHost Hunter的大规模预测能力,研究人员系统性地建立了一个专注于肠道菌的噬菌体裂解酶数据库。为了验证该平台在疗法开发中的实用性,他们从中筛选并理性设计合成了一种裂解酶。体外实验表明,该裂解酶能够高效、特异地裂解一种已知的促肥胖细菌,而对其他测试的肠道细菌则没有活性,展现了其作为精准抗菌剂的巨大潜力。
研究结论与意义
本研究开发的VirHost Hunter框架,通过巧妙利用噬菌体尾部蛋白和裂解酶这两类“关键钥匙”,并结合前沿的蛋白质语言模型与视觉Transformer技术,成功建立了一种不依赖全基因组的、高精度噬菌体宿主预测新方法。该方法不仅大幅提升了预测能力和覆盖范围,更在复杂的肠道微生物组环境中得到了有效验证,发现了新的病毒-宿主互作关系。更重要的是,研究者将这种计算预测能力直接转化为实际应用,构建了靶向肠道菌的裂解酶资源库,并成功示范了如何利用该资源设计出具有高度特异性的抗菌裂解酶。这项工作标志着病毒组(virome)研究从序列注释向功能解析和精准干预迈出了关键一步,其体现的“计算预测指导实验验证”的研究范式,以及所产生的工具和资源,为未来开发基于噬菌体或裂解酶的下一代精准微生物组疗法奠定了坚实基础。论文发表于《自然-通讯》(Nature Communications)。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号