今日动态 返回首页
会员注册 登录 生物通快讯免费订阅
  • 首页 今日动态 人才市场 新技术专栏 中国科学人 云展台
    BioHot
    • 定制我的BioHot
    • 进入我的BioHot
    • 进入我的集采
    • 肿瘤癌症研究
    • 免疫/基因/细胞疗法
    • 神经生物学
    • 健康与疾病
    • 衰老机制与长寿
    • 单细胞技术
    • 基因编辑-CRISPR
    • RNA研究
    • 肠道菌与人体微生态
    • 细胞代谢
    • AI生物信息学
    • COVID
    云讲堂直播 会展中心 特价专栏 技术快讯 免费试用

  • 生物通官微
    陪你抓住生命科技
    跳动的脉搏

生物通首页  >  今日动态  >  正文

推动生成式大型语言模型在蛋白质功能预测方面实现更具区分性的性能

《Genome Biology》:Advancing generative large language models toward discriminative performance in protein function prediction

【字体: 大 中 小 】 时间:2026年05月22日 来源:Genome Biology 9.4

编辑推荐:

  摘要背景尽管生成式大型语言模型(LLMs)凭借其先进的语义理解能力在多个研究领域取得了革命性进展,但它们在蛋白质功能预测方面的应用仍然有限。尽管已经付出了大量努力来开发整合生物知识的LLMs,但目前的方法主要集中在将它们的性能与通用基础模型(例如ChatGPT-4o、DeepSe

  

摘要

背景

尽管生成式大型语言模型(LLMs)凭借其先进的语义理解能力在多个研究领域取得了革命性进展,但它们在蛋白质功能预测方面的应用仍然有限。尽管已经付出了大量努力来开发整合生物知识的LLMs,但目前的方法主要集中在将它们的性能与通用基础模型(例如ChatGPT-4o、DeepSeek-v3)进行基准测试,而不是解决它们与专用判别模型(例如ESM2、基于ProtT5的模型)之间的显著性能差距。

结果

我们提出了OPUS-PLMM,这是一种多任务生成式LLM,它通过自然语言生成建立了序列到功能的范式。该模型整合了三个组成部分:模态编码、模态细化和指令调整。为了支持其训练,我们构建了两个数据集OPUS-InstructionCorpus和OPUS-InstructionCorpus-Evol,涵盖了六种蛋白质功能注释。在五个核心蛋白质功能预测任务(涵盖18个基准测试)中的评估表明,OPUS-PLMM不仅优于现有的整合生物知识的LLMs,在大多数情况下也超过了专用判别模型。

结论

我们的结果突显了LLMs在蛋白质功能预测方面的未探索潜力,并为开发生物LLMs提供了一个稳健、可扩展且具有通用性的解决方案。

背景

尽管生成式大型语言模型(LLMs)凭借其先进的语义理解能力在多个研究领域取得了革命性进展,但它们在蛋白质功能预测方面的应用仍然有限。尽管已经付出了大量努力来开发整合生物知识的LLMs,但目前的方法主要集中在将它们的性能与通用基础模型(例如ChatGPT-4o、DeepSeek-v3)进行基准测试,而不是解决它们与专用判别模型(例如ESM2、基于ProtT5的模型)之间的显著性能差距。

结果

我们提出了OPUS-PLMM,这是一种多任务生成式LLM,它通过自然语言生成建立了序列到功能的范式。该模型整合了三个组成部分:模态编码、模态细化和指令调整。为了支持其训练,我们构建了两个数据集OPUS-InstructionCorpus和OPUS-InstructionCorpus-Evol,涵盖了六种蛋白质功能注释。在五个核心蛋白质功能预测任务(涵盖18个基准测试)中的评估表明,OPUS-PLMM不仅优于现有的整合生物知识的LLMs,在大多数情况下也超过了专用判别模型。

结论

我们的结果突显了LLMs在蛋白质功能预测方面的未探索潜力,并为开发生物LLMs提供了一个稳健、可扩展且具有通用性的解决方案。

相关新闻
生物通微信公众号
生物通新浪微博
微信
新浪微博
我要投稿
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:生成式语言模型|蛋白质功能预测|OPUS-PLMM|多任务模型|生物知识整合|序列转功能范式|基础模型对比 解析说明:标题为“摘要”|内容包含背景、结果及结论三大部分。背景部分指出了当前生成式LLM在蛋白质领域的不足及对比专用模型的倾向。结果部分核心贡献是提出了OPUS-PLMM模型及其完成的五个任务评估(涵盖18个基准测试)。结论部分强调了该模型在展现LLM潜力及为未来工作提供方案方面的意义。这些信息决定了采用“1到5个”结合关键实体和核心概念的关键词组合。

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号