
-
生物通官微
陪你抓住生命科技
跳动的脉搏
推动生成式大型语言模型在蛋白质功能预测方面实现更具区分性的性能
《Genome Biology》:Advancing generative large language models toward discriminative performance in protein function prediction
【字体: 大 中 小 】 时间:2026年05月22日 来源:Genome Biology 9.4
编辑推荐:
摘要背景尽管生成式大型语言模型(LLMs)凭借其先进的语义理解能力在多个研究领域取得了革命性进展,但它们在蛋白质功能预测方面的应用仍然有限。尽管已经付出了大量努力来开发整合生物知识的LLMs,但目前的方法主要集中在将它们的性能与通用基础模型(例如ChatGPT-4o、DeepSe
尽管生成式大型语言模型(LLMs)凭借其先进的语义理解能力在多个研究领域取得了革命性进展,但它们在蛋白质功能预测方面的应用仍然有限。尽管已经付出了大量努力来开发整合生物知识的LLMs,但目前的方法主要集中在将它们的性能与通用基础模型(例如ChatGPT-4o、DeepSeek-v3)进行基准测试,而不是解决它们与专用判别模型(例如ESM2、基于ProtT5的模型)之间的显著性能差距。
我们提出了OPUS-PLMM,这是一种多任务生成式LLM,它通过自然语言生成建立了序列到功能的范式。该模型整合了三个组成部分:模态编码、模态细化和指令调整。为了支持其训练,我们构建了两个数据集OPUS-InstructionCorpus和OPUS-InstructionCorpus-Evol,涵盖了六种蛋白质功能注释。在五个核心蛋白质功能预测任务(涵盖18个基准测试)中的评估表明,OPUS-PLMM不仅优于现有的整合生物知识的LLMs,在大多数情况下也超过了专用判别模型。
我们的结果突显了LLMs在蛋白质功能预测方面的未探索潜力,并为开发生物LLMs提供了一个稳健、可扩展且具有通用性的解决方案。
尽管生成式大型语言模型(LLMs)凭借其先进的语义理解能力在多个研究领域取得了革命性进展,但它们在蛋白质功能预测方面的应用仍然有限。尽管已经付出了大量努力来开发整合生物知识的LLMs,但目前的方法主要集中在将它们的性能与通用基础模型(例如ChatGPT-4o、DeepSeek-v3)进行基准测试,而不是解决它们与专用判别模型(例如ESM2、基于ProtT5的模型)之间的显著性能差距。
我们提出了OPUS-PLMM,这是一种多任务生成式LLM,它通过自然语言生成建立了序列到功能的范式。该模型整合了三个组成部分:模态编码、模态细化和指令调整。为了支持其训练,我们构建了两个数据集OPUS-InstructionCorpus和OPUS-InstructionCorpus-Evol,涵盖了六种蛋白质功能注释。在五个核心蛋白质功能预测任务(涵盖18个基准测试)中的评估表明,OPUS-PLMM不仅优于现有的整合生物知识的LLMs,在大多数情况下也超过了专用判别模型。
我们的结果突显了LLMs在蛋白质功能预测方面的未探索潜力,并为开发生物LLMs提供了一个稳健、可扩展且具有通用性的解决方案。
生物通微信公众号