LocPred-Prok:一种基于双分支架构和蛋白质语言模型的原核生物蛋白质亚细胞定位预测方法
《Journal of Molecular Biology》:LocPred-Prok: Prokaryotic protein subcellular localization prediction with a dual-branch architecture and protein language model
【字体:
大
中
小
】
时间:2026年01月31日
来源:Journal of Molecular Biology 4.5
编辑推荐:
精准定位原核细胞中蛋白质的功能与分布至关重要,但现有模型在细胞壁或外膜蛋白等复杂类别中表现不足。本研究提出LocPred-Prok框架,通过双分支架构整合全局和局部序列特征(基于pLM嵌入),在严格同源性划分的基准测试中达到91.2%准确率和0.889 MCC,显著优于DeepLocPro和PSORTb 3.0,特别是在革兰氏阳性细胞壁和革兰氏阴性外膜蛋白等传统难点类别上实现突破。
Zilu Zeng|Lei Wang
武汉儿童医院,同济医学院,华中科技大学,香港路430070,武汉,中国
摘要 在原核细胞内精确定位蛋白质对于理解其功能至关重要。然而,现有的模型在处理某些具有挑战性的蛋白质定位类别(如细胞壁或外膜蛋白)时仍存在困难。我们提出了LocPred-Prok这一新型深度学习框架,它重新定义了原核细胞亚细胞定位的性能标准。LocPred-Prok采用了一种专门设计的双分支架构,能够协同整合从蛋白质语言模型(pLM)嵌入中提取的全局和局部序列特征。在一个严格的、基于同源性划分的基准测试中,LocPred-Prok达到了91.2%的准确率和0.889的马修斯相关系数(MCC)。更重要的是,它解决了长期存在的预测难题,在像革兰氏阳性细胞壁蛋白和革兰氏阴性外膜蛋白这样难以预测的类别上表现出了卓越的性能。它在所有生物亚群中的表现都显著优于近期和经典的预测方法,标志着该领域的一个重大进步。LocPred-Prok的网络服务器可免费访问:
https://huggingface.co/spaces/isyslab/LocPred-Prok 。
引言 细胞内蛋白质的空间组织与其生物学功能密不可分[1]、[2]。在原核生物中,这一原则至关重要,蛋白质的亚细胞位置决定了它在从细胞质中的核心代谢到膜上的环境感知以及通过分泌效应子与宿主-病原体相互作用等多种过程中的作用[3]、[4]。因此,准确、大规模地预测蛋白质的定位不仅是一项分类任务,也是功能基因组注释、识别新的药物靶点(例如表面暴露的蛋白质)以及为生物技术应用改造微生物的关键步骤[5]。
虽然真核生物亚细胞定位的预测是一个成熟的领域,拥有大量的可用工具[6]、[7]、[8],但原核生物领域却面临着独特且尚未得到充分解决的挑战。例如,革兰氏阴性细菌复杂的多层包膜结构导致了一组更为复杂的定位问题。历史上,PSORTb 3.0[9]等标志性工具为这一领域提供了帮助,它整合了多种生物特征。然而,许多后续工具已经不再更新或不再公开维护,从而留下了一个重要的空白[10]、[11]。
在当前的深度学习时代,基于序列的预测模型的发展受到了OpenAI等机构验证的“扩展定律”[12]、[13]、[14]的显著影响。这一现象在蛋白质语言模型(pLM)中尤为明显,模型的性能通常与模型规模呈幂律关系[15]、[16]、[17]。例如,ESM-2系列的研究表明,将参数从数百万增加到数十亿可以持续降低模型的困惑度并提高结构预测的准确性[15]。因此,计算生物学领域的普遍观点认为,最大的基础模型能够普遍提升下游任务的性能。与此观点一致,最近的先进预测模型(如DeepLocPro[18])利用大规模的pLM来提升性能。然而,这种进步也暴露了一些新的局限性,表明“越大越好”的策略可能并不适用于所有情况。除了预测准确性之外,部署如此庞大的模型还会带来巨大的计算负担。对数十亿参数模型的依赖需要高性能计算资源,尤其是高内存的GPU,这大大限制了它们的可用性,并阻碍了在资源受限环境下的快速、高通量分析。此外,关键分析表明,即使是像DeepLocPro这样的先进工具也存在明显的性能差距。尽管使用了6.5亿参数的模型,它在对代表性不足的系统群(如古菌)的预测上仍然表现不佳(MCC = 0.79),并且在具有复杂保留信号的少数类别(如革兰氏阳性细胞壁蛋白)上的表现也很差(MCC = 0.28)。这些缺陷——无论是在计算效率还是预测泛化能力方面——表明,盲目扩大模型规模而不进行针对性的下游架构设计可能会导致冗余,或者无法捕捉到对原核生物分类至关重要的特定局部信号。
为了解决这一科学难题,我们开发了LocPred-Prok这一用于原核细胞亚细胞定位的新框架。我们挑战了该领域中的两个普遍假设:首先,我们认为对于这一特定任务存在一个最佳的非最大pLM规模;其次,我们认为一个专门设计的下游架构对于充分发挥模型的性能至关重要,该架构能够以生物学上有意义的方式解释pLM嵌入。我们提出的双分支架构能够分离并智能地整合控制蛋白质分类的全局和局部序列特征。我们的研究结果表明,一个中等规模的1.5亿参数ESM-2模型,结合我们的先进架构,建立了新的性能标杆。LocPred-Prok表明,性能提升的下一个前沿不在于模型规模的单纯扩大,而在于pLM模型及其下游解释器的协同设计。
研究设计和技术路线图 本研究的总体目标是通过系统优化特征提取器(pLM)和下游分类器架构,开发出更优秀的原核蛋白质亚细胞定位预测器。我们的技术路线图如图1所示,遵循多阶段的设计和验证流程。首先,我们采用了一个严格的、公开可用的基准数据集,以确保比较的公平性和可重复性。其次,我们对多种方法进行了系统的评估
LocPred-Prok在原核蛋白质定位预测方面建立了新的性能标杆 为了严格评估我们的最终模型,我们将LocPred-Prok与最先进的DeepLocPro和经典基准模型PSORTb 3.0进行了对比。图2中的综合结果明确显示,LocPred-Prok在所有原核生物亚群中都建立了新的性能标准。
图2的顶部行(a-c面板)展示了LocPred-Prok在整体性能指标上的显著领先优势。在三个生物域中——古菌、
讨论 由于蛋白质转运机制的多样性以及少数类别标记数据的稀缺性,准确预测原核蛋白质的亚细胞位置仍然是一个挑战。我们的研究通过结合专门设计的双分支架构和适当缩放的蛋白质语言模型,建立了新的性能标杆。我们工作的一个关键发现是pLM规模与下游性能之间存在非线性关系,其中ESM-2-150M模型的表现优于更大规模的模型
作者贡献声明 Zilu Zeng构思并设计了这项研究,进行了实验并进行了数据分析。Lei Wang监督了研究并提供了重要的修改意见。Zilu Zeng和Lei Wang共同撰写并审阅了手稿。所有作者都阅读并批准了最终版本的手稿。
CRediT作者贡献声明 Zilu Zeng :撰写——审阅与编辑,撰写——初稿,方法论,数据分析,概念化。Lei Wang :撰写——审阅与编辑,撰写——初稿,可视化,软件开发,资金获取,概念化。
致谢 本研究得到了中国湖北省自然科学基金(项目编号2025AFB159)和CPSF博士后奖学金计划(项目编号GZC20240545)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号