蛋白质在细胞内外的正确定位是它们生物功能的前提(Blobel, 1980; Chou and Shen, 2007a; Emanuelsson et al., 2007; Ramamurthi et al., 2009)。几乎所有参与分泌、跨膜信号传导、受体识别、病原体感染和免疫调节的关键蛋白质都依赖于精确的靶向运输机制。在这个靶向运输系统中,蛋白质N端的一个短肽序列——信号肽(SP)——被信号识别颗粒(SRP)识别(von Heijne, 1998)。SP将翻译中的多肽链导向内质网膜或相关的运输装置(Sundaram et al., 2025; von Heijne, 1990)。这一路由过程决定了蛋白质最终是进入分泌途径还是插入膜结构。SP不仅影响蛋白质在细胞内的空间分布,还决定了免疫系统如何识别抗原(Bland et al., 2003; Hirano et al., 2021),病原体如何分泌效应分子(Zhang et al., 2020a),以及肿瘤细胞如何调节分泌组织以塑造微环境(Yang et al., 2025)。SP甚至影响生物制药中抗体和治疗性蛋白质的分泌效率和工程设计(Grasso et al., 2023; Kober et al., 2013; Ling et al., 2020; O'Neill et al., 2023)。当前的实验方法(例如,N端测序(Kaushal and Lee, 2021; Wong and Doi, 1986)、质谱验证(Ying and Liu, 2007)、荧光标记追踪(Saraogi et al., 2011)可以直接确定SP的存在或切割位点。然而,这些方法通常成本高昂、耗时,通量有限,不适合大规模注释未注释的蛋白质序列(Messner et al., 2023; Wang et al., 2024b)。在高通量组学时代,序列数据的生成速度远远超过了实验验证能力(Consortium, 2022; de Crécy-lagard et al., 2022),仅依赖实验进行SP注释已不足以满足研究需求。在这种背景下,用于预测SP及其序列水平切割位点的计算方法作为一种关键的替代方案应运而生。这种方法逐渐发展成为一个具有明确定义和稳定评估框架的计算任务。
为了满足高通量预测的需求,研究人员开发了多种预测工具。早期的代表包括SignalP(Nielsen et al., 1997a; Nielsen et al., 1996)、Signal-CF(Chou and Shen, 2007b)和Phobius(K?ll et al., 2007)。这些模型基于统计规则和隐马尔可夫模型(Baum and Petrie, 1966)(HMM),为当时的蛋白质定位分析提供了基础的预测能力,并为后续研究建立了数据和评估框架。随着深度学习的发展,SP预测进一步整合了卷积神经网络(Kim, 2014)(CNN)、循环神经网络(Elman, 1990)(RNN)和注意力机制(Vaswani et al., 2017)。同时,得益于蛋白质大型语言模型的进步(Chen et al., 2025b; Luo et al., 2025b),像SignalP 6.0(Teufel et al., 2022)、TSignal(Dumitrescu et al., 2023)和PEFT-SP(Zeng et al., 2024)这样的方法通过大规模预训练嵌入和端到端建模显著提高了泛化能力,从而获得了更准确的预测结果。
这篇综述系统地追踪了SP预测方法的演变轨迹,从基于统计规则和HMM的早期方法到最近整合深度神经网络和蛋白质语言模型的进展。我们总结了现有代表性模型的性能指标,并分析了每种方法在特征建模和任务分解方面的特点。此外,我们整理了公开可用的数据集,并提出了潜在的研究方向,以指导未来的研究和应用。