综述:信号肽预测的计算方法:从统计模型到深度学习

《Biotechnology Advances》:Computational methods for signal peptide prediction: From statistical models to deep learning

【字体: 时间:2026年02月02日 来源:Biotechnology Advances 12.5

编辑推荐:

  信号肽是指导蛋白质定位的关键结构,传统实验方法成本高且效率低,促使计算模型发展。早期基于统计规则和HMM的方法奠定基础,后续引入深度学习及蛋白质语言模型,如SignalP 6.0、TSignal等,显著提升预测精度与泛化能力,但仍面临类不平衡和机制建模不足的挑战。

  
钱茂文|李新宇|宋嘉兴|徐俊林|孟亚杰|魏蕾艺|张子龙|邹全|崔菲菲
海南大学计算机科学与技术学院,海口570228,中国

摘要

信号肽是位于蛋白质N端的短氨基酸序列。它们引导新合成的蛋白质到达正确的细胞位置,在蛋白质定位和运输中起着关键作用。传统的识别信号肽的实验方法通常耗时、成本高昂且劳动密集,这推动了计算方法的发展。在过去二十年里,研究人员提出了多种计算方法,预测准确性通过从早期的统计和基于规则的算法发展到深度学习而不断提高。在这篇综述中,我们系统地总结了这些计算方法,强调了方法论的演变和框架设计。我们整理了代表性的计算方法,比较了它们的预测结果,并指出了现有的局限性。最后,我们讨论了当前的挑战和新兴的机会,旨在推进具有统一评估、生物学基础解释和生成建模特征的计算框架的发展。

引言

蛋白质在细胞内外的正确定位是它们生物功能的前提(Blobel, 1980; Chou and Shen, 2007a; Emanuelsson et al., 2007; Ramamurthi et al., 2009)。几乎所有参与分泌、跨膜信号传导、受体识别、病原体感染和免疫调节的关键蛋白质都依赖于精确的靶向运输机制。在这个靶向运输系统中,蛋白质N端的一个短肽序列——信号肽(SP)——被信号识别颗粒(SRP)识别(von Heijne, 1998)。SP将翻译中的多肽链导向内质网膜或相关的运输装置(Sundaram et al., 2025; von Heijne, 1990)。这一路由过程决定了蛋白质最终是进入分泌途径还是插入膜结构。SP不仅影响蛋白质在细胞内的空间分布,还决定了免疫系统如何识别抗原(Bland et al., 2003; Hirano et al., 2021),病原体如何分泌效应分子(Zhang et al., 2020a),以及肿瘤细胞如何调节分泌组织以塑造微环境(Yang et al., 2025)。SP甚至影响生物制药中抗体和治疗性蛋白质的分泌效率和工程设计(Grasso et al., 2023; Kober et al., 2013; Ling et al., 2020; O'Neill et al., 2023)。当前的实验方法(例如,N端测序(Kaushal and Lee, 2021; Wong and Doi, 1986)、质谱验证(Ying and Liu, 2007)、荧光标记追踪(Saraogi et al., 2011)可以直接确定SP的存在或切割位点。然而,这些方法通常成本高昂、耗时,通量有限,不适合大规模注释未注释的蛋白质序列(Messner et al., 2023; Wang et al., 2024b)。在高通量组学时代,序列数据的生成速度远远超过了实验验证能力(Consortium, 2022; de Crécy-lagard et al., 2022),仅依赖实验进行SP注释已不足以满足研究需求。在这种背景下,用于预测SP及其序列水平切割位点的计算方法作为一种关键的替代方案应运而生。这种方法逐渐发展成为一个具有明确定义和稳定评估框架的计算任务。
为了满足高通量预测的需求,研究人员开发了多种预测工具。早期的代表包括SignalP(Nielsen et al., 1997a; Nielsen et al., 1996)、Signal-CF(Chou and Shen, 2007b)和Phobius(K?ll et al., 2007)。这些模型基于统计规则和隐马尔可夫模型(Baum and Petrie, 1966)(HMM),为当时的蛋白质定位分析提供了基础的预测能力,并为后续研究建立了数据和评估框架。随着深度学习的发展,SP预测进一步整合了卷积神经网络(Kim, 2014)(CNN)、循环神经网络(Elman, 1990)(RNN)和注意力机制(Vaswani et al., 2017)。同时,得益于蛋白质大型语言模型的进步(Chen et al., 2025b; Luo et al., 2025b),像SignalP 6.0(Teufel et al., 2022)、TSignal(Dumitrescu et al., 2023)和PEFT-SP(Zeng et al., 2024)这样的方法通过大规模预训练嵌入和端到端建模显著提高了泛化能力,从而获得了更准确的预测结果。
这篇综述系统地追踪了SP预测方法的演变轨迹,从基于统计规则和HMM的早期方法到最近整合深度神经网络和蛋白质语言模型的进展。我们总结了现有代表性模型的性能指标,并分析了每种方法在特征建模和任务分解方面的特点。此外,我们整理了公开可用的数据集,并提出了潜在的研究方向,以指导未来的研究和应用。

生物背景和问题表述

位于多肽链N端的SP在序列和结构上表现出一定的规律性,使细胞内的特定酶能够在早期翻译过程中识别出注定要分泌或插入细胞膜的蛋白质(Keenan et al., 1998; Liaci et al., 2021; Owji et al., 2018)。在SignalP 6.0中,SP被分为两大类和五个子类(图1A),包括Sec系列(SPI, SPII, SPIII)和Tat系列(SPI, SPII)。

信号肽预测的计算方法演变

由于SP预测任务的独特性,计算方法不仅需要预测SP的存在,还需要确定其精确的切割位点。最初,SP预测依赖于对现有数据模式的统计分析来间接推断SP。然而,HMM的引入逐渐使计算方法从统计学转向从现有数据中学习。

数据资源和公共基准数据集

SP预测研究的进步在很大程度上依赖于高质量、可重复的数据资源和公开可用的基准。早期的数据集往往分散在文献或工具附录中,而近年来出现了结构化、标准化的资源,具有统一的注释系统和下载门户,为方法间的比较奠定了基础。本节重点介绍了代表性资源(表2),包括专注于模型训练的资源。

模型训练和验证

预测模型的训练和验证在模型开发过程中至关重要。不同的数据集划分和训练方法会影响模型是否能够有效学习预测任务的本质。以下部分将从模型训练和评估的角度详细阐述当前的研究。

基准评估:近期方法的统一比较

为了客观评估SignalP 6.0的性能,并使其能够与现有方法直接比较,我们选择了最近使用SignalP 6.0数据集训练的模型进行比较。比较模型包括SignalP 6.0、TSignal、PEFT-SP和USPNet。其中,SignalP 6.0、TSignal和PEFT-SP是在公开可用的SignalP 6.0训练集上训练的(表3),而USPNet是通过使用40%的序列同源性重新分割原始SignalP 6.0数据集构建的。

现有方法的局限性和开放性问题

尽管当今开发的计算方法在识别SP及其切割位点方面表现出令人满意的性能,但它们仍存在一些不可忽视的局限性。

信号肽预测的未来机遇

鉴于现有工具的现状,未来仍有很大的改进、优化和创新空间。

结论

作为蛋白质定位研究的核心组成部分,SP预测经历了持续的演变——从统计特征分析和基于规则的推断发展到概率建模和深度学习,再到蛋白质语言模型和端到端框架。虽然当前的计算方法能够在大规模数据集上实现精确的SP识别和切割位点定位,但它们仍受到类别不平衡和机制建模不足的限制,还有进一步改进的空间。

CRediT作者贡献声明

钱茂文:概念构思、调查、写作——原始草稿。李新宇:调查、数据管理、写作——审阅和编辑。宋嘉兴:调查、数据管理、写作——审阅和编辑。徐俊林:调查、监督。孟亚杰:调查、监督。魏蕾艺:调查、监督、资金获取。张子龙:调查、监督。邹全:调查、监督、资金获取。崔菲菲:概念构思、调查,

写作过程中生成AI和AI辅助技术的声明

在准备这项工作时,作者使用了生成AI工具ChatGPT来提高手稿的可读性和语言表达。作者审查并验证了所有AI辅助的翻译,以确保准确性和与原始内容的一致性,并对发表文章的内容负全责。

未引用的参考文献

Chen et al., 2025a
Luo et al., 2025a

利益冲突声明

作者声明没有利益冲突。

致谢

本工作得到了国家自然科学基金(编号:62450002)和澳门科学技术发展基金(编号:0177/2023/RIA3)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号