S2-PepAnalyst：基于机器学习的植物小信号肽预测与分类平台及其在作物改良中的应用

《Plant Biotechnology Journal》：S2-PepAnalyst: A Web Tool for Predicting Plant Small Signalling Peptides

【字体：大中小】 时间：2026年01月30日 来源：Plant Biotechnology Journal 10.5

编辑推荐：

　　本综述系统介绍了S2-PepAnalyst这一创新性网络工具，该工具通过整合蛋白质语言模型（ESM-2/TAPE）与几何拓扑特征分析（GeoTop），结合强化学习（RL）优化，实现了对植物小信号肽（SSPs）的高精度预测（准确率99.5%）和功能分类。该平台能够有效识别非经典分泌肽（如PEP1），并在十字花科（如拟南芥）和蔷薇科（如番茄、芒果、鳄梨）等物种中表现出卓越的跨物种适用性，为植物细胞通讯研究和作物性状改良提供了强大计算支持。

1 引言

植物小信号肽（SSPs）作为细胞间通讯的关键介质，在植物生长发育和应激响应中发挥核心作用。这类肽通常以前体蛋白形式合成，包含N端分泌信号、中央可变区和C端保守基序，成熟肽长度多为5-20个氨基酸。与传统植物激素不同，SSPs具有显著结构异质性，可分为翻译后修饰肽（如磺化PSK、羟基化CLE）和富含半胱氨酸肽（如形成二硫键的RALF、EPF）。其作用机制主要通过结合膜定位受体激酶触发特异性细胞响应。

2 结果

2.1 植物SSP发现集成框架

S²-PepAnalyst创新性地融合了植物特异性数据集与机器学习模型，采用双向Transformer编码器ESM-2生成蛋白质语义表示，并通过TAPE基准评估嵌入鲁棒性。平台通过GeoTop模块分析蛋白质嵌入的拓扑特征（如持续同调群H₀/H₁），捕捉SSPs空间结构模式。针对含信号肽的SSPs，采用预训练深度卷积神经网络（CNN）精确预测切割位点。

2.2 性能基准测试

在包含18个实验验证SSPs的精选数据集上，S²-PepAnalyst预测准确率达100%，显著优于SignalP 6.0（65%）。在779序列的通用数据集I和1177序列的通用数据集II中，准确率分别为99%和98%。受试者工作特征曲线（ROC）分析显示曲线下面积（AUC）为0.998，马修斯相关系数（MCC）平均达0.985。对拟南芥CTNIP1-5家族独立验证中，工具成功识别所有5个肽为信号肽。

2.3 跨物种性能

平台在进化多样性物种中保持稳定高精度，拟南芥达99.5%，番茄97.8%，芒果97.1%。鳄梨品种间差异不显著（'Hass'96.2% vs 'Gwen'95.7%）。多指标评估显示预测置信度与序列保守性高度相关（MCC=0.928-0.985）。

2.4 AA长度与信号功能相关性

分析揭示AA长度分布与信号功能间存在规律性关联。精选数据集中功能性信号肽（如CLE、RALF、PEP家族）显著富集于88-132 AA范围。通用数据集I中信号活性峰值出现在108-142 AA窗口，<74 AA信号相关序列锐减。这种长度依赖模式表明植物信号肽典型尺寸范围为约88-142 AA。

2.5 生物学见解

功能SSPs主要聚集于88-142氨基酸窗口（95%验证肽），范围外预测置信度急剧下降。下限（74 AA）可能反映正确折叠结构需求，上限（142 AA）可能防止分泌过程中空间位阻。CLE肽显示保守羟基化模式，RALF家族保持不变半胱氨酸间距，PSK呈现典型磺化兼容酪氨酸簇。鳄梨品种间核心肽家族保守，但'Hass'防御相关肽（如PIPs）检测率更高，反映其育种历史差异。

2.6 功能分类

平台将信号肽可靠分类为功能 distinct 家族，包括翻译后修饰肽（PSK、CLE、IDA）和富含半胱氨酸肽（RALF、EPF、LURE）。分类整合多证据线：特定修饰保守序列基序、介导二硫桥形成半胱氨酸结构模式、序列同源性推断进化关系。强化学习（RL）整合使分类准确率提升12%。

2.7 网络工具界面与功能

S²-PepAnalyst实施为基于Python后端的网络平台，支持FASTA格式单序列/批处理输入。用户友好界面提供实时预测信号肽及潜在家族分类。以番茄蛋白质组数据处理为例，工具成功区分信号/非信号肽，准确分配已知家族（如CLE、ATCLV3）。平台计算效率满足大规模蛋白质组分析需求。

3 讨论

S²-PepAnalyst通过解码SSPs三维语言革新植物肽发现方法。传统工具依赖线性序列基序，本平台解读调控肽功能结构特征——从介导受体结合电荷梯度到维持生物活性构象立体特异性半胱氨酸框架。这些空间模式对序列分析不可见，但在植物分类群间显示显著保守性，实现经典SSPs和非传统变体（如损伤相关Pep1，检测率92%）可靠识别。

4 材料与方法

4.1 数据集收集预处理

开发使用实验验证植物信号肽扩展数据集，包含拟南芥、番茄、鳄梨（Hass、Gwen品种）和芒果等物种。预处理整合SignalP 6.0切割位点评分作为特征输入，序列按实验证据二分分类为信号/非信号肽。设三个基准数据集：18个肽精选集、779序列通用集I、1177序列通用集II（含信号/非信号肽平衡代表）。

4.2 特征提取模型架构

采用双蛋白质语言模型方法生成全面序列表示。框架整合TAPE和ESM-2，产生768和1280维向量嵌入。嵌入通过填充和重塑为28×28（TAPE）和36×36（ESM-2）矩阵，启用后续几何分析。转换矩阵作为GeoTop输入，应用拓扑数据分析（TDA）和Lipschitz-Killing曲率（LKCs）方法。

4.3 几何拓扑分析

拓扑框架通过超水平集过滤分析蛋白质表示，其中对任意实值参数t，包含关系成立。过滤生成嵌套二进制图像家族，其拓扑特征通过持续同调群H_k量化。经验优化建立使用200等距阈值值的分析协议，覆盖转换蛋白质图像全强度范围。

4.4 深度学习集成

框架包含修改LeNet-5卷积神经网络（CNN）架构嵌入强化学习管道。两种配置处理拓扑表示：32×32输入模型用于TAPE衍生特征，41×41变体用于ESM-2嵌入。这种双路径设计实现从两种语言模型表示全面特征提取，同时保持下游强化学习组件架构兼容性。

4.5 强化学习

S²-PepAnalyst强化学习组件采用行动者-评论家架构动态选择最合适分类器——ESM-2或TAPE通路——用于每个输入蛋白质序列。这种自适应选择机制允许模型利用两种蛋白质语言模型互补优势，提高整体预测准确性和鲁棒性。奖励函数结合三个关键生物指标：准确性、合理性和表示质量。

4.6 训练评估

训练管道整合TAPE、ESM-2和GeoTop嵌入特征提取。几何表示从GeoTop衍生转换，与原始嵌入连接生成1024维特征向量。数据集分区为训练集（80%）和最终保留测试集（20%）。模型训练进行预定周期数，每个周期开始时训练数据洗牌防止数据序列潜在偏差。

4.7 模型评估

模型性能采用分层评估策略。初始基准测试使用18个挑战序列手动精选集（14个SSPs，4个非SSPs），覆盖8个蛋白质组和多个SSP家族，与SignalP 6.0比较分析。后续验证使用两个扩展数据集：46个物种779个已知SSPs和1177个序列（779个SSPs+398个非SSPs），确认强大跨物种性能。

4.8 功能分类

为实现拟南芥信号肽稳健家族分类，采用持续同调量化序列间结构关系。分析计算数据集中所有序列H₀持续图，随后进行成对Wasserstein距离计算建立拓扑相似性。p-Wasserstein距离定义为两个持续图间所有可能双射下距离下确界。

4.9 网络工具开发

S²-PepAnalyst网络平台使用Python后端实现，集成Keras、PyTorch和Transformer库，具响应式Django框架界面。平台通过四个核心功能为研究人员提供直观分泌肽分析工作流程：序列分析、交互可视化、数据导出和系统效率验证。

4.10 计算复杂度可扩展性

通过分析其卷积神经网络架构系统评估S²-PepAnalyst计算需求。模型参数数量和操作复杂度随卷积滤波器尺寸和输入序列维度缩放。应用于LeNet-5实现（22个总滤波器），处理10个平均长度80残基序列产生操作复杂度。

4.11 性能优化

三个关键策略保持实用计算效率：GPU加速显著减少训练时间；优化卷积操作实现单序列推理0.63秒；批处理15.7秒完成SSP候选家族分类。初始训练阶段超参数调优需要大量计算，但部署模型展示可扩展性能适合高通量分析。

热点排行

新闻专题