PepCL通过对比学习技术实现了对抗微生物肽的准确鉴定
《Computational Biology and Chemistry》:PepCL enables accurate antimicrobial peptide identification via contrastive learning
【字体:
大
中
小
】
时间:2026年05月11日
来源:Computational Biology and Chemistry 3.1
编辑推荐:
尚子茹|史天天|刘俊涛山东大学商学院,威海,264209,中国摘要抗菌肽(AMPs)因其广泛的抗菌潜力和对抗性的有利特性而成为有前景的抗感染候选者。然而,现有的AMP识别计算方法对残基级表示的区分性细化关注不够。在这项研究中,我们提出了PepCL,这是一个两阶段框架,用于预测AM
尚子茹|史天天|刘俊涛
山东大学商学院,威海,264209,中国
摘要
抗菌肽(AMPs)因其广泛的抗菌潜力和对抗性的有利特性而成为有前景的抗感染候选者。然而,现有的AMP识别计算方法对残基级表示的区分性细化关注不够。在这项研究中,我们提出了PepCL,这是一个两阶段框架,用于预测AMP的活性。第一阶段通过对比学习模块预训练残基级表示,以提高区分能力;第二阶段基于预训练的对比特征解码肽的活性。在三种类型的抗菌肽上进行评估时,PepCL在所有三项任务中的表现均优于现有最先进的基线方法,并展示了其学习的残基表示在两个阶段中的强可解释性。
引言
抗菌素耐药性已成为全球公共卫生的主要威胁,迫切需要具有与传统抗生素不同机制的新抗感染剂(Murray等人,2022年;Naghavi等人,2024年)。一项大规模的系统分析估计,2019年细菌抗菌素耐药性直接导致了约127万人死亡,并与全球495万人死亡相关,凸显了这一挑战的严重性(Murray等人,2022年)。在这种背景下,抗菌肽(AMPs)因其抗菌活性(Zasloff,2002年)以及多种作用模式(包括膜破坏、细胞内靶向和免疫调节(Brogden,2005年;Le等人,2017年)而受到持续关注。这种机制多样性被认为比许多传统抗生素更不容易导致耐药性的产生,从而突出了AMPs作为下一代抗感染分子的重要来源的潜力(Dijksteel等人,2021年;Mahlapuu等人,2016年)。因此,准确识别AMPs对于肽的发现和治疗开发具有重要意义(Agüero-Chapin等人,2022年;Ramazi等人,2022年)。
传统的AMP候选物实验筛选仍然成本高昂、劳动密集且耗时,尤其是在需要评估大量肽序列时,这促使人们越来越多地使用计算模型作为湿实验验证之前的高效预筛选工具(Bhadra等人,2018年;Lin等人,2021年)。AMP预测的计算方法已经从传统的机器学习(Wang等人,2022年)方法逐渐发展到深度学习,最近又发展到基于蛋白质语言模型的方法(Dee,2022年;Lu等人,2025年)。早期研究主要依赖于手动设计的序列和理化特征,结合传统的分类器,如SVM、RF和XGBoost(Thomas等人,2010年;Waghu等人,2014年)。随着深度学习的发展,AMPScanner(Veltri等人,2018年)代表了基于神经网络的AMP预测的早期步骤,而AMPlify(Li等人,2022年)引入了注意力机制来改进基于序列的AMP识别。TriNet(Zhou等人,2023年)进一步采用了三融合框架来整合互补的肽表示,而AMP-BERT(Lee等人,2023年)将基于BERT的序列建模扩展到了AMP功能预测。最近,PepNet(Han等人,2024年)结合了预训练的蛋白质语言模型与残差扩张卷积和残差Transformer模块来提高肽活性预测。这一进展使该领域从手工特征工程转向了更具表现力的学习表示(Rives等人,2021年;Fu等人,2024年)。
然而,现有的AMP预测方法仍存在局限性,严重限制了它们的预测准确性和实际应用。在代表性的AMP预测器中,肽表示通常是直接为下游监督分类学习的,而来自蛋白质语言模型的残基嵌入通常被用作固定输入或与辅助特征结合使用(Han等人,2024年;Guan等人,2025年)。因此,在下游分类之前对残基级表示进行明确的区分性细化受到了有限的关注。这些考虑促使我们在一个统一框架内改进残基级表示,以增强多个功能肽预测任务之间的区分能力。
为了解决上述问题,提出了PepCL,这是一个包含对比预训练和活性解码的两阶段框架。PepCL的工作流程如图1所示。在第一阶段,通过对比学习模块(Yang等人,2025年;Zhang等人,2024年)细化来自蛋白质语言模型(Elnaggar等人,2021年)的更具区分性的残基级肽表示,使相同标签的肽在嵌入空间中聚集成更紧密的簇,同时将不同标签的肽推得更远。在第二阶段,将细化的残基级表示传递给肽活性解码器进行AMP识别,其中肽级特征通过对比嵌入适配器进一步更新,以调整特征分布以便进行下游序列建模;使用旋转残差Transformer编码器捕获上下文相关的残基依赖性(Su等人,2024年);以及自适应平均池化来全局聚合与活性相关的残基信息,用于肽级分类。
PepCL在三个基准任务上进行了评估,包括AMP预测、抗菌肽(ABP)预测和抗哺乳动物细胞AMP预测(Xu等人,2023年)。在AMP基准测试中,PepCL的F1分数为0.985,MCC为0.970,分别比第二强的基线方法提高了5.2%和11.1%。在抗菌肽和抗哺乳动物细胞AMP基准测试中,PepCL的MCC值分别为0.491和0.405,分别比表现最好的基线方法提高了29.6%和57.6%。此外,可解释性分析表明,对比预训练阶段有效地将原始蛋白质语言模型表示重组为一个更具标签区分性的空间,而预测阶段通过残基级适应、上下文序列建模和肽级池化进一步增强了类别分离。这些发现支持PepCL作为有效的AMP识别统一框架。
节段摘录
数据准备
PepCL在三个与AMP相关的预测任务上进行了评估:通用抗菌肽预测、抗菌肽预测和抗哺乳动物细胞AMP预测。对于通用AMP任务,我们使用根据AMPlify(Li等人,2022年)的数据收集协议构建的基准测试集。正样本集包括来自抗菌肽数据库APD3(Wang等人,2016年)和两栖动物防御肽数据库DADP(Novkovi?等人,2012年)的肽。
PepCL框架概述
PepCL是一个用于肽功能预测的两阶段框架,其中由蛋白质语言模型生成的残基级表示首先通过对比预训练模块进行细化,然后传递给肽活性解码器进行AMP预测。如图1所示,该框架由两个连续的过程组成:对比编码器预训练和基于学习到的对比表示的肽分类。
在预训练阶段,ProtTrans T5
结论
准确预测肽功能仍然具有挑战性,因为短肽的生物活性通常由微妙的残基模式和上下文依赖关系决定。尽管预训练的蛋白质语言模型提供了有信息的残基级表示,但这些表示是从通用蛋白质语料库中学习得到的,并非专门为肽活性区分而优化。为了解决这个问题,我们开发了PepCL,该框架结合了对比预训练
资助
本工作得到了中国国家自然科学基金的支持,项目编号为62272268。资助者在研究设计、数据收集与分析、发表决定或手稿准备方面没有发挥任何作用。
CRediT作者贡献声明
尚子茹:撰写——原始草稿、方法学、正式分析、数据管理。刘俊涛:撰写——审阅与编辑、监督、资源管理、项目协调、方法学、资金获取、正式分析、概念化。史天天:撰写——审阅与编辑、撰写——原始草稿、可视化、验证、软件开发、方法学、调查、正式分析、数据管理。
作者声明他们没有已知的可能影响本文所报告工作的财务利益或个人关系。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号