CoLPAT-AMP:一种基于Transformer的框架,用于设计具有特性认知和部分可控长度的新型抗菌肽

《Expert Systems with Applications》:CoLPAT-AMP: A Transformer-Based framework for Designing novel antimicrobial peptides with property Awareness and partially controllable length

【字体: 时间:2026年03月09日 来源:Expert Systems with Applications 7.5

编辑推荐:

  对抗微生物耐药性,本研究提出基于Transformer的CoLPAT-AMP模型,通过条件化训练实现序列长度部分控制,对比有条件(整合ESM-2嵌入与物理化学特性)和无条件模型,验证条件模型在保真度(0.70 vs 0.53)、新颖性(1 vs 0.85)和多样性上的优势,同时保持抗菌活性。

  
阿巴斯·萨利米|金勇李
韩国水原成均馆大学化学系,16419

摘要

世界卫生组织警告称,抗菌素耐药性(AMR)对公共卫生构成全球性威胁,并呼吁发现新的抗菌肽(AMPs)作为潜在的治疗替代方案。人工智能(AI)彻底改变了AMPs的搜索方式,但现有的生成模型(如基于GANs或扩散的模型)往往缺乏对保真度、新颖性和多样性之间权衡的系统性评估。此外,序列长度很少被作为一个明确的可控设计参数来处理。在这里,我们提出了CoLPAT-AMP,这是一个基于Transformer的专家系统,能够在AMP生成过程中部分控制序列长度。实现了两个互补的模型并进行比较:(1)一个条件模型,在训练期间将ESM-2嵌入与理化性质和序列长度条件相结合(在推理时不明确指定性质);(2)一个无条件模型,仅基于AMP序列进行训练。条件模型实现了更低的重建损失(0.99对比1.73)、更高的重建准确性(0.70对比0.53)、更高的新颖性(1对比0.85)和更大的多样性。虽然无条件模型生成的序列与真实AMPs之间的理化性质重叠度更高,表明其更符合训练数据集的分布。一个独立的AMP分类器进一步证实,两种模型生成的大部分序列都保持了抗菌特性。这些发现表明,条件模型能够实现部分控制并扩展对更多多样性的探索,而无条件模型则更注重性质的保真度。总体而言,CoLPAT-AMP提供了一个具有性质意识且部分可控制序列长度的框架,用于合理的AMP设计,推动了AI驱动的策略,以探索肽空间并对抗抗菌素耐药性。

引言

由于抗生素的滥用,抗菌素耐药性(AMR)已成为一个严重的全球健康问题,据估计2019年细菌AMR导致了495万人死亡,预计到2050年每年将增加到1000万人,甚至超过癌症成为主要死因(Ajulo和Awosile,2024年;Das等人,2021年;Huang等人,2023年;Szymczak等人,2023年;J. Wang等人,2025年;Y. Wang等人,2025年)。尽管抗生素彻底改变了现代医学,但它们当前疗效的下降和新抗生素发现的缓慢速度对医疗系统和制药行业构成了重大挑战(Huang等人,2023年;Nedyalkova等人,2024年;Pandi等人,2023年;Szymczak等人,2023年;Zhao等人,2025年)。作为回应,抗菌肽(AMPs)因其对细菌、病毒、真菌甚至癌细胞的广泛有效性而受到越来越多的关注。它们去除病原体和抑制癌症生长的双重能力使它们成为解决AMR危机的前沿解决方案(Bucataru和Ciobanasu,2024年;Das等人,2021年;Xing等人,2023年)。
AMPs是短的,通常由10-100个氨基酸残基组成,是天然存在的肽,具有阳离子性和两亲性,分子量小于10 kDa。它们在不同生物体的先天免疫防御中起着关键作用(Ramazi等人,2022年;Szymczak等人,2025年;J. Wang等人,2025年;Wei等人,2022年)。大多数AMPs带正电荷,而细菌膜带负电荷(Chen等人,2024年;Nedyalkova等人,2024年)。AMPs通过静电相互作用附着在细胞膜上,破坏膜结构并导致细胞裂解,从而表现出广谱活性(Bucataru和Ciobanasu,2024年;Chen等人,2024年;Pandi等人,2023年;Sun等人,2025年;Xing等人,2023年)。疏水性氨基酸有助于膜相互作用(Nedyalkova等人,2024年)。AMP的净电荷被认为是其抗菌活性的关键因素,而最近的研究也强调了其他特性(如溶解度和稳定性)在其对抗细菌效果中的关键作用(Nedyalkova等人,2024年;Ramazi等人,2022年;Strandberg等人,2015年)。
与小分子相比,基于肽的药物副作用更低,生物活性更高(Chen等人,2024年;Wei等人,2022年)。由于它们的结构和功能多样性、较低的耐药性以及高效力,AMPs被视为传统抗生素的有希望的替代品(Pandi等人,2023年;J. Wang等人,2025年)。尽管AMPs与传统抗生素相比具有巨大潜力,但仍存在一些挑战,如毒性不确定、在极端条件下的活性降低以及大序列的折叠问题,这些都阻碍了它们的广泛临床应用。尽管AMPs通常较短、有效、高度选择性且耐受性良好,但大规模识别和生产仍然困难且成本高昂(Ramazi等人,2022年)。开发新的AMPs需要考虑其有效性质,并涉及大量的实验尝试和错误(Murakami等人,Ishida等人,Demizu等人,Terayama等人,2023年)。鉴于现有肽的临床成功有限,需要创新的方法来设计新的AMPs(Szymczak和Szczurek,2023年;Szymczak等人,2025年)。
近年来,应用计算机辅助方法(如定量结构-活性关系(Anonymous,2025年)、语言模型、从头设计、进化算法和深度生成模型)来加速AMPs和药物设计的工作显著增加(Anonymous,2024年;Anonymous,2022年)。例如,最近研究了使用注意力增强变分自编码器的适配体的潜在空间(Anonymous,2024年)。由于肽序列空间巨大(估计多达32个残基的序列约为4.5×10^41),发现有效的新型AMPs极具挑战性(Huang等人,2023年;Porto等人,2018年;Szymczak等人,2025年;J. Wang等人,2025年)。为了解决这些挑战,AI已成为一个强大的工具(Das等人,2021年;Wan等人,2024年)。AI可以帮助预测AMPs的生物活性、结构特征和性质。深度学习的进步促进了AMPs的创建和识别(Hu等人,Xiao等人,Liu等人,Ma等人,2025年;Wan等人,2024年;R. Wang等人,2024年)。利用AI的力量进行AMP开发可以克服传统方法的局限性,降低成本和时间(Hu等人,2025年)。合成方法和生成AI显示出发现新型AMPs的巨大潜力,超越自然界中发现的AMPs(Chen等人,2024年;Lee等人,2023年)。虽然存在生成不现实序列的风险,但这些模型为发现多样性和有效的AMPs提供了巨大潜力(Szymczak等人,2025年)。
已经应用了各种机器学习(ML)和深度学习(DL)技术来预测和生成AMPs。传统的ML方法如随机森林(RF)和梯度提升(GB)依赖于特征工程和领域专业知识。DL方法,包括循环神经网络(RNNs)、卷积神经网络(CNNs)和长短期记忆网络(LSTMs),可以从数据中提取复杂特征。深度生成模型,如变分自编码器(VAEs)、生成对抗网络(GANs)和基于RNN的架构,已用于AMPs设计(Cai等人,2025年;Hu等人,2025年;Huang等人,2023年;Kavousi等人,2020年;Medina-Ortiz等人,2024年;Veltri等人,2018年;J. Wang等人,2025年)。仅在大数据集上训练并不能保证生成具有特定特征的肽。为了克服这一挑战,采用了条件生成框架,如条件VAEs和GANs。然而,开发高效且具有理化性质意识的生成模型仍然具有很高的兴趣和紧迫性(Szymczak等人,2025年;Zhao等人,2025年)。最近,基于Transformer架构的大型语言模型(LLMs)通过有效利用注意力机制和生成创新结构,为研究大型蛋白质数据集提供了新的机会(Mao等人,2023年;Szymczak等人,2025年)。像ProtTrans、TAPE和ESM-2(进化尺度建模)这样的模型,受到自然语言处理(NLP)进展的启发,展示了学习更准确蛋白质序列表示的显著能力(Cai等人,2025年;Ma等人,2022年;Szymczak等人,2025年)。基于Transformer架构的ESM-2是领先的蛋白质语言模型之一,通过帮助机器更好地理解肽特性而表现出色(Y. Wang和Fang,2024年)。这些模型在6500万个序列上进行了训练,远高于前身ESM-1b模型(Cordoves-Delgado和García-Jacas,2024年)。
可以通过分析其氨基酸序列中嵌入的功能信息来预测AMPs。深度学习和机器学习方法(如RF、SVM)通过提取有意义的特征(包括理化性质、氨基酸信息)提供了强大的泛化能力来分类AMPs(Gao等人,2024年;Ma等人,2022年)。
在这项研究中,我们开发了一个使用ESM-2模型作为编码器的条件Transformer,用于从头生成AMPs,结合了明确的理化性质和长度条件。在当前的实现中,在推理过程中,可以通过在所需范围内采样来部分控制序列长度,而性质则从输入数据中获取,无需明确提供。在精确的用户控制下生成具有所需理化性质的序列并非我们当前工作的重点,将在未来的研究中进一步探讨。我们进行了消融研究,以评估施加条件对模型性能的贡献。此外,通过提取肽的各种特征,使用机器学习方法对生成的肽进行了下游分类,将其分为AMP和非AMP,从而更好地了解了序列的有效性。条件模型和无条件模型的工作流程分别展示在图1和图2中。我们研究了条件如何影响生成质量、保真度、多样性和唯一性。专注于AMP生成而不是现有肽的优化,强调了探索新型肽空间的重要性,这对于应对AMR至关重要。开发能够生成新型肽并被预测为AMPs的模型将对药物发现界和医疗系统做出有价值和紧迫的贡献。

小节片段

数据集准备和预处理

在这项研究中,生成模型的数据集来自Zhao.w等人之前的研究(Zhao等人,2025年),其中包括DRAMP(Shi等人,2021年)、APD(G. Wang、Li和Wang,2015年)和LAMP(Ye等人,2020年)数据库。为了避免信息泄露和模型性能的高估,在模型训练之前检查了所有肽序列是否重复。确认没有重复序列后,数据集被分为训练集和

生成模型的训练和优化

训练和验证分别进行了50个和70个周期,批量大小设置为32。计算重建损失和准确性损失以监控模型性能。重建损失(公式1)通过“CrossEntropy”计算,忽略填充标记。准确性函数通过将预测标记与目标标记进行比较来衡量标记级别的准确性(公式2)。忽略填充元素有助于提高重建的质量(Zhao等人,2025年)。

结论

最近使用AI方法进行AMP生成的研究,包括条件GANs、扩散模型和具有性质意识的Transformer,引入了通过自然语言提示、低维嵌入或潜在向量进行条件化。有时缺乏对训练分布的保真度、新颖性和多样性之间权衡的系统性评估。此外,在大多数情况下,长度没有作为明确的输入数据包含在模型中,而是通过序列间接提供

未引用的参考文献

Wang等人(2025年)。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的竞争财务利益或个人关系。

致谢

这项工作得到了国家研究基金会(NRF)的资助(RS-2019-NR040081,由韩国政府资助。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号