《Journal of Molecular Biology》:AggrescanAI: Prediction of Aggregation-Prone Regions Using Contextualized Embeddings
编辑推荐:
蛋白质聚集是阿尔茨海默病等神经退行性疾病的关键机制,现有预测方法依赖结构数据或物理化学特征。本文提出AggrescanAI工具,利用蛋白质语言模型ProtT5的上下文嵌入和深度学习,无需结构数据即可直接预测序列中单 residue的聚集倾向。该方法通过同源扩展数据集、集成学习模型优化和交叉验证,在实验验证集上显著优于传统方法,尤其擅长识别无序蛋白中的致病突变诱导的聚集模式,并提供开源Google Colab实现。
阿尔瓦罗·M·纳瓦罗(Alvaro M. Navarro)|圣地亚哥·帕拉西奥斯(Santiago Palacios)|蒂埃里·加尔马里尼(Thierry Galmarini)|奥里奥尔·巴尔塞纳斯(Oriol Bárcenas)|萨尔瓦多·文图拉(Salvador Ventura)|克里斯蒂娜·马里诺-布斯尔耶(Cristina Marino-Buslje)
莱洛伊尔研究所/阿根廷国家科学技术研究委员会(Instituto Leloir/IIBBA - CONICET)基金会,布宜诺斯艾利斯,阿根廷
摘要
蛋白质聚集在许多神经退行性疾病的发病机制中起着核心作用,并在蛋白质工程领域带来了重大挑战。这一过程的关键驱动因素是蛋白质序列中存在易于聚集的区域(APRs)。我们提出了AggrescanAI,这是一种基于深度学习的工具,可以直接从序列预测残基级别的聚集倾向。该工具利用了ProtT5蛋白质语言模型提供的上下文嵌入信息,这些信息隐含地编码在序列中,而无需结构数据。该模型在一系列经过实验标注的APRs上进行训练,通过同源转移进行了扩展,通过交叉验证进行了评估,并通过外部基准进行了验证。AggrescanAI的表现优于现有的预测器,并能够捕捉到由致病突变引起的聚集变化。为了便于使用,我们提供了一个用户友好且完全开放的Google Colab笔记本:
https://gitlab.com/bioinformatics-fil/aggrescanai。AggrescanAI代表了一代新的基于序列的聚集预测器,由深度学习和蛋白质语言模型驱动。
引言
蛋白质聚集是指肽和蛋白质自组装成不溶性沉积物的过程,这是许多神经退行性疾病的特征,包括阿尔茨海默病(AD)、帕金森病(PD)和皮克病(PD)、额颞叶变性(FTLD)、额颞叶痴呆(FTD)、多系统蛋白病(MSP)以及肌萎缩侧索硬化症(ALS)[1],[2]。这一过程的关键驱动因素是蛋白质序列中存在易于聚集的区域(APRs)。这些APRs通常是短的、疏水的片段,具有较高的β-折叠倾向,会导致病理性的错误折叠和有毒沉积[3]。除了医学领域,APRs在生物技术中也带来了重大挑战,因为暴露的易于聚集的序列可能会影响蛋白质的生产过程中的表达、稳定性和溶解性[3],[4]。
在过去的二十年里,已经开发出了许多计算方法来检测APRs。第一代工具,如TANGO[5]、Waltz[6]、Zyggregator[7]和Aggrescan[8],使用物理化学尺度和滑动窗口启发式方法直接从一级序列估算APRs的倾向。第二代方法引入了基于序列特征(例如疏水性和β-折叠倾向)的机器学习分类器。它们使用了先进的序列描述符:ANuPP[9]利用原子和功能团级别的信息来识别聚集起始基序,而AggreProt[10]是一种基于深度学习的预测器,它使用在实验验证的六肽上训练的神经网络集合。第三代方法,如Aggrescan3D[11]、[12]、CamSol[13]和Solubis[14],整合了三维结构信息,以从构象和溶剂可及性的角度对APRs进行上下文化。
尽管基于结构的方法通常可以提高预测准确性,但它们对3D数据的依赖性带来了显著的限制。这些方法的适用性仅限于具有已知或预测结构的蛋白质,而对于本质上无序的蛋白质(IDPs),它们则难以有效处理,因为IDPs天然缺乏稳定的、明确的三维构象[15]。这一限制至关重要,因为IDPs非常普遍,并在细胞调节和信号传导中发挥着关键作用,常常参与病理性的聚集过程[16],[17]。
深度学习的最新进展促进了基于自然语言模型范式的蛋白质语言模型(pLMs)的发展(例如ProtT5[18]、ESM[19]、[20]和ProteinBERT[21]),这些模型彻底改变了基于序列的预测方法。这些模型的特点是它们基于Transformer架构和多头自注意力机制,并在广泛的序列、结构和功能数据库上进行了训练。由此产生的上下文化嵌入信息隐含地编码了蛋白质的进化、功能、结构、生物物理和生化特性,使得能够准确且泛化地表示蛋白质的行为。
此外,基于嵌入的方法提供了快速且可扩展的计算能力,允许在大规模序列数据集上进行高效筛选和分析。
在这里,我们介绍了AggrescanAI,这是一种新的预测器,它结合了蛋白质语言模型嵌入和深度神经网络,直接从序列中推断残基级别的聚集倾向。我们的方法整合了集成建模、同源增强数据集和严格的验证策略,从而在不需要结构数据的情况下实现了高灵敏度和泛化能力。
我们通过Google Colab笔记本提供了一个完全开放且用户友好的AggrescanAI实现版本,链接如下:https://gitlab.com/bioinformatics-fil/aggrescanai。
数据集整合
我们使用了Curated Protein Aggregation Database (CPAD) 2.0 [22],这是一个全面且经过人工整理的资源,包含了关于聚集动力学、结构和易于聚集区域(APRs)的实验数据。该数据库包含了来自166种蛋白质的92,461个氨基酸残基的序列,其中包含664个标注的APRs。在这些残基中,只有2,243个(2.4%)属于APR片段(以下简称APR+),其余的残基为APR?。
预测模型选择和性能验证
为了确定最佳的预测模型配置,我们评估了多种训练策略、数据集和超参数组合。首先,我们比较了不同的策略,以解决APR预测中固有的类别不平衡问题,比较了单一模型方法和集成方法,并研究了通过同源转移(CPAD70和CPAD90)扩展数据集的影响。
在CPAD90数据集上训练的模型在预测性能上表现出显著提升
结论
在这项工作中,我们提出了AggrescanAI,这是一种新的易于聚集区域的预测器,它结合了基于同源的数据扩展、蛋白质语言模型嵌入和深度学习。通过系统地评估多种配置,我们证明AggrescanAI在内部和外部基准测试中始终优于现有的预测器。
它对上下文嵌入的依赖性使其能够准确检测到即使是本质上无序的蛋白质中的聚集信号
CRediT作者贡献声明
阿尔瓦罗·M·纳瓦罗(Alvaro M. Navarro):撰写 – 审稿与编辑,撰写 – 原稿,可视化,验证,方法论,研究,形式分析,概念化。圣地亚哥·帕拉西奥斯(Santiago Palacios):可视化,方法论,研究,形式分析,数据整理,概念化。蒂埃里·加尔马里尼(Thierry Galmarini):可视化,验证,方法论,研究,数据整理,概念化。奥里奥尔·巴尔塞纳斯(Oriol Bárcenas):撰写 – 审稿与编辑,验证。萨尔瓦多·文图拉(Salvador Ventura):撰写 – 审稿与编辑,撰写 –
资助
AMN是阿根廷国家科学技术研究委员会(CONICET)的博士生,CMB也是该委员会的研究员。AMN和CMB都是布宜诺斯艾利斯技术学院(ITBA)的教授。
SP和TG是布宜诺斯艾利斯技术学院(ITBA)的生物工程专业的学生。
OB是通过西班牙科学与创新部的博士奖学金(FPU22/03656)资助的博士生。
SV得到了西班牙科学与创新部的支持
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能会影响本文所述的工作。