《Journal of Molecular Biology》:PrePPI – Structure-based prediction of protein-protein interactomes and networks
编辑推荐:
PrePPI是一个基于结构的新型蛋白质-蛋白质相互作用(PPI)预测管道,可预测两个结构域之间的相互作用以及结构域与短线性 motifs(SLiMs)的相互作用。2023年更新后,其网站新增了人类、酵母和E. coli的互作网络,包含高置信度域级复合物的3D模型和SLiM介导的预测互作模板。基于结构可能性的互作聚类展现出功能一致性,为生物学现象提供了前所未有的亚网络图景。新网站提供交互式可视化、结构模型下载及功能注释查询功能,支持通过单一蛋白或蛋白对进行查询。
卡罗琳·维莱兹(Caroline Velez)|阿尼凯特·纳拉瓦内(Aniket Naravane)|维克托·I·罗比拉(Victor I. Robila)|阿卡什·萨哈(Aakash Saha)|戴安娜·默里(Diana Murray)|巴里·霍尼格(Barry Honig)
哥伦比亚大学欧文医学中心系统生物学系,美国纽约州纽约市圣尼古拉斯大道1130号,邮编10032
摘要
PrePPI是一个基于结构的流程工具,能够预测蛋白质-蛋白质相互作用(PPIs),包括两个结构化域之间的相互作用,以及结构化域与短线性基序(SLiMs)之间的相互作用,覆盖整个蛋白质组范围。自2023年《JMB》计算资源特刊发布以来,PrePPI网站已进行了重大扩展和重新设计。该资源现在包含了人类、酵母和大肠杆菌(E. coli)蛋白质组的相互作用图谱,其中包含高置信度域级复合物的3D模型,以及大多数由SLiM介导的预测相互作用的PDB模板。一个关键的新功能是基于结构相似性对PrePPI相互作用图谱进行聚类。值得注意的是,这些聚类展现了功能上的连贯性,并提供了前所未有的蛋白质组范围内的PPI子网络图谱,揭示了生物现象背后的机制。新网站——
https://honigcomplab.c2b2.columbia.edu/PrePPI——提供了对这些聚类、每个成对复合物的结构模型以及单个蛋白质的功能注释的便捷访问,从而支持多种生物学发现方式。
引言
文献中有许多蛋白质-蛋白质相互作用(PPIs)的数据库。其中一些数据库,如STRING [1]、BioGRID [2]、APID [1] 和 HINT [3],主要依赖于多来源的数据整理;而其他数据库则主要基于高通量实验技术,例如亲和纯化-质谱(AP-MS)[4, 5] 和酵母双杂交(Y2H)[6]。然而,从这些资源中很难直接提取出相互作用的类型(物理相互作用或间接相互作用)。此外,蛋白质相互作用图谱的规模非常大——大肠杆菌(Escherichia coli K12)蛋白质组有900万种可能的成对蛋白质相互作用组合,酿酒酵母(Saccharomyces cerevisiae)有1800万种,人类有2亿种——这限制了即使是最高效实验方法的全面覆盖范围。尽管一些数据库包含了来自蛋白质数据库(PDB)[7] 的条目,但PDB中对PPI复合物的覆盖仍然不完整。
实验衍生的数据库通常不提供复合物的结构模型,尽管有一些数据库试图填补这一空白。Interactome3D [8] 包含PDB结构和高置信度的同源模型,从而提高了整体结构覆盖度。Interactome INSIDER [9] 提供实验确定的PPI复合物中界面残基的预测,而CM2D3 [10] 则利用比较建模、对接和AlphaFold2技术为从实验数据库中提取的物理相互作用提供结构模型。因此,尽管这些结构数据库非常宝贵,但它们并不包含“从头算”(de novo)的预测结果。
一些计算方法,如Topsy-Turvy [11],足够高效,可以应用于整个相互作用图谱,但它们不提供PPI复合物的结构模型。基于AlphaFold的方法 [12, 13] 被用来预测二元复合物的结构,但由于计算成本过高,无法应用于整个相互作用图谱,而且在确定两种蛋白质是否相互作用时可靠性也不确定。为了解决这些问题,Cong及其同事 [14] 提出了一种计算流程,该流程可以在人类相互作用图谱中筛选PPIs,最后一步使用AlphaFold2预测原子级模型。该流程产生了大约7000个高质量的“从头算”预测结果,当结合高通量实验数据时,总预测数约为18000个。迄今为止,其中约5500个预测结果尚未通过实验得到验证。这些预测揭示了新的生物学见解,但并未显著增加人类蛋白质相互作用图谱的结构覆盖度。
与现有的实验和计算方法相比,PrePPI [15, 16, 17, 18] 计算流程旨在筛选数十亿个潜在的二元物理相互作用,并输出大量预测结果。例如,如下所述并在图1中展示的针对人类相互作用图谱的流程,在假阳性率(FPR)低于0.005的情况下,共筛选出735,000个人类PPIs、65,000个酵母PPIs和39,000个大肠杆菌PPIs。这些预测结果中的大多数是新颖的,因为它们并未出现在现有的数据库中,并且可以在我们的在线数据库中找到。PrePPI模型为假设生成和假设检验提供了强大的工具,因为每个PPI所涉及的域和界面接触信息都得到了提供。由于关注二元相互作用,这种“自下而上”的方法使得PPI预测更加有效,因为多蛋白复合物以及非物理遗传相互作用最终都源于复合物内部的二元相互作用或通过PPI网络。
PrePPI数据库已完全重新设计,以提高使用便利性并加入新功能。有几个新特性特别值得注意:首先,PrePPI数据库现在包含了三种生物体的相互作用图谱——大肠杆菌、酵母和人类,并计划进一步扩展。其次,除了涉及两个结构化域的PPIs外,PrePPI还预测了结构化肽识别域(PRDs)与短线性基序(SLiMs)之间的相互作用 [19],这些在真核线性基序(ELM)数据库 [20] 中分别被归类为Pfam域和正则表达式(见图1)。在新网站中,PrePPI PRD-SLiM预测结果与Propedia [21] 中具有相似Pfam域和肽基序的PDB复合物相关联,从而为这些相互作用提供了结构背景。第三,通过对PrePPI相互作用图谱进行聚类,我们发现了功能上连贯的簇,这些簇有助于识别许多蛋白质的先前未分配的功能,并提供了与特定生物功能相关的二元PPI网络 [22]。这些簇及其功能注释可以通过交互式可视化界面方便地访问。第四,新网站提供了PrePPI预测的复合物结构模型的可视化展示,同时采用了最新的RCSB PDB Mol* 3D Viewer [23] 进行进一步的结构分析。最后,用户可以查询单个蛋白质或蛋白质对。所有这些功能使研究人员能够交互式地探索PrePPI相互作用图谱,并将其分析应用于生物学问题。所有结果——从高置信度相互作用图谱到结构模型、蛋白质序列特征、聚类子网络和注释——都可以下载。数据库和所有工具都可以在我们的网站 https://honigcomplab.c2b2.columbia.edu/PrePPI 上访问,还有一系列视频教程指导用户使用各种功能。
网站功能概览
网站功能概述
域-域相互作用。原始的PrePPI结构建模流程(称为PrePPI-SM)构建并评估了由两个查询蛋白形成的二元复合物的同源模型,这两个查询蛋白在结构上类似于PDB中发现的复合物 [15, 17, 18]。模型评估基于以下特征:查询蛋白与模板蛋白之间的相似程度(通过基于结构的比对获得);查询蛋白中的残基在...
网站概述
网站架构。我们将网站设计为一个用于PrePPI预测的交互式平台。前端使用了标准的网络技术(HTML、CSS、JavaScript)以确保响应性、兼容性和用户友好的交互体验。后端架构利用了JavaScript技术,特别是Node.js(v22.12.0)和Express.js(v4.21.2),实现了异步数据处理、高效查询处理和结果的动态渲染。所有数据都存储在MariaDB SQL中。
从聚类分析中获得的生物学见解
在这里,我们详细研究了图3A中的子网络,以展示如何利用这些信息。其中一个最具统计显著性的功能注释是GO:BP术语“囊泡介导的运输”(绿色节点表示的蛋白质)。囊泡介导的运输是一个涉及多种细胞区室(如内质网(ER)、高尔基体、质膜和内体)的复杂过程。该聚类在...
讨论
第一个PrePPI网站于2012年发布 [15, 16],此后在2016年 [17] 和2023年 [18] 进行了两次内容更新,但网站的整体结构保持不变。这里描述的新版本引入了通过大幅重新设计的网站可访问的全新内容。PrePPI的核心特点是利用结构相似性来推导功能关系,因此新网站的重点是二元物理相互作用。
CRediT作者贡献声明
卡罗琳·维莱兹(Caroline Velez):撰写——审阅与编辑、撰写——初稿、软件开发。
阿尼凯特·纳拉瓦内(Aniket Naravane):撰写——初稿、软件开发。
维克托·I·罗比拉(Victor I. Robila):撰写——初稿、软件开发。
阿卡什·萨哈(Aakash Saha):撰写——初稿、数据整理。
戴安娜·默里(Diana Murray):撰写——审阅与编辑、撰写——初稿、监督、形式分析。
巴里·霍尼格(Barry Honig):撰写——审阅与编辑、撰写——初稿、监督、资金获取、概念构思。
资助
本工作得到了美国国立卫生研究院普通医学科学部门(Division of General Medical Sciences)R35-GM139585项目的支持。
PrePPI-SM和PrePPI-SLiM的高置信度(FPR ≤ 0.005)预测结果以及完整的相互作用图谱,都可以在PrePPI网站 https://honigcomplab.c2b2.columbia.edu/PrePPI 上查询和下载。
利益冲突声明
作者声明他们没有已知的利益冲突或个人关系可能影响本文报告的工作。
致谢
我们感谢系统生物学系的IT团队在网站开发过程中的后端支持和密切合作。所有图表均使用BioRender.com创建。