《Journal of Molecular Biology》:DeepAlloWeb: A Web Server for Interactive Allosteric Pockets Prediction Using Protein Language Model
编辑推荐:
Moaaz Khokhar | Ozlem Keskin | Attila Gursoy
计算机工程系,科奇大学,伊斯坦布尔,34450,土耳其
摘要
别构效应对蛋白质功能有着至关重要的影响,与正构药物相比,它在靶向药物开发中提供了独特的机会,因为别构药物具有更低的副作用。本
Moaaz Khokhar | Ozlem Keskin | Attila Gursoy
计算机工程系,科奇大学,伊斯坦布尔,34450,土耳其
摘要
别构效应对蛋白质功能有着至关重要的影响,与正构药物相比,它在靶向药物开发中提供了独特的机会,因为别构药物具有更低的副作用。本研究基于我们之前的方法DeepAllo。DeepAlloWeb是一个交互式网络服务器,旨在提高计算生物学家和药物发现研究人员的参与度和实际可用性。DeepAlo是一种先进的计算方法,它结合了经过微调的蛋白质语言模型(ProtBERT-BFD)和多任务学习,以及FPocket提取的特征,以准确预测别构位点。与现有的不使用蛋白质语言模型(PLM)的别构预测服务器不同,我们的网络服务器集成了微调的PLM,从而实现了更好的预测性能,并提供了残基级注意力机制的交互式可视化。DeepAlloWeb资源通过可视化注意力机制使用户能够进行详细探索,这有助于提高生物学的可解释性。一个案例研究表明,残基级注意力突出了代表性蛋白质中的已知别构相互作用,而对整个数据集的额外分析则为如何在实际应用中解释层/头部组合提供了指导。可以通过以下链接访问该网络服务器:https://3dpath.ku.edu.tr/DeepAllo/。
引言
别构效应使配体能够在不直接与正构位点或活性位点相互作用的情况下调节蛋白质功能,从而提供了提高选择性和克服药物抗性的机会[1]。别构调节是调节酶活性的强大手段,在现代药物发现中越来越受到重视。最近也有研究在酶功能和药物发现的背景下回顾了别构调节,强调了进化、结构和动态特征以及机器学习方法如何共同重塑别构位点和调节剂的发现[2]。蛋白质-蛋白质相互作用的别构调节正成为药物发现的一个有前景的方向[3],其中精心策划的接口语料库和基于机器学习的接口验证框架[4]、[5]为识别和表征潜在的别构位点提供了有价值的结构基准。传统的识别技术依赖于分子模拟或突变,这些方法成本高昂且难以扩展[6]。最近的机器学习预测器,包括PASSer [7]、Passer 2.0 [8] 和 RASSerRank [9],利用了FPocket提取的结构描述符[10],但它们没有整合来自蛋白质语言模型的上下文残基嵌入,也没有提供全面的解释工具。
DeepAllo [11] 利用并微调了一个多任务 ProtBERT-BFD [12] 架构,同时模拟别构残基的可能性和二级结构,在别构数据库(ASD)数据集上获得了高F1分数[13]。我们开发了 DeepAlloWeb:一个全栈网络应用程序,通过为结构生物学家和药物化学家设计的易用界面,暴露了 DeepAllo 的预测结果、注意力可视化和 FPocket 的属性。现有的用于别构位点预测的网络服务器主要包括 PASSer 和 STINGAllo [14]。Passer 基于口袋预测哪些检测到的口袋可能是别构的,而 STINGAllo 则关注单个残基,并识别即使在经典口袋边界之外的可能形成别构区域的氨基酸。这两种工具都提供了有用的见解,但仅限于传统的基于特征的方法。DeepAlloWeb 通过蛋白质语言模型引入了基于注意力的可视化,允许用户看到预测的别构口袋内残基之间的关系。
基于Transformer的蛋白质语言模型(pLMs)的最新进展不仅提高了预测性能,还开始开辟了解释性的途径。例如,已经证明pLMs的注意力矩阵与3D结构中的空间接触和序列中的功能位点相关[15]、[16]。最近的一些工作强调了蛋白质模型的可解释人工智能(XAI),强调了在做出预测时可视化模型“关注什么”的必要性[17]。在这项工作中,我们在别构口袋预测的背景下提供了残基级注意力可视化:不仅仅是“哪个口袋”,还包括“模型关注的是哪些残基之间的联系”。
深度网络随着深度的增加逐渐学习更抽象的特征。在计算机视觉中,早期的卷积层可靠地编码定向边缘和纹理,而更深层次的层将这些信息组合成部分和对象[18]。在自然语言处理(NLP)中,多项独立分析显示了类似的进展:较低的Transformer层捕获表面/词汇线索,中间层编码语法/结构,上层表示语义和长距离现象[19]、[20]、[21]。PLMs也遵循类似的模式:中间到后期的层强调结构/功能关系,而注意力通常突出在序列上相距较远但在生物物理上相互耦合的残基对[21]。这些类比证明了我们在解释别构中的残基级注意力时使用层/头部搜索的合理性。
部分片段
后端服务
DeepAlloWeb的后端使用FastAPI实现,并协调了三个核心服务:
口袋可视化器
该网络服务器预测并显示前三个按颜色编码的口袋及其FPocket特征,可供按需检查。图1a显示了用户在给定PDB和链(例如5DKK链A)运行预测后的界面。口袋由alpha球体的中心表示,这些alpha球体是FPocket预测的虚拟原子,用于表示潜在的结合位点,而顶部的别构口袋残基则显示为围绕alpha球体的棒状结构。每个预测的
案例研究:CheY(1F4V,链A),中心位于D57
CheY是一个研究较为透彻的系统,其中在D57处的磷酸化会触发涉及T87的特定激活途径,我们的可视化工具将T87突出显示为不同头部中的主要关注目标之一。在第29层/第8个头部(图3a)、第29层/第2个头部以及更早的头部(第27层/第5个头部)中,注意力从D57延伸到T87,同时我们也看到了对远端Y106的关注;在第29层/第11个头部(图3b)和第26层/第15个头部中,同样的联系也被发现,但更集中在T87上。
讨论
DeepAlloWeb为生物研究人员提供了一个基于pLM的别构口袋预测工具。通过统一口袋排名、注意力可视化和可解释性,该服务器成为研究人员生成别构调节剂假设的综合性工具。目前的局限性包括依赖于FPocket的候选检测,以及对于非常长的链来说仍然较大的注意力张量。
注意力可视化是诊断信号,而不是机制的证明;先前的工作
结论
DeepAlloWeb将DeepAllo的预测引擎转变为一个交互式平台,将准确性与时效性相结合。通过现代前端工具和高效的后端流处理,该服务器使研究人员能够检查别构口袋并导出可用于分析的数据包,从而加速别构治疗药物的发现。
CRediT作者贡献声明
Moaaz Khokhar:概念化、撰写 - 原始草稿、可视化、形式分析、软件、资源。Ozlem Keskin:概念化、撰写 - 审稿和编辑、形式分析、监督。Attila Gursoy:概念化、撰写 - 审稿和编辑、形式分析、监督。
致谢
我们想感谢COSBI实验室人员的宝贵支持,以及科奇大学IT部门对KUACC HPC和3dPath服务器的管理。