DualBind:利用自适应图神经网络(Adaptive GNN)和结构感知Transformer(Structure-Aware Transformer)进行双模块蛋白-配体结合亲和力预测

《Expert Systems with Applications》:DualBind: Dual-Module Protein-ligand Binding Affinity Prediction with Adaptive GNN and Structure-Aware Transformer

【字体: 时间:2026年01月16日 来源:Expert Systems with Applications 7.5

编辑推荐:

  蛋白-配体结合亲和力预测研究提出双模块框架DualBind,整合交互式与非交互式方法。前者采用结构感知Transformer捕捉序列特征,后者通过自适应图神经网络建模分子间及内部互作。实验证明该框架在PDBbind等数据集上显著优于SOTA方法,RMSE降低4.3%,且可视化验证了生物学合理性。

  
Xuan Lin|Jinyu Zhou|Siqi Chen|Yahui Long|Zu-Guo Yu
中国湖南省湘潭市湘潭大学计算机科学学院

摘要

蛋白质-配体结合亲和力(PLA)预测在药物发现中起着关键作用。尽管之前的计算机模拟方法表现出良好的性能,但它们主要关注单一视角,往往无法同时捕捉分子间的复杂相互作用以及这些复合物中固有的不同作用机制。在这项研究中,我们提出了DualBind,这是一个新颖的双模块框架,整合了无相互作用和基于相互作用两种范式的优势。DualBind同时模拟配体、口袋和蛋白质的个体特征以及它们之间的相互作用。具体来说,无相互作用模块使用结构感知的Transformer来捕捉分子间的局部和全局关系。同时,基于相互作用的模块利用自适应图神经网络来模拟分子内和分子间的相互作用。这种双模块架构有助于提取粗粒度的序列级特征和细粒度的图级特征,从而提高表示学习和PLA预测的准确性。在三个数据集上的全面实验表明,DualBind的表现始终优于最先进的方法,RMSE降低了4.3%,而对HDAC家族的可视化测试进一步证实了其生物学相关性和可靠性。代码可在https://github.com/Arirhenium/DualBind获取。

引言

准确识别蛋白质-配体结合亲和力(PLA)至关重要,因为它显著缩小了候选药物的搜索范围,最终成为药物发现的第一步,并提高了先导优化的效率(Sadybekov & Katritch, 2023)。PLA表示配体和蛋白质之间相互作用的强度。将蛋白质-配体预测视为结合亲和力回归任务,可以通过设置阈值轻松转换为二分类或排名(Allenspach, Hiss, & Schneider, 2024)。考虑到包括等温滴定量热法和表面等离子体共振在内的体外实验成本高昂且耗时,高效的计算方法可能是PLA预测的有希望的策略(Pan, Lin, Cao, Zeng, Yu, He, Nussinov, Cheng, 2022, Wang, Li, Yu, Luo, Han, Wang, Jin, 2023b)。
随着计算机辅助药物设计的进步,出现了许多计算方法,分为基于物理的和基于机器学习的方法,以精确估计PLA(Lim, Ryu, Park, Choe, Ham, Kim, 2019, Moon, Hwang, Lim, Kim, 2024)。在基于物理的方法中,分子对接方法通过使用评分函数找到活性区域中它们结合的最低能量构象来筛选配体和受体(Lin, Li, Lin, 2020a, Sliwoski, Kothiwale, Meiler, Lowe, 2014)。然而,这些评分函数往往缺乏准确性。为了解决这个问题,需要进行分子动力学模拟来计算结合能并确认蛋白质和选定的小分子配体之间的有效结合(Liu, Feng, Wu, & Xia, 2022)。尽管如此,当应用于大规模的蛋白质-配体复合物筛选时,这些方法仍然面临显著的计算开销挑战。相比之下,机器学习方法通过训练模型来学习已知配体及其目标的特征以预测PLA,从而避免了这些限制(Janiesch, Zschech, Heinrich, 2021, Thafar, Raies, Albaradei, Essack, Bajic, 2019)。
深度学习方法使神经网络能够以端到端的方式学习配体和蛋白质的表示,这是传统机器学习方法无法实现的(He, Yang, Zhang, Long, Zhao, 2025, Xie, Wang, Wang, Bi, 2025)。现有的PLA预测深度学习方法可以根据是否提供3D结构分为两大类(Wang, 2024):无相互作用方法和基于相互作用的方法。无相互作用方法通常分别从配体和蛋白质的序列或2D图中提取特征,然后通过连接这些特征来进行预测。例如,DeepDTA(?ztürk, ?zgür, & Ozk?r?mli, 2018)仅使用目标和药物的序列信息来预测药物-目标相互作用亲和力。DeepGS(Lin et al., 2020b)使用Smi2Vec和Prot2Vec算法提取蛋白质序列和配体的SMILES表示来进行PLA预测。此外,GraphDTA(Nguyen et al., 2021)应用图神经网络(GNN)来模拟药物和目标图,然后学习配体和蛋白质的表示以预测PLA。CAPLA(Jin et al., 2023)利用蛋白质和配体的序列特征基于交叉注意力机制来预测PLA。DEAttentionDTA(Chen et al., 2024)使用通过动态词嵌入处理的蛋白质和配体的1D序列以及自注意力机制来预测PLA。JSSM-DTA(Uma & Mala, 2025)结合联合序列-结构建模和多尺度变换器以提高可解释性。许多最近的DTA模型利用预训练的蛋白质和配体编码器,例如PMMR(Ouyang et al., 2025)进行多视图融合,以及MutualDTA(Yuan, Chen, Hu, & Wang, 2025)在原子-残基级别进行基于注意力的解释。然而,3D结构和物理相互作用先验已被证明对于提高模型的泛化能力至关重要(Li et al., 2021)。在这项工作中,无相互作用方法主要通过独立模块提取蛋白质和配体的表示,无法捕捉蛋白质和口袋之间的关系,以及口袋和配体之间的相互作用。
相比之下,基于相互作用的方法通常使用3D结构来预测复合物的形成。例如,Pafnucy(Stepniewska-Dziubinska, Zielenkiewicz, & Siedlecki, 2018)利用3D卷积神经网络根据复合物的空间表示来预测蛋白质-配体复合物的结合亲和力,突出了3D结构在理解分子相互作用中的重要性。IGN(Jiang et al., 2021)应用图卷积模块来学习复合物内的相互作用,并通过堆叠两个独立的图卷积依次捕捉分子内和分子间的相互作用。GIGN(Yang, Zhong, Lv, Dong, & Yu-Chian Chen, 2023)和MM-DRPNet(Liu, Song, & Wang, 2024)通过结合共价和非共价相互作用的异构交互层进一步增强了分子相互作用的学习。GEMF(Zhou et al., 2024)通过结合距离和角度感知的几何信息传递来增强交互作用建模。此外,GraphscoreDTA(Wang, Zhou, Tang, & Li, 2023a)引入了一种新的GNN策略,其中包含Vina距离优化项来预测PLA。此外,还提出了一系列基于结构的先进模型来推进3D交互作用建模。例如,Uni-Mol(Zhou et al., 2023)利用统一的SE(3)-等变变换器来编码分子3D信息。EquiBind(Corso, St?rk, Jing, Barzilay, & Jaakkola, 2022)使用几何深度学习预测配体结合姿态,无需对接模拟。DiffDock(St?rk, Ganea, Pattanaik, Barzilay, & Jaakkola, 2022)进一步将结合表述为去噪扩散过程,在姿态预测和结合建模中表现出良好的性能。然而,尽管基于相互作用和无相互作用的方法具有独特的优势,但仍需要一种计算机模拟方法,能够有效模拟分子序列特征和相互作用,以进一步提高PLA预测。
为了解决这些问题并弥合基于相互作用和无相互作用方法之间的差距,我们在本研究中提出了一个双模块框架DualBind来预测蛋白质-配体结合亲和力。具体来说,DualBind由两个主要模块组成:无相互作用模块和基于相互作用的模块。在无相互作用模块中,我们设计了一个结构感知的Transformer编码器,捕获蛋白质、口袋和配体的内在特征以及它们之间的相互作用,从而得到序列级表示。
基于相互作用的模块中,我们使用自适应GNN编码器从复杂结构中学习图级表示,有效捕捉分子内和分子间的相互作用。
通过整合序列级和图级表示,DualBind提供了对分子属性的更全面视图,提高了PLA预测的准确性。
在三个公开可访问的数据集上进行的全面实验结果表明,DualBind的表现始终优于七种最先进的方法,包括DeepDTA和GraphDTA。
此外,对PDBbind2020的外部独立测试验证了DualBind的泛化能力。案例研究和可视化实验进一步证明了我们方法的有效性。总体而言,我们的贡献总结如下:
  • 我们提出了一个名为DualBind的双模块(即无相互作用和基于相互作用的模块)框架,用于推断蛋白质-配体结合亲和力。据我们所知,DualBind是第一个整合无相互作用和基于相互作用方法进行PLA预测的工作。
  • 具体来说,为了保留整体特征并提高预测性能,我们开发了一个结构感知的Transformer模块(即无相互作用模块)和一个自适应GNN模块(即基于相互作用的模块),分别学习序列级和图级表示,捕捉蛋白质和配体之间的内在序列特征以及潜在的相互作用。
  • 在三个基准数据集上的全面实验结果表明,所提出的DualBind始终优于七种最先进的方法。对HDAC家族的案例研究表明,DualBind能够高效预测排名靠前的抑制剂,并准确预测结合亲和力。
  • 数据集片段

    数据集

    我们实验中使用的训练集来自PDBbind2016(Wang, Fang, Lu, & Wang, 2004),其中包含存储在蛋白质数据库(Burley et al., 2021)中的实验测量的结合亲和力数据。从通用集合中提取了13,285个复合物,过滤掉无法处理的数据后,保留了12,871个样本。遵循Pafnucy(Stepniewska-Dziubinska et al., 2018)的方法,我们将训练集和验证集分开,其中1,000

    结果

    在本节中,我们首先概述了实验设置和基线方法。接下来,我们展示了模型在各种数据集上的结果,然后进行了消融研究以验证基于相互作用和无相互作用模块的重要性。我们还包括t-SNE可视化来展示交叉注意力机制如何改善特征分离。最后,对HDAC蛋白家族的案例研究突显了DualBind对关键治疗目标的预测能力。

    讨论与结论

    蛋白质-配体结合亲和力预测是药物发现中的关键任务。在本文中,我们提出了DualBind,这是一个新颖的双模块框架,整合了基于相互作用和无相互作用的方法进行PLA预测。与现有方法不同,DualBind同时捕捉序列级和图级表示,提供了对分子相互作用的全面理解。具体来说,我们在基于相互作用的模块中使用了自适应图神经网络

    代码可用性

    源代码、训练配置和预训练模型权重可在https://github.com/Arirhenium/DualBind获取。本研究中使用的数据集可从PDBbind数据库(http://www.pdbbind.org.cn/)公开获取,训练和验证划分遵循Pafnucy协议,详细信息见数据集部分。

    写作过程中生成式AI和AI辅助技术的声明

    作者在准备本手稿时使用了ChatGPT来帮助改进语言。作者在使用该工具后审查和编辑了内容,并对最终版本的手稿负全责。

    资助

    这项工作部分得到了中国国家自然科学基金(项目编号62202413, 12371088)和湖南省自然科学基金创新研究组项目(项目编号2024JJ1008)的支持。

    CRediT作者贡献声明

    Xuan Lin:概念化、监督、资金获取、撰写——原始草稿、撰写——审阅与编辑。Jinyu Zhou:方法论、软件、验证、形式分析、调查、撰写——原始草稿、可视化。Siqi Chen:项目管理、监督。Yahui Long:概念化、撰写——原始草稿、撰写——审阅与编辑。Zu-Guo Yu:撰写——审阅与编辑、监督、资金获取。

    利益冲突声明

    作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。
    相关新闻
    生物通微信公众号
    微信
    新浪微博

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号