准确识别蛋白质-配体结合亲和力(PLA)至关重要,因为它显著缩小了候选药物的搜索范围,最终成为药物发现的第一步,并提高了先导优化的效率(Sadybekov & Katritch, 2023)。PLA表示配体和蛋白质之间相互作用的强度。将蛋白质-配体预测视为结合亲和力回归任务,可以通过设置阈值轻松转换为二分类或排名(Allenspach, Hiss, & Schneider, 2024)。考虑到包括等温滴定量热法和表面等离子体共振在内的体外实验成本高昂且耗时,高效的计算方法可能是PLA预测的有希望的策略(Pan, Lin, Cao, Zeng, Yu, He, Nussinov, Cheng, 2022, Wang, Li, Yu, Luo, Han, Wang, Jin, 2023b)。
随着计算机辅助药物设计的进步,出现了许多计算方法,分为基于物理的和基于机器学习的方法,以精确估计PLA(Lim, Ryu, Park, Choe, Ham, Kim, 2019, Moon, Hwang, Lim, Kim, 2024)。在基于物理的方法中,分子对接方法通过使用评分函数找到活性区域中它们结合的最低能量构象来筛选配体和受体(Lin, Li, Lin, 2020a, Sliwoski, Kothiwale, Meiler, Lowe, 2014)。然而,这些评分函数往往缺乏准确性。为了解决这个问题,需要进行分子动力学模拟来计算结合能并确认蛋白质和选定的小分子配体之间的有效结合(Liu, Feng, Wu, & Xia, 2022)。尽管如此,当应用于大规模的蛋白质-配体复合物筛选时,这些方法仍然面临显著的计算开销挑战。相比之下,机器学习方法通过训练模型来学习已知配体及其目标的特征以预测PLA,从而避免了这些限制(Janiesch, Zschech, Heinrich, 2021, Thafar, Raies, Albaradei, Essack, Bajic, 2019)。
深度学习方法使神经网络能够以端到端的方式学习配体和蛋白质的表示,这是传统机器学习方法无法实现的(He, Yang, Zhang, Long, Zhao, 2025, Xie, Wang, Wang, Bi, 2025)。现有的PLA预测深度学习方法可以根据是否提供3D结构分为两大类(Wang, 2024):无相互作用方法和基于相互作用的方法。无相互作用方法通常分别从配体和蛋白质的序列或2D图中提取特征,然后通过连接这些特征来进行预测。例如,DeepDTA(?ztürk, ?zgür, & Ozk?r?mli, 2018)仅使用目标和药物的序列信息来预测药物-目标相互作用亲和力。DeepGS(Lin et al., 2020b)使用Smi2Vec和Prot2Vec算法提取蛋白质序列和配体的SMILES表示来进行PLA预测。此外,GraphDTA(Nguyen et al., 2021)应用图神经网络(GNN)来模拟药物和目标图,然后学习配体和蛋白质的表示以预测PLA。CAPLA(Jin et al., 2023)利用蛋白质和配体的序列特征基于交叉注意力机制来预测PLA。DEAttentionDTA(Chen et al., 2024)使用通过动态词嵌入处理的蛋白质和配体的1D序列以及自注意力机制来预测PLA。JSSM-DTA(Uma & Mala, 2025)结合联合序列-结构建模和多尺度变换器以提高可解释性。许多最近的DTA模型利用预训练的蛋白质和配体编码器,例如PMMR(Ouyang et al., 2025)进行多视图融合,以及MutualDTA(Yuan, Chen, Hu, & Wang, 2025)在原子-残基级别进行基于注意力的解释。然而,3D结构和物理相互作用先验已被证明对于提高模型的泛化能力至关重要(Li et al., 2021)。在这项工作中,无相互作用方法主要通过独立模块提取蛋白质和配体的表示,无法捕捉蛋白质和口袋之间的关系,以及口袋和配体之间的相互作用。
相比之下,基于相互作用的方法通常使用3D结构来预测复合物的形成。例如,Pafnucy(Stepniewska-Dziubinska, Zielenkiewicz, & Siedlecki, 2018)利用3D卷积神经网络根据复合物的空间表示来预测蛋白质-配体复合物的结合亲和力,突出了3D结构在理解分子相互作用中的重要性。IGN(Jiang et al., 2021)应用图卷积模块来学习复合物内的相互作用,并通过堆叠两个独立的图卷积依次捕捉分子内和分子间的相互作用。GIGN(Yang, Zhong, Lv, Dong, & Yu-Chian Chen, 2023)和MM-DRPNet(Liu, Song, & Wang, 2024)通过结合共价和非共价相互作用的异构交互层进一步增强了分子相互作用的学习。GEMF(Zhou et al., 2024)通过结合距离和角度感知的几何信息传递来增强交互作用建模。此外,GraphscoreDTA(Wang, Zhou, Tang, & Li, 2023a)引入了一种新的GNN策略,其中包含Vina距离优化项来预测PLA。此外,还提出了一系列基于结构的先进模型来推进3D交互作用建模。例如,Uni-Mol(Zhou et al., 2023)利用统一的SE(3)-等变变换器来编码分子3D信息。EquiBind(Corso, St?rk, Jing, Barzilay, & Jaakkola, 2022)使用几何深度学习预测配体结合姿态,无需对接模拟。DiffDock(St?rk, Ganea, Pattanaik, Barzilay, & Jaakkola, 2022)进一步将结合表述为去噪扩散过程,在姿态预测和结合建模中表现出良好的性能。然而,尽管基于相互作用和无相互作用的方法具有独特的优势,但仍需要一种计算机模拟方法,能够有效模拟分子序列特征和相互作用,以进一步提高PLA预测。
为了解决这些问题并弥合基于相互作用和无相互作用方法之间的差距,我们在本研究中提出了一个双模块框架DualBind来预测蛋白质-配体结合亲和力。具体来说,DualBind由两个主要模块组成:无相互作用模块和基于相互作用的模块。在无相互作用模块中,我们设计了一个结构感知的Transformer编码器,捕获蛋白质、口袋和配体的内在特征以及它们之间的相互作用,从而得到序列级表示。
在基于相互作用的模块中,我们使用自适应GNN编码器从复杂结构中学习图级表示,有效捕捉分子内和分子间的相互作用。
通过整合序列级和图级表示,DualBind提供了对分子属性的更全面视图,提高了PLA预测的准确性。
在三个公开可访问的数据集上进行的全面实验结果表明,DualBind的表现始终优于七种最先进的方法,包括DeepDTA和GraphDTA。
此外,对PDBbind2020的外部独立测试验证了DualBind的泛化能力。案例研究和可视化实验进一步证明了我们方法的有效性。总体而言,我们的贡献总结如下:
•我们提出了一个名为DualBind的双模块(即无相互作用和基于相互作用的模块)框架,用于推断蛋白质-配体结合亲和力。据我们所知,DualBind是第一个整合无相互作用和基于相互作用方法进行PLA预测的工作。
•具体来说,为了保留整体特征并提高预测性能,我们开发了一个结构感知的Transformer模块(即无相互作用模块)和一个自适应GNN模块(即基于相互作用的模块),分别学习序列级和图级表示,捕捉蛋白质和配体之间的内在序列特征以及潜在的相互作用。
•在三个基准数据集上的全面实验结果表明,所提出的DualBind始终优于七种最先进的方法。对HDAC家族的案例研究表明,DualBind能够高效预测排名靠前的抑制剂,并准确预测结合亲和力。