蛋白质-配体结合亲和力的预测是药物发现中的一个基本问题,因为它直接决定了小分子药物的生物活性和治疗效果[1]、[2]。配体通过特定的相互作用(主要是非共价键,如氢键、疏水相互作用和范德华力)与目标蛋白质结合,从而作为激动剂或抑制剂,调节生物过程和疾病进展。因此,准确的亲和力预测对于高效的药物筛选和合理药物设计至关重要。
传统的实验方法,如高通量筛选,成本高昂且耗时[3]、[4]。计算方法通过模拟蛋白质-配体相互作用并根据预测的结合亲和力对候选化合物进行优先排序,提供了一种高效的替代方案[5]。近年来,图神经网络(GNN)由于其强大的表示分子结构和关系相互作用的能力,已成为蛋白质-配体亲和力预测的主流范式[6]、[7]。消息传递机制使GNN能够迭代地在图结构数据上交换和聚合信息,使其特别适合用于建模分子系统[8]、[9]。
现有的基于GNN的方法主要在蛋白质、配体和复合体之间的特征融合阶段上有所不同,如图1所示。早期方法通常采用后期融合策略。例如,MGraphDTA[10]将蛋白质和配体表示为独立的图,分别提取它们的特征,然后融合最终的特征向量进行亲和力预测。然而,这种后期融合缺乏蛋白质和配体之间的细粒度交互信息。同样,PaxNet[11]构建了一个复合交互图,并将其分为共价和非共价子图,分别提取其特征并在最后阶段融合。这种策略未能捕捉子图之间的依赖性及其对全局交互结构的影响。
为了更明确地纳入交互信息,已经提出了在复合图上操作的交叉消息传递方法。SIGN[12]在蛋白质-配体复合图内的节点和边之间进行信息交换,而IGN[13]将蛋白质和配体图中的共价键特征与复合图中的非共价交互特征结合,然后进行后期融合。尽管这些方法模拟了某些交互细节,但蛋白质、配体和复合图之间的信息交换仍然有限且不系统,全局蛋白质和配体特性对结合相互作用的影响往往被忽视。
更现代的模型尝试融合来自多个图的特征。EGNA[14]分别从蛋白质、配体和复合图中提取特征,并在特征向量级别进行交叉融合。GIGN[15]进一步引入了一种门控机制,在后期融合过程中重复交换共价和非共价特征。尽管有这些改进,但这些方法仍然主要在编码的特征向量上操作,信息交换没有在原始图结构的层面进行。GEMF[16]通过在中期融合与共价和非共价相互作用相关的图特征来推进这一理念。然而,交换的信息仍然局限于图神经网络已经处理过的表示,难以避免在特征提取过程中丢失细粒度的结构信息。
现有的基于GNN的亲和力预测方法主要在图编码后进行信息融合,而原始图结构的早期交叉融合基本上尚未被探索。这一限制至关重要,因为蛋白质-配体结合亲和力受到复合界面上的非共价相互作用和限制分子构象的共价键结构的共同影响。因此,准确的建模需要同时捕获蛋白质、配体和复合体的共价和非共价特征以及它们之间的内在结构相关性。
早期融合在分子性质预测中显示出有效性。例如,CD-MVGNN[17]为分子构建了原子-键图和键-键角线图,并允许在相应节点之间进行交叉消息传递以丰富几何表示。然而,将早期融合从单分子性质预测扩展到蛋白质-配体结合亲和力预测存在根本的技术挑战,并非简单的调整:
1. 图系统的异质性和对齐:CD-MVGNN操作的是单个分子的同构视图。相比之下,结合亲和力预测涉及一个由蛋白质、配体和复合体组成的异质系统,它们在拓扑结构和特征空间上有显著差异。核心挑战在于在复合图和蛋白质/配体图之间建立精确的节点级映射机制,以确保不同坐标系统之间的信息准确流动。
2. 交互信息的反馈机制:单分子任务缺乏结合界面的概念。在亲和力预测中,使复合图中的非共价相互作用(如氢键、静电相互作用)作为反馈信号,在消息传递阶段动态修正蛋白质和配体的局部特征至关重要。这种功能在现有的单分子框架中固有地缺失。
为了解决这些挑战,我们提出了一个双交叉消息传递神经网络(DCMP)模型用于蛋白质-配体结合亲和力预测。DCMP构建了三个图:蛋白质图、配体图和蛋白质-配体复合体交互图。首先在每个图中进行消息传递,以更新节点表示并过滤局部冗余信息。随后,图间消息传递将复合图中的节点与蛋白质或配体图中的相应节点连接起来,实现图间原始结构信息的精确关联,并实现早期融合。早期融合后,从每个图中提取特征表示,以捕获相关的物理化学和几何性质,并将输出组合成多尺度特征向量用于亲和力预测。
为了进一步澄清这些差异,我们系统地比较了代表性方法在融合阶段、融合粒度以及图间信息参与和影响后续图内消息传递的能力,如表1所示。现有的后期和中期融合方法仅在节点嵌入固定后引入蛋白质-配体相互作用,将图间信息限制在事后的特征调整上,而不是动态的结构校正。相比之下,DCMP的早期节点级融合使得蛋白质、配体和复合图在计算图级别上能够共同演化节点嵌入和双向结构细化——这对于捕获依赖上下文的结合相互作用至关重要。
本工作的主要贡献总结如下:
- •
我们提出了一种双交叉消息传递神经网络(DCMP),通过图内和图间消息传递实现蛋白质、配体和复合图之间的早期特征融合。
- •
我们设计了一种统一的融合策略,整合了原子-键和键-键角信息,增强了蛋白质-配体结合中关键共价和非共价相互作用的建模。
- •
DCMP在CASF-2013、CASF2016和PDBbind v2019基准数据集上实现了改进的结合亲和力预测准确性,并提供了对蛋白质-配体相互作用的可解释性见解。