DCMP：一种基于双重交叉图消息传递（Double Cross-Graph Message Passing）机制的神经网络，结合早期融合技术用于预测蛋白质-配体结合亲和力

【字体：大中小】 时间：2026年03月04日 来源：Chemical Physics Letters 3.1

编辑推荐：

　　蛋白-配体结合亲和力预测通过跨图消息传递实现早期融合，结合原子键图与键角图的双通道模块提升结构表征能力，实验验证了该方法在多个基准数据集上的优越性。

刘倩|王宇|刘浩然|沈俊|黄泽宇|周国强|卢玉媛

中国南京邮电大学计算机科学学院，南京

摘要

准确预测蛋白质-配体结合亲和力仍然是药物发现中的核心挑战。尽管现有的图神经网络方法通过高效提取交互特征显著提高了亲和力预测的效率，但它们主要局限于提取的特征向量的中后期融合。这阻碍了图结构之间的早期交叉融合，导致原始图中关键交互信息的丢失。为了克服这一限制，我们提出了一种新的双交叉消息传递神经网络（DCMP）。我们的模型利用图内和图间消息传递，在蛋白质、配体及复合图之间实现早期特征融合，从而丰富了蛋白质-配体相互作用的表示。此外，我们基于原子-键图和键角图建立了双通道模块，以共同捕获关键的物理化学性质和几何结构。经过多轮信息交换后，三个图的最终表示被整合在一起。在多个公共基准数据集上的广泛实验表明，DCMP取得了先进的性能，证实了我们方法的优越性。

引言

蛋白质-配体结合亲和力的预测是药物发现中的一个基本问题，因为它直接决定了小分子药物的生物活性和治疗效果[1]、[2]。配体通过特定的相互作用（主要是非共价键，如氢键、疏水相互作用和范德华力）与目标蛋白质结合，从而作为激动剂或抑制剂，调节生物过程和疾病进展。因此，准确的亲和力预测对于高效的药物筛选和合理药物设计至关重要。

传统的实验方法，如高通量筛选，成本高昂且耗时[3]、[4]。计算方法通过模拟蛋白质-配体相互作用并根据预测的结合亲和力对候选化合物进行优先排序，提供了一种高效的替代方案[5]。近年来，图神经网络（GNN）由于其强大的表示分子结构和关系相互作用的能力，已成为蛋白质-配体亲和力预测的主流范式[6]、[7]。消息传递机制使GNN能够迭代地在图结构数据上交换和聚合信息，使其特别适合用于建模分子系统[8]、[9]。

现有的基于GNN的方法主要在蛋白质、配体和复合体之间的特征融合阶段上有所不同，如图1所示。早期方法通常采用后期融合策略。例如，MGraphDTA[10]将蛋白质和配体表示为独立的图，分别提取它们的特征，然后融合最终的特征向量进行亲和力预测。然而，这种后期融合缺乏蛋白质和配体之间的细粒度交互信息。同样，PaxNet[11]构建了一个复合交互图，并将其分为共价和非共价子图，分别提取其特征并在最后阶段融合。这种策略未能捕捉子图之间的依赖性及其对全局交互结构的影响。

为了更明确地纳入交互信息，已经提出了在复合图上操作的交叉消息传递方法。SIGN[12]在蛋白质-配体复合图内的节点和边之间进行信息交换，而IGN[13]将蛋白质和配体图中的共价键特征与复合图中的非共价交互特征结合，然后进行后期融合。尽管这些方法模拟了某些交互细节，但蛋白质、配体和复合图之间的信息交换仍然有限且不系统，全局蛋白质和配体特性对结合相互作用的影响往往被忽视。

更现代的模型尝试融合来自多个图的特征。EGNA[14]分别从蛋白质、配体和复合图中提取特征，并在特征向量级别进行交叉融合。GIGN[15]进一步引入了一种门控机制，在后期融合过程中重复交换共价和非共价特征。尽管有这些改进，但这些方法仍然主要在编码的特征向量上操作，信息交换没有在原始图结构的层面进行。GEMF[16]通过在中期融合与共价和非共价相互作用相关的图特征来推进这一理念。然而，交换的信息仍然局限于图神经网络已经处理过的表示，难以避免在特征提取过程中丢失细粒度的结构信息。

现有的基于GNN的亲和力预测方法主要在图编码后进行信息融合，而原始图结构的早期交叉融合基本上尚未被探索。这一限制至关重要，因为蛋白质-配体结合亲和力受到复合界面上的非共价相互作用和限制分子构象的共价键结构的共同影响。因此，准确的建模需要同时捕获蛋白质、配体和复合体的共价和非共价特征以及它们之间的内在结构相关性。

早期融合在分子性质预测中显示出有效性。例如，CD-MVGNN[17]为分子构建了原子-键图和键-键角线图，并允许在相应节点之间进行交叉消息传递以丰富几何表示。然而，将早期融合从单分子性质预测扩展到蛋白质-配体结合亲和力预测存在根本的技术挑战，并非简单的调整：

1. 图系统的异质性和对齐：CD-MVGNN操作的是单个分子的同构视图。相比之下，结合亲和力预测涉及一个由蛋白质、配体和复合体组成的异质系统，它们在拓扑结构和特征空间上有显著差异。核心挑战在于在复合图和蛋白质/配体图之间建立精确的节点级映射机制，以确保不同坐标系统之间的信息准确流动。

2. 交互信息的反馈机制：单分子任务缺乏结合界面的概念。在亲和力预测中，使复合图中的非共价相互作用（如氢键、静电相互作用）作为反馈信号，在消息传递阶段动态修正蛋白质和配体的局部特征至关重要。这种功能在现有的单分子框架中固有地缺失。

为了解决这些挑战，我们提出了一个双交叉消息传递神经网络（DCMP）模型用于蛋白质-配体结合亲和力预测。DCMP构建了三个图：蛋白质图、配体图和蛋白质-配体复合体交互图。首先在每个图中进行消息传递，以更新节点表示并过滤局部冗余信息。随后，图间消息传递将复合图中的节点与蛋白质或配体图中的相应节点连接起来，实现图间原始结构信息的精确关联，并实现早期融合。早期融合后，从每个图中提取特征表示，以捕获相关的物理化学和几何性质，并将输出组合成多尺度特征向量用于亲和力预测。

为了进一步澄清这些差异，我们系统地比较了代表性方法在融合阶段、融合粒度以及图间信息参与和影响后续图内消息传递的能力，如表1所示。现有的后期和中期融合方法仅在节点嵌入固定后引入蛋白质-配体相互作用，将图间信息限制在事后的特征调整上，而不是动态的结构校正。相比之下，DCMP的早期节点级融合使得蛋白质、配体和复合图在计算图级别上能够共同演化节点嵌入和双向结构细化——这对于捕获依赖上下文的结合相互作用至关重要。

本工作的主要贡献总结如下：

•
我们提出了一种双交叉消息传递神经网络（DCMP），通过图内和图间消息传递实现蛋白质、配体和复合图之间的早期特征融合。
•
我们设计了一种统一的融合策略，整合了原子-键和键-键角信息，增强了蛋白质-配体结合中关键共价和非共价相互作用的建模。
•
DCMP在CASF-2013、CASF2016和PDBbind v2019基准数据集上实现了改进的结合亲和力预测准确性，并提供了对蛋白质-配体相互作用的可解释性见解。

本文的其余部分组织如下。第2节详细描述了提出的DCMP模型。第3节介绍了实验设置和基准结果，第4节给出了结论。代码详情可以在https://github.com/dnxkBocchi/DCMP中找到。

部分片段

方法

本节介绍了用于预测蛋白质-配体结合亲和力的提出的DCMP模型。整体框架如图2所示。首先，使用原子-键图和线图表示蛋白质-配体复合体。然后应用双交叉消息传递神经网络分别捕获蛋白质和配体结合过程的物理化学和几何特征。

结果

在本节中，我们在PDBbind数据集上进行了实验，以证明我们模型在预测蛋白质-配体结合亲和力方面的有效性。

结论

总之，本文提出了双交叉消息传递神经网络（DCMP），以解决现有方法的问题，这些方法仅限于特征向量的中后期融合，因此在原始图结构中存在信息丢失。我们的方法利用了一种新的双消息传递机制，结合了图内和图间消息传递，在早期融合过程中捕获蛋白质-配体结合的细节。

CRediT作者贡献声明

刘倩：写作 – 审稿与编辑。王宇：写作 – 原始草稿。刘浩然：写作 – 原始草稿。沈俊：写作 – 审稿与编辑。黄泽宇：数据管理。周国强：概念化。卢玉媛：概念化。

未引用的参考文献

[36]

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。

致谢

本工作得到了中国国家重点研发计划（项目编号：2020YFA0713600）的支持，该计划由中国科学技术部资助。刘倩构思了研究，开发了方法论，进行了实验和数据分析，并撰写了原始草稿。王宇参与了方法论、软件、调查和数据分析，并审阅和编辑了手稿。刘浩然协助了软件开发、调查和数据

摘要

引言

部分片段

方法

结果

结论

CRediT作者贡献声明

未引用的参考文献

利益冲突声明

致谢

热点排行