FocusLG：专注于局部和全局分子表征，以预测激酶抑制剂的结合亲和力

《Journal of Molecular Graphics and Modelling》：FocusLG: Focusing on local and global molecular representation for kinase inhibitor binding affinity prediction

【字体：大中小】 时间：2026年05月22日 来源：Journal of Molecular Graphics and Modelling 3

编辑推荐：

　　万斌|张瑞生|蒋静兰州大学信息科学与工程学院，中国兰州730000摘要激酶抑制剂结合亲和力预测是药物发现中的一个基本且重要的任务。现有的激酶抑制剂亲和力研究方法存在一些局限性，包括特征表示不足、标记数据有限以及模型预测准确性相对较低。我们提出了FOCUSLG，这是一种同时关注抑制

万斌|张瑞生|蒋静

兰州大学信息科学与工程学院，中国兰州730000

摘要

激酶抑制剂结合亲和力预测是药物发现中的一个基本且重要的任务。现有的激酶抑制剂亲和力研究方法存在一些局限性，包括特征表示不足、标记数据有限以及模型预测准确性相对较低。我们提出了FOCUSLG，这是一种同时关注抑制剂分子局部和全局特征的激酶抑制剂亲和力预测方法。具体来说，该模型使用ESM-2作为蛋白质特征编码器来有效提取激酶特征，利用ChemBERTa作为分子特征编码器来捕捉抑制剂的全局特征，并结合图卷积网络（GCN）来关注抑制剂的局部分子特征。在MAPK通路（包括RAF、MEK和ERK）的激酶-抑制剂结合亲和力预测任务中，该模型在RAF上的预测准确率为88.7%，在ERK上的预测准确率为81.0%。此外，在包含200多种激酶的数据集上，该方法的准确率和AUC值分别为68.4%和76.3%，并且在PDBbind数据集上也表现出良好的性能，表明其具有很强的泛化能力。

引言

分子表示在药物发现中是基础且核心的[1]，[2]，因为它编码了分子的结构信息，并揭示了药物-靶点相互作用的机制，为药物设计和开发提供了关键基础。有效的分子表示可以提高筛选效率，降低实验成本，缩短从发现到应用的时间线，并提高药物安全性和选择性的预测。

激酶是一类催化磷酸基团从三磷酸腺苷（ATP）转移到特定底物的酶。由于激酶在信号转导和细胞生命活动调节中的关键作用[3]，它们已成为药物发现中的重要靶点[4]。准确预测激酶抑制剂的结合亲和力有助于推动研究人员在新激酶靶向治疗研究方面的进展，并对开发用于治疗癌症[5]、[6]、[7]、[8]等疾病的激酶药物具有重要意义。

丝裂原活化蛋白激酶（MAPKs）在协调细胞过程（包括细胞周期、存活和分化）的关键信号级联中起着至关重要的作用[9]。MAPK信号通路中的激酶与其特定抑制剂之间的结合亲和力预测一直是研究的重点[10]、[11]、[12]。传统的机器学习方法[13]不需要大量的亲和力数据进行预测，并且训练速度快。然而，由于表示能力有限，它们的预测准确性往往较低[14]。利用深度学习方法预测激酶-抑制剂结合亲和力可以缩短研发周期并降低成本[15]、[16]、[17]、[18]。

大型语言模型在药物发现和开发领域得到了广泛应用[19]，展示了显著的技术进步和实际效果[20]、[21]、[22]。然而，基于大型模型的亲和力预测模型往往过度依赖大型模型的上下文处理和迁移能力，这使得模型在处理复杂的分子相互作用时难以完全捕捉抑制剂和激酶之间的微妙相互作用[23]、[24]、[25]。因此，为了进一步提高MAPK抑制剂结合亲和力预测的性能，本文提出了一种名为FocusLG的激酶-抑制剂亲和力预测框架，该框架结合了多模态分子表示，以同时关注抑制剂的局部和全局分子特征。具体而言，使用高效的预训练蛋白质语言模型（ESM-2）直接对蛋白质激酶进行序列特征编码，使用ChemBERTa[26]从SMILES序列中提取全局特征，并采用图卷积网络（GCN）从抑制剂的分子图中挖掘局部特征。

总体而言，FocusLG采用多层次融合策略来更全面地捕捉抑制剂分子的局部和全局特征，从而增强分子特征并提高预测准确性。在这项任务中，首次明确使用ChemBERTa并行捕获抑制剂的全局序列语义特征，并使用GCN捕获其局部拓扑特征。本文在MAPK数据集、多激酶数据集和PDBbind数据集[27]上进行了系统实验。FocusLG在MAPK通路中的激酶-抑制剂结合亲和力预测方面取得了优异或可比的性能。它在包含200多种激酶的更大规模数据集PDBbind2016上也展示了良好的泛化能力。总之，本文的主要贡献如下。

•
提出了基于多模态预训练的FocusLG激酶-抑制剂亲和力预测框架，以提高模型的亲和力预测性能。
•
提出了一种新的多模态特征融合方法，可以有效关注抑制剂的局部和全局分子特征。
•
实验证明了FocusLG在MAPK抑制剂亲和力预测中的有效性，以及在PDBbind 2016上的强泛化能力。

部分摘录

药物靶点亲和力预测

药物靶点亲和力预测（DTA）是计算药物发现中的关键任务[28]。传统的基于机器学习的方法通常依赖领域专家根据先验知识构建特征工程。近年来，各种基于深度学习的方法已被应用于蛋白质配体结合亲和力预测[29]、[30]、[31]或DTA预测[32]、[33]。最近，基于注意力机制的方法受到了越来越多的关注[12]、[34]、[35]。

预训练语言模型

预训练

FocusLG

本文提出了FOCUSLG，这是一种融合多模态分子表示的激酶抑制剂亲和力预测方法。通过特征投影后的简单串联这种轻量级融合方法，其性能优于现有方法或基线（如单模态方法），同时控制了模型复杂性，这一点得到了消融实验的支持。针对小样本激酶抑制剂数据提出了一种特定的增强方案。

如图1所示，使用ESM-2作为

数据集

我们使用了来自GPT4Kinase的公共数据集[21]，包括MAPK数据集和多激酶数据集，以及BindingDB数据库中的激酶结合域序列、抑制剂SMILES字符串和相应抑制剂的实验测量的Kd值。

MAPK数据集包括三种激酶的结合域序列，即RAF、MEK和ERK。RAF（EC 2.7.11.1）包括RAF原癌基因丝氨酸/苏氨酸蛋白激酶

结论与未来工作

在这项研究中，我们提出了FocusLG这一新的计算框架，旨在通过有效捕捉局部和全局分子表达来提取有用的分子特征，从而提高激酶-抑制剂亲和力的预测性能。FocusLG使用预训练的分子编码器ChemBERTa从抑制剂中提取全局分子特征。为了进一步关注抑制剂的局部分子特征，我们整合了GCN，使模型能够更关注

CRediT作者贡献声明

万斌：撰写——原始草稿，验证，研究。张瑞生：监督。蒋静：撰写——审阅与编辑，方法论。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

致谢

作者感谢匿名审稿人的宝贵建议。本工作得到了中国兰州科技创新人才项目（编号：2025-QN-051）的支持。

摘要

引言