基于子序列重排序预训练的零样本学习方法在复合蛋白质相互作用研究中的应用

生物通 | 新技术专栏

《Knowledge-Based Systems》：Zero-Shot Learning with Subsequence Reordering Pretraining for Compound-Protein Interaction

【字体：大中小】 时间：2026年03月03日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　零样本化合物-蛋白质相互作用预测面临蛋白质子序列复杂依赖建模和小数据集效率问题，本文提出PSRP-CPI方法，通过子序列重排预训练和长度可变增强策略，有效捕捉非局部依赖关系，显著提升基线模型在零样本场景和小规模数据集上的性能。

张洪志|刘忠立|孟坤|陈家猛|吴佳|杜波|林迪|车艳|胡文斌

中国武汉大学计算机科学学院

摘要

鉴于化学空间的广阔以及新蛋白质的不断涌现，零样本化合物-蛋白质相互作用（CPI）预测更能反映实际药物开发中的挑战和需求。尽管现有方法在某些CPI任务中表现尚可，但仍然面临以下问题：（1）从局部或完整蛋白质序列中进行表示学习时，常常忽略了子序列之间的复杂依赖关系，而这些关系对于预测空间结构和结合特性至关重要。（2）依赖于大规模或稀少多模态蛋白质数据集需要大量的训练数据和计算资源，限制了模型的可扩展性和效率。为了解决这些问题，我们提出了一种新方法，该方法通过子序列重排序对蛋白质表示进行预训练，从而明确捕捉子序列之间的依赖关系。此外，我们还应用了长度可变的蛋白质增强技术，以确保在小规模训练数据集上的良好预训练性能。为了评估模型的有效性和零样本学习能力，我们将该方法与多种基线方法进行了结合。实验结果表明，我们的方法可以提高基线模型在CPI任务上的性能，尤其是在具有挑战性的零样本场景中。与现有的预训练模型相比，我们的模型在数据稀缺的情况下表现更为优越。我们的实现代码可在以下链接获取：https://github.com/Hoch-Zhang/DrugDiscovery-DTI/。

引言

化合物-蛋白质相互作用（CPI）预测[1]、[2]、[3]、[4]为传统药物发现中的低效率问题提供了解决方案，尤其是在减少时间和成本方面[5]。在CPI预测任务中，评估场景通常分为四类：Both-Seen、Compound-Unseen、Protein-Unseen和Both-Unseen，这取决于化合物和蛋白质是否在训练数据中出现过。其中，除了Both-Seen场景外，其他三种场景都属于零样本学习范畴。考虑到庞大的化学空间和新蛋白质的持续出现，零样本CPI预测场景更符合药物发现中的实际需求。

如图1(a)所示，在化合物与蛋白质的相互作用中，参与结合的氨基酸残基通常不是顺序相邻的，而是通过蛋白质的三维结构折叠而紧密靠近，从而形成结合口袋或活性位点。因此，有效建模CPI需要捕捉可能协同作用的蛋白质子序列之间的关系。这对传统的基于序列的模型来说是一个重大挑战，因为它们往往难以模拟这种长距离和子序列依赖性。

包括回归[6]、[7]和分类[8]、[9]模型在内的监督学习技术已被广泛研究，并在预测Both-Seen CPI方面表现出良好的性能，即化合物和蛋白质在训练期间都已被观察到。然而，利用端到端CPI框架进行蛋白质表示的监督学习方法难以有效捕捉蛋白质子序列之间的复杂依赖关系，而这些关系对于预测空间结构和结合特性至关重要。此外，这些方法的预测性能严重依赖于大量高质量标记数据。所有这些因素都使得将模型泛化到零样本学习变得困难。

自监督学习（SSL）技术最近在零样本学习任务中表现出优异的性能[10]、[11]、[12]、[13]。在CPI预测的背景下，基于SSL的方法通常通过两种主要范式来增强蛋白质表示学习：跨模态对比学习和基于掩码的序列重建。尽管取得了成功，但这些方法在捕捉非局部子序列依赖性方面存在显著局限性。对比学习方法侧重于跨模态（例如序列-结构对）[4]对相同蛋白质子序列的对齐，但它们本质上无法捕捉同一蛋白质内不同子序列之间的复杂依赖性。这种局限性源于它们对全局特征一致性的优先考虑，而忽视了局部交互模式。因此，非相邻残基之间的关键空间或功能关系（例如不连续的结合基序）未能得到充分表示。基于掩码的方法，特别是蛋白质语言模型（PLMs）[14]、[15]、[16]，通过从邻居氨基酸重构掩码氨基酸来处理局部上下文学习[17]。这些方法主要模拟相邻或近邻的子序列，忽略了对于整体结构和功能表示至关重要的长距离依赖性。此外，基于SSL的方法通常依赖于专门或特定于任务的数据。例如，对比学习框架依赖于高质量的多模态蛋白质数据（如序列-结构对）来捕捉跨模态相关性。然而，这类数据对于研究不足的蛋白质来说非常稀缺，限制了其在零样本场景中的适用性。虽然基于掩码的方法对多模态数据的依赖性较低，但仍需要在庞大的序列语料库（如UniRef50/90）上进行大规模预训练，以学习鲁棒且泛化的蛋白质表示[14]。

为了解决这些问题，我们提出了一种名为PSRP-CPI（Protein Sequence Reordering Pretraining for CPI Prediction）的蛋白质编码器方法。首先，如图1(b)所示，PSRP-CIP通过子序列重排序对蛋白质编码器进行预训练，明确捕捉蛋白质子序列之间的依赖关系。然后，根据基准方法对编码器进行微调，以更有效地适应CPI任务。在预训练阶段，我们使用多层Transformer[18]作为蛋白质编码器，有效学习远距离子序列之间的关系。此外，重排序任务要求模型预测混合蛋白质子序列的正确顺序，迫使其理解和建模它们的结构和功能依赖性。其次，我们应用长度可变的蛋白质增强技术，以提高模型在小规模训练数据集上的预训练性能，并增强其零样本学习能力。最后，为了评估模型的有效性和零样本学习能力，我们根据化合物和蛋白质是否在训练期间被观察到，将测试数据分为四组。实验结果表明，PSRP-CIP显著提高了基线模型在零样本场景中的性能，突显了我们方法在增强模型泛化能力方面的有效性。同时，与传统的预训练方法相比，我们的方法在训练样本有限的场景中表现出更优的性能。所提出的方法成为CPI任务的强大工具，在药物发现中具有广泛的应用前景。本研究的主要贡献如下：•

我们提出了一种基于蛋白质子序列重排序的预训练方法PSRP-CPI，通过明确建模蛋白质子序列之间的关系来提高CPI预测任务的性能。

•

我们开发了一种长度可变的蛋白质增强策略，使模型即使在小规模数据集上也能实现稳健的预训练性能。

•

我们在四个广泛使用的CPI基准数据集上进行了全面实验，证明了PSRP-CIP在零样本CPI预测中的强大性能。此外，我们还将PSRP-CPI与现有预训练方法在小规模数据集上进行了比较，以评估其在资源匮乏环境下的有效性。

概述

为了解释这个问题，我们将感兴趣的蛋白质表示为

P

，将化合物集合表示为

G

。给定一组CPI序列

订阅生物通快讯

订阅快讯：

免费订阅退订

限时促销

会展信息

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

相关研究

概述

订阅生物通快讯

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯