基于配对序列语言模型的蛋白质-蛋白质相互作用预测新方法

【字体: 时间:2026年03月11日 来源:Nature Communications 15.7

编辑推荐:

  为解决传统单链蛋白质语言模型无法有效表征蛋白质间固有相互作用模式的问题,研究人员开发了一种新型蛋白质配对语言模型(PPLM)。该研究构建了用于二分类预测、亲和力预测和接触预测的PPLM系列模型。大规模实验证明,该模型在多种预测任务中超越现有方法,尤其在抗体-抗原等挑战性案例上表现优异。这项研究展示了共同表征语言模型在计算模拟蛋白质-蛋白质相互作用方面的巨大潜力。

  
在生命科学领域,蛋白质是执行细胞功能的关键分子。蛋白质很少单独行动,它们通过与其他蛋白质结合形成复合体,共同完成信号传导、物质运输、免疫应答等重要生理过程。理解蛋白质-蛋白质相互作用(Protein-Protein Interactions, PPIs)是破译生命活动奥秘、指导新药研发的关键。长期以来,科学家们通过X射线晶体学、冷冻电镜等技术解析蛋白质复合物的结构,以揭示相互作用的分子细节。然而,这些实验方法通常耗时耗力且成本高昂,难以大规模应用。随着人工智能的崛起,蛋白质序列数据与机器学习技术的结合为预测蛋白质结构和功能开辟了新道路。近年来,蛋白质语言模型(Protein Language Models)通过学习海量蛋白质序列数据,在预测单个蛋白质的结构与功能方面取得了令人瞩目的成就。但一个核心挑战随之浮现:这些先进的模型大多是为编码单个蛋白质链而设计的,忽视了蛋白质之间的“对话”与“协作”,即无法直接捕捉到蛋白质复合物中固有的、依赖于相互作用的特征模式。这就好比只研究每个乐器的音色,却无法预测它们合奏时产生的和声。为了突破这一瓶颈,一个能够同时“阅读”和“理解”一对蛋白质序列的模型变得至关重要。
为了回答“如何更直接、更有效地从序列预测蛋白质间的相互作用”这一问题,研究人员在《Nature Communications》上发表了一项开创性研究。他们不再局限于单个序列,而是开创性地提出了一个蛋白质配对语言模型(Protein Pair Language Model, PPLM)。这个模型的设计核心是“联合编码”,即能够将一对蛋白质的序列作为一个整体进行编码学习,从而直接习得那些蕴含相互作用信息的表征。基于PPLM这个强大的“基础模型”,研究团队构建了三个面向不同预测任务的下游工具:PPLM-PPI用于预测两个蛋白质之间是否会发生相互作用(二分类预测),PPLM-Affinity用于预测它们结合的紧密程度(结合亲和力预测),PPLM-Contact则用于预测在相互作用界面上哪些氨基酸残基会彼此接触(界面接触预测)。
研究者们开展这项研究主要依赖于几个关键技术方法。首先是开发了蛋白质配对语言模型(PPLM)的架构,该架构能够对成对的蛋白质序列进行联合编码和表示学习。其次,基于PPLM,他们通过特定的任务头和训练策略,构建了分别用于解决二分类、回归和接触图预测问题的三个下游模型(PPLM-PPI, PPLM-Affinity, PPLM-Contact)。最后,他们进行了大规模的计算实验与性能评估,使用了涵盖不同物种的多个标准蛋白质-蛋白质相互作用数据集、绑定亲和力数据集以及具有真实三维结构的蛋白质复合物数据作为基准测试集,将新模型与当前最先进的序列模型(如ESM2)和基于结构的方法进行比较验证。
研究结果展示了PPLM系列模型在不同任务上的卓越性能:
PPLM-PPI 在二元相互作用预测方面表现出最先进的性能
通过在不同物种的大规模基准数据集上进行测试,PPLM-PPI在预测两个蛋白质之间是否会发生相互作用的任务上,取得了优于现有方法的性能,证明了联合编码学习在捕捉相互作用信号方面的有效性。
PPLM-Affinity 在结合亲和力建模方面优于 ESM2 和基于结构的方法
对于量化结合强度这一更具挑战性的任务,PPLM-Affinity的表现超越了强大的单链蛋白质语言模型ESM2,甚至在一些案例中超过了依赖于三维结构信息的方法。特别值得注意的是,在抗体-抗原(antibody–antigen)和T细胞受体-pMHC(TCR–pMHC)复合物这些传统上难以准确预测的挑战性案例上,PPLM-Affinity也展现出了优势。
PPLM-Contact 在蛋白质间接触预测和界面残基识别方面超越了现有的接触预测因子
在预测相互作用界面上残基对的空间接触时,PPLM-Contact同样表现突出,其预测精度超过了现有的接触预测工具。它的优势还包括更准确地识别位于相互作用界面上的关键残基。这种优越性甚至延伸到了对由尖端复杂结构预测方法推导出的结果进行分析时,表明其学习到的表征具有强大的泛化能力。
综上所述,这项研究的主要结论是,通过联合编码配对蛋白质序列的蛋白质配对语言模型(PPLM),能够直接学习到超越单链模型的、具有“相互作用感知”能力的蛋白质表征。基于此开发的一系列模型(PPLM-PPI, PPLM-Affinity, PPLM-Contact)在蛋白质-蛋白质相互作用的多个关键计算预测任务上——包括二元相互作用判断、结合亲和力定量以及界面接触图预测——均实现了性能的显著提升,达到了当前最先进的水平。尤其在与免疫识别相关的、结构复杂的抗体-抗原和TCR-pMHC体系上表现优异,证明了其处理生物医学关键问题的潜力。该研究的意义在于,它突破了现有蛋白质语言模型主要面向单链的局限,开创了“共同表征”的新范式,为从序列出发大规模、高精度地计算模拟蛋白质-蛋白质相互作用提供了强大的新工具。这不仅深化了我们对蛋白质通过相互作用行使功能的理解,也为基于结构的药物设计、蛋白质工程以及揭示疾病相关分子机制开辟了新的计算途径,有望加速生命科学和生物医学领域的研究发现。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号