《Nature Methods》:eSIG-Net: an interaction language model that decodes the protein code of single mutations
编辑推荐:
大多数蛋白质通过与其他分子相互作用发挥功能,然而预测单个突变如何扰动这些相互作用(定义为“蛋白质编码”)仍是计算生物学的一个核心挑战。本文中研究人员引入了eSIG-Net(基于序列的边性突变相互作用语法网络),这是一种整合了蛋白质序列嵌入、语法感知与进化感知的
大多数蛋白质通过与其他分子相互作用发挥功能,然而预测单个突变如何扰动这些相互作用(定义为“蛋白质编码”)仍是计算生物学的一个核心挑战。本文中研究人员引入了eSIG-Net(基于序列的边性突变相互作用语法网络),这是一种整合了蛋白质序列嵌入、语法感知与进化感知的突变编码以及对比学习的语言模型,用于预测突变驱动的相互作用变化。eSIG-Net在性能上超越了最先进的基于序列和基于结构的方法,能够提名致病变异并提供机制性见解。总而言之,eSIG-Net是一种以突变为中心的相互作用语言模型,能够仅从序列信息准确地预测相互作用特异性的网络重连,并能泛化应用于不同的生物学背景。
一、 研究背景、问题与研究动机
过去15年,基因组和外显子组测序技术的显著进步揭示出远超以往认知的大量人类遗传变异。然而,大多数变异如何影响其所编码分子的分子特性和功能,以及它们对疾病发生发展的影响,在很大程度上仍是未知的。其中,错义突变是蛋白质编码突变中最常见的类型。即使是单个错义突变也可能极大地改变蛋白质-蛋白质相互作用(Protein-Protein Interaction, PPI)。这类似于化学机器学习中的“活性悬崖”问题,即微小的结构变化常导致活性的巨大或不可预测的改变。单个突变构成了“相互作用悬崖”这一重大挑战,导致计算模型错误预测突变介导的PPI。
应用蛋白质语言模型是解决这些限制的潜在方案,并已在诸如ESM1b、ESM-2、ProtT5、ESM3、D-SCRIPT和AlphaMissense等方法中实现。然而,这些方法也面临至少两个重大挑战:首先,它们未能明确学习突变蛋白与其对应的野生型(Wild-Type, WT)对应物之间的序列差异;其次,它们未能捕捉到对PPI相关任务至关重要的PPI的固有复杂性。
二、 关键技术方法简介
本研究为评估eSIG-Net模型,主要使用了两个独立的突变介导的PPI数据集:疾病突变PPI数据集和人群变异PPI数据集,并应用了五折交叉验证策略以避免随机样本对性能的影响。模型输入特征融合了氨基酸组成、联合三联体和自协方差三种方法生成的序列特征向量,并利用了蛋白质语言模型ESM-2获取残基水平的嵌入。模型框架包含PPI蛋白质编码器模块和突变蛋白质语言模型编码器模块,并通过约束差异学习模块来区分WT-相互作用蛋白对与突变-相互作用蛋白对之间微妙的编码差异,最终将整合的编码输入判别器预测PPI扰动。研究将eSIG-Net与五种最先进的基于序列的PPI预测方法(SDNN, D-SCRIPT, DeepFE, PIPR, PLM-interact)以及五种基于结构的突变中心预测方法(MutaBind2, BeAtMuSiC, GeoPPI, TopNetTree, PIONEER)进行了性能基准测试。此外,还通过消融研究验证了模型中关键模块的有效性。
三、 研究结果
1. eSIG-Net模型概述与基于序列方法的基准测试
研究人员引入了一种名为eSIG-Net(基于序列的边性突变相互作用语法网络)的以突变为中心的相互作用语言模型。与传统的PPI预测方法不同,eSIG-Net专注于WT与突变蛋白之间的差异,以及它们与特定相互作用伙伴的PPI图谱。其框架包含两个编码器模块:(1)PPI“蛋白质编码器”模块,分别获取蛋白质及其相互作用物的编码,然后合并它们以预测PPI;(2)突变“蛋白质语言模型”编码器,专门利用突变位点的残基级嵌入,通过通道学习获得合并的突变位点编码。最后,将两个合并编码整合并输入判别器以预测PPI扰动。
在疾病突变PPI数据集上,eSIG-Net显著优于所有基准测试方法,准确率达到了0.85±0.02,而其他方法的最佳准确率为0.63±0.02。在受试者工作特征(ROC)曲线分析中,eSIG-Net的曲线下面积(AUC)为0.91±0.02,同样在精确率-召回率曲线分析中表现出更好的性能。在人群变异PPI数据集上也观察到了相似的预测性能优势。
2. 与突变中心、基于结构预测工具的基准测试及跨生物背景的应用
消融研究验证了eSIG-Net框架中两个主要模块的有效性。研究表明,加入突变位点编码模块和约束差异学习模块均能持续提升模型在疾病突变和人群变异数据集上的预测准确率。
研究人员还指出,当前最先进的基于结构的方法AlphaFold衍生的FoldDock在预测选定疾病突变导致的相互作用改变方面存在局限。其他需要输入蛋白质复合物结构的基于结构预测工具,在通过AlphaFold-Multimer模型预测结构后,其预测准确率也远低于eSIG-Net。例如,在ROC曲线分析中,eSIG-Net的AUC为0.91±0.02,而MutaBind2、BeAtMuSiC、GeoPPI、TopNetTree和PIONEER的AUC值则在0.49到0.63之间。
eSIG-Net提供了一个可泛化的框架,可应用于不同的生物学背景,并适应于直接从蛋白质序列预测相互作用特异性的变异效应。例如,在具有多效性的基因TPM3中,eSIG-Net预测L100M突变会选择性扰动(即边性效应)与HSF2的相互作用,而M9R突变则保留了与HSF2的相互作用,这为理解同一基因不同突变导致不同疾病的表型结果提供了可能的机制性见解。
四、 讨论与结论
目前,大规模研究突变对蛋白质活性的影响极具挑战性,主要依赖于高通量湿实验平台进行测量。虽然这些方法在表征大量蛋白质变异方面取得了巨大进展,但它们仍然耗时耗力。eSIG-Net方法正是为解决这一问题而设计,可以通过深度计算机模拟突变扫描大规模、准确地实现变异的功能表征。这将极大促进迄今为止许多意义未明变异的注释和分析,可能有助于发现新的疾病相关生物标志物和治疗策略。
与其它最先进的方法类似,eSIG-Net也存在潜在的局限性。首先,在eSIG-Net框架中,研究人员使用了基于序列的生物统计学嵌入和蛋白质语言模型嵌入,以加速嵌入提取,但这牺牲了特定生物学背景下的部分共进化信息。其次,当前版本的eSIG-Net主要预测突变对一对蛋白质之间相互作用的能量或生物物理有利性的影响,尚未考虑许多致病变异以组织特异性方式导致疾病的情况。最后,PPI的改变并不直接揭示疾病的因果关系,更不用说可成药靶点的识别。
尽管如此,研究人员相信eSIG-Net有潜力革新我们对突变在分子网络中引起的机制性效应的理解,并推动遗传疾病治疗干预方面的实质性进展。
结论翻译
总之,eSIG-Net是一种以突变为中心的相互作用语言模型,能够仅从序列信息准确地预测相互作用特异性的网络重连,并能泛化应用于不同的生物学背景。