ppIRIS:基于迭代孪生网络的快速全蛋白质组蛋白-蛋白相互作用预测框架及其在A组链球菌宿主-病原体互作中的应用

《Advanced Science》:Rapid Proteome-Wide Discovery of Protein–Protein Interactions With ppIRIS

【字体: 时间:2026年03月13日 来源:Advanced Science 14.1

编辑推荐:

  本文综述了一种名为ppIRIS(蛋白-蛋白相互作用回归迭代孪生网络)的新型轻量级深度学习框架。该框架整合了进化(ESM-C)和结构(ProstT5 3Di)嵌入,直接从序列预测蛋白质相互作用(PPI)。文章通过多物种基准测试验证了其卓越的准确性,并展示其在A组链球菌(GAS)与人类宿主蛋白(如补体、凝血、蛋白酶抑制通路)相互作用快速、大规模预测中的应用,为细菌及跨物种PPI的系统性发现提供了高效的计算工具。

蛋白-蛋白相互作用(Protein-Protein Interactions, PPIs)是贯穿所有生命领域的细胞过程核心,尤其在宿主-病原体关系中扮演着关键角色,介导了从粘附、免疫调节到营养获取和毒力因子部署等一系列过程。然而,全面的相互作用组图谱绘制在蛋白质组尺度上仍面临巨大挑战。实验方法(如酵母双杂交、亲和纯化质谱等)覆盖度有限,而现有的计算方法往往缺乏跨物种的泛化能力,或计算资源消耗过大,难以用于大规模筛选。
为了解决这些难题,研究者们开发了ppIRIS(蛋白-蛋白相互作用回归迭代孪生网络)。这是一个轻量级的深度学习框架,旨在直接从蛋白质序列预测PPIs。ppIRIS的独特之处在于其架构设计,它巧妙地融合了两种前沿的蛋白质语言模型(Protein Language Models, pLMs)的嵌入信息:ESM-C 300M,它能捕捉丰富的进化模式;以及ProstT5 3Di,它提供了对蛋白质结构的洞察。通过一个共享权重的孪生网络(Siamese network)编码器,分别处理相互作用对中的两个蛋白,然后通过一个包含交叉注意力、绝对差值和元素乘积等多种关系的特征融合模块,最终输出一个0到1之间的相互作用概率评分。这种设计不仅提升了预测性能,更重要的是,它实现了前所未有的计算效率。
在严格的性能评估中,ppIRIS展现了其强大的实力。在人类PPI标准基准测试中,ppIRIS在准确性、精确度和F1分数等多个关键指标上都达到了最优水平。在针对果蝇、线虫、酵母和大肠杆菌等多物种的D-SCRIPT数据集评估中,ppIRIS的受试者工作特征曲线下面积(AUROC)和精确率-召回率曲线下面积(AUPR)均优于已有的序列预测基准模型,如D-SCRIPT、TUnA、Topsy-Turvy和PIPR。尤为突出的是其效率优势:在处理一万对蛋白质相互作用预测时,ppIRIS的推理速度(2169对/秒)相比基线模型(如D-SCRIPT的227对/秒)提升近一个数量级,同时峰值内存消耗(1.0 GB)远低于其他模型(超过20 GB),使其能够胜任几分钟内完成的蛋白质组尺度扫描。
研究者将ppIRIS应用于一个具有重要临床意义的病原体——A组链球菌(Group A Streptococcus, GAS)的蛋白质组分析。GAS是严格的人类病原体,可引起从咽炎到坏死性筋膜炎等多种疾病。通过对GAS M1血清型的全蛋白质组进行内部相互作用扫描,ppIRIS在不到两分钟内完成了所有蛋白对的评分。过滤掉已知的核糖体蛋白相关相互作用后,对排名最高的3000个预测进行分析,揭示了多个与毒力相关的功能簇,包括营养转运、应激反应、噬菌体防御和金属清除等。网络可视化清晰地展示了这些复杂的相互作用景观。对高分预测的蛋白质复合物(如参与DNA合成的NrdE-NrdF-I复合物、参与脂肪酸代谢的AtoA-AtoD复合物)进行AlphaFold 3建模,获得了较高的预测模板建模评分(pTM)和界面模板建模评分(ipTM),为这些预测提供了结构层面的合理性支持,尽管模型对许多含有内在无序区域的细菌蛋白预测置信度较低。
跨物种宿主-病原体相互作用的预测是一个更大的挑战。为此,研究团队在模型训练中引入了一种巧妙的“域偏移”策略:在处理细菌蛋白和人类蛋白时,对ProstT5 3Di嵌入使用不同的池化方法(细菌用标记池化,人类用平均池化),鼓励模型学习不依赖于物种特定表示的相互作用特征。在推理时,则统一使用单一的池化方法,消除了人工引入的差异。利用此策略训练的模型,在由16个GAS毒力因子和62个人类血浆蛋白组成的、包含112个已知亲和纯化质谱验证相互作用的数据集上进行评估。结果令人鼓舞:在预测评分阈值设为0.5时,ppIRIS成功找回了其中63个已知相互作用,回收率达到56.2%。进一步分析显示,预测评分最高的相互作用富集在补体系统、凝血级联反应和蛋白酶抑制剂等生物学上最相关的通路中,这与GAS通过干扰这些免疫和止血通路以实现免疫逃逸的已知生物学背景高度吻合。
为了对ppIRIS的预测进行前瞻性验证,研究团队设计了两组亲和纯化质谱实验。在交互组A中,使用重组的GAS毒力因子C5a肽酶和链球菌溶血素O作为诱饵蛋白,分别从人类血浆和唾液蛋白混合物中“钓取”相互作用的蛋白质。结果表明,在ppIRIS提名的高排名预测中,有53%得到了高置信度质谱互作统计分数的支持。已验证的相互作用集中于补体、凝血蛋白和纤溶酶原轴,与已知的毒力机制一致。在交互组B中,以人类纤溶酶原为诱饵,反向探测其与GAS细胞壁相关蛋白和分泌蛋白的相互作用,同样有50%的ppIRIS预测得到实验证实。这些前瞻性验证证实了ppIRIS在缩小实验搜索空间、高效富集真实相互作用方面的实用性。
最后,研究者利用ppIRIS进一步探索了GAS毒力因子与更广泛人类蛋白(包括血浆、唾液和细胞表面蛋白)的相互作用图谱。预测产生了数千个潜在相互作用,网络分析揭示了多个被多个毒力因子协同靶向的功能模块,包括补体/膜攻击复合物成分、上皮蛋白酶控制相关的丝氨酸蛋白酶抑制剂,以及丰富的屏障液蛋白。对部分高分预测的复合物(如超抗原SmeZ与整合素ITGA4、与神经元蛋白LRRN1的相互作用)进行AlphaFold 3建模,展示了从生物学上可信到有待验证的多种可能性,为未来的功能研究和治疗靶点发现提供了丰富的线索。
总而言之,ppIRIS通过融合进化与结构嵌入的轻量级孪生网络架构,实现了快速、准确的蛋白质组尺度及跨物种PPI预测。其在GAS宿主-病原体相互作用研究中的成功应用,不仅系统预测并部分验证了大量新型相互作用,还揭示了毒力因子靶向宿主关键通路的协调模式。尽管在预测覆盖某些低代表性蛋白家族(如载脂蛋白)和处理内在无序区域方面仍存在挑战,ppIRIS作为一个高效、可扩展的计算框架,为加速细菌及宿主-病原体相互作用的系统性发现和机制解析提供了强有力的新工具。该模型的代码和在线工具已开源,可供研究社区广泛使用。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号