SCMPPI:一种用于预测蛋白质-蛋白质相互作用的监督对比多模态框架

《Neurocomputing》:SCMPPI: Supervised contrastive multimodal framework for predicting protein-protein interactions

【字体: 时间:2026年03月26日 来源:Neurocomputing 6.5

编辑推荐:

  蛋白质相互作用预测的监督对比多模态框架SCMPPI通过整合序列特征(AAC, DPC, ESMC-CKSAAP)与网络拓扑(Node2Vec),结合增强的监督对比学习和负面样本过滤机制,有效提升预测准确性和跨物种泛化能力,实验验证优于基线模型。

徐胜瑞|王子坤|翟继秀|卢天池
中国兰州兰州大学翠英荣誉学院,730107

摘要

准确预测蛋白质-蛋白质相互作用(PPIs)对于理解细胞功能和疾病机制至关重要,然而这一过程受到实验方法成本高昂以及现有计算方法局限性的阻碍,尤其是在学习鲁棒的多模态表示和抑制假阴性方面。为了解决这些挑战,我们提出了SCMPPI——一种新颖的监督对比多模态框架。SCMPPI有效地利用了丰富的基于序列的嵌入方法(AAC、DPC和ESMC-CKSAAP)以及网络拓扑(Node2Vec嵌入)来实现全面的蛋白质表示。此外,它还结合了一种增强的监督对比学习策略,其中包含负样本过滤机制。该策略通过强制相互作用对之间的语义一致性来规范潜在空间,从而显著提高了模型的区分能力。这种综合方法使SCMPPI能够实现卓越的预测性能。在五个基准数据集上的广泛实验证明了其先进的性能和出色的跨物种泛化能力,始终优于基线方法。在CD9和Wnt网络中的成功应用表明,SCMPPI是多模态生物数据分析的一个有前途的工具。代码可访问于https://github.com/xshengrui/SCMPPI

引言

蛋白质-蛋白质相互作用(PPIs)在细胞内的许多生物过程中起着核心作用,准确预测它们对于理解细胞功能、揭示疾病机制和识别潜在药物靶点至关重要[1]、[5]、[34]、[40]。传统的实验方法,如酵母双杂交筛选[23]和串联亲和纯化[15],虽然信息丰富,但往往耗时、劳动密集且成本高昂。因此,计算方法作为PPIs预测的可扩展和高效替代方案近年来受到了广泛关注[7]、[22]、[47]。
随着生物信息学的快速发展,整合多种数据源(包括蛋白质序列、结构信息和网络拓扑)的多模态策略已成为PPIs预测的主流。通过利用不同模态之间的互补信息,这些方法在预测准确性上取得了显著提升。例如,DF-PPI [43]和TAGPPI [41]通过高级融合和基于图的学习技术结合了手工特征、语义嵌入和基于结构的信息。HIGH-PPI [14]引入了一种分层图学习方法来捕捉多尺度结构特征,而CollaPPI [32]利用协同学习整合了多种蛋白质属性。此外,SSPPI [4]展示了通过融合序列和结构视角来增强多模态效果的有效性,SemanGraphPPI [3]提出了异构语义挖掘来细化蛋白质相互作用模式。
然而,仍存在一些关键挑战。许多现有模型依赖于特定的特征提取流程或高质量结构数据的可用性,而这可能并非所有蛋白质都具备,从而限制了它们的实际应用范围。此外,在异构模态之间实现有效的特征对齐也非常困难。尽管结合序列和图特征很常见,但仅基于二元标签(相互作用是/否)进行训练可能不足以在潜在空间中强制两种模态之间保持语义一致性,尤其是在标签存在噪声的情况下。
此外,公开的PPIs数据集通常存在噪声和不完整性,导致假阴性的比例很高,这会严重影响模型的鲁棒性和泛化能力——尤其是在跨物种转移时。
为了克服这些限制,我们引入了一个新的框架——监督对比多模态框架用于蛋白质-蛋白质相互作用预测(SCMPPI),该框架旨在最大化多模态特征之间的协同作用,同时解决噪声标签的问题。在SCMPPI中,我们将多种基于序列的嵌入(AAC、DPC和ESMC-CKSAAP)与由Node2Vec生成的网络拓扑特征相结合,实现了更全面和稳健的蛋白质表示。此外,我们首次采用了监督对比学习策略进行PPIs预测。与可能导致在噪声数据上过拟合的复杂跨模态注意力机制不同,这种策略作为一种正则化目标,优化了联合嵌入空间。通过强制相互作用对紧密聚集,它隐式地驱动序列和网络编码器产生兼容且互补的特征,从而生成一个连贯且高度区分性的多模态表示。值得注意的是,通过在对比学习过程中引入负样本过滤机制,SCMPPI有效减轻了训练过程中假阴性的不利影响。这种统一设计显著提高了预测准确性、鲁棒性和跨物种泛化能力。
我们的主要贡献总结如下:
  • 我们提出了SCMPPI,这是一个深度学习框架,它无缝融合了蛋白质序列和网络特征,并采用了专为PPIs预测定制的监督对比学习策略。
  • 我们在PPIs预测中率先采用了带有负样本过滤机制的监督对比学习,增强了模型的泛化能力,并减少了假阴性的影响。
  • SCMPPI的协作多模态设计为各种蛋白质相互作用预测任务提供了灵活且可扩展的基础,支持更广泛的生物医学研究应用。
  • 部分片段

    用于PPI预测的深度学习

    早期的方法主要关注单模态数据。基于序列的方法,如PIPR和DeepFE-PPI,利用CNN或RNN从氨基酸序列中提取局部上下文特征。为了利用互补信息,最近的研究转向了多模态框架。例如,TAGPPI [41]在图神经网络中结合了AlphaFold预测的结构特征和序列信息,展示了利用结构数据的潜力。

    提出的方法

    本节描述了SCMPPI框架的架构,这是一个创新概念,旨在实现高效和高质量的PPIs预测(算法1)。

    实验

    在本节中,我们描述了所使用的实验设置并分析了我们的发现。

    结论与未来工作

    在这项工作中,我们提出了SCMPPI,这是一个用于稳健和通用蛋白质-蛋白质相互作用(PPIs)预测的新型监督对比多模态框架。通过协同整合基于序列的嵌入(AAC、DPC和ESMC-CKSAAP)与网络拓扑特征(Node2Vec),并通过带有负样本过滤机制的监督对比学习目标进一步增强了表示的区分能力,SCMPPI有效解决了两个关键问题

    CRediT作者贡献声明

    徐胜瑞:撰写——原始草稿、可视化、方法论、调查、形式分析、数据整理、概念化。王子坤:撰写——审阅与编辑、可视化、验证、监督。翟继秀:监督、软件。卢天池:撰写——审阅与编辑、监督、资源管理、方法论、数据整理、概念化。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
    徐胜瑞目前就读于兰州大学翠英荣誉学院2022届数学专业的荣誉班级,攻读学士学位。他的兴趣包括深度学习和科学领域的AI。

    订阅生物通快讯

    订阅快讯:

    最新文章

    限时促销

    会展信息

    关注订阅号/掌握最新资讯

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号