
-
生物通官微
陪你抓住生命科技
跳动的脉搏
ProSSF:整合序列、结构和基因本体信息以预测蛋白质稳定性、相互作用和功能
《Molecular Genetics and Genomics》:ProSSF: integrating sequence, structure, and gene ontology for prediction of protein stability, interaction, and function
【字体: 大 中 小 】 时间:2026年05月20日 来源:Molecular Genetics and Genomics 2.1
编辑推荐:
摘要蛋白质序列包含了丰富的结构和功能信息,这些信息决定了生物体如何应对基因变异、环境挑战和疾病。然而,现有的计算方法通常依赖于单一的信息来源,无论是序列、结构还是功能注释,对于低同源性蛋白质或孤儿蛋白质,它们的预测能力显著降低。在这里,我们提出了ProSSF(Protein Se
蛋白质序列包含了丰富的结构和功能信息,这些信息决定了生物体如何应对基因变异、环境挑战和疾病。然而,现有的计算方法通常依赖于单一的信息来源,无论是序列、结构还是功能注释,对于低同源性蛋白质或孤儿蛋白质,它们的预测能力显著降低。在这里,我们提出了ProSSF(Protein Sequence-Structure-Function),这是一个统一的多模态预训练框架,它对大规模蛋白质序列进行掩码预训练,通过几何向量感知器图神经网络(GVP–GNN)编码三维结构信息,通过双路径分层编码器整合基因本体(GO)语义,并通过跨模态注意力将这三种模态对齐到一个共享的表示空间中。在三个下游任务中进行评估时,ProSSF在TAPE蛋白质稳定性基准测试中达到了0.74 ± 0.009的Spearman相关性,在严格的DFS划分下的SHS148K蛋白质-蛋白质相互作用数据集上平均Micro-F1值为84.60% ± 0.9%,并且在所有三个GO子本体上的Fmax和AUPR方面与最先进的基线相当或更优。消融分析表明,结构几何和GO功能语义提供了互补的、依赖于任务的信息,在低同源性条件下观察到了最大的性能提升。基于注意力的可解释性分析进一步揭示,该模型在没有明确监督的情况下优先关注生物学上有意义的区域,如激酶催化结构域。本研究提供了一个统一的多模态预训练框架,并证明了联合编码序列、结构和功能语义显著提高了蛋白质属性预测的泛化能力。未来的研究应在更大、分类更多样的蛋白质数据集上验证这一框架,并探索其在疾病相关蛋白质的功能注释和新型药物靶点识别中的潜在应用。
蛋白质序列包含了丰富的结构和功能信息,这些信息决定了生物体如何应对基因变异、环境挑战和疾病。然而,现有的计算方法通常依赖于单一的信息来源,无论是序列、结构还是功能注释,对于低同源性蛋白质或孤儿蛋白质,它们的预测能力显著降低。在这里,我们提出了ProSSF(Protein Sequence-Structure-Function),这是一个统一的多模态预训练框架,它对大规模蛋白质序列进行掩码预训练,通过几何向量感知器图神经网络(GVP–GNN)编码三维结构信息,通过双路径分层编码器整合基因本体(GO)语义,并通过跨模态注意力将这三种模态对齐到一个共享的表示空间中。在三个下游任务中进行评估时,ProSSF在TAPE蛋白质稳定性基准测试中达到了0.74 ± 0.009的Spearman相关性,在严格的DFS划分下的SHS148K蛋白质-蛋白质相互作用数据集上平均Micro-F1值为84.60% ± 0.9%,并且在所有三个GO子本体上的Fmax和AUPR方面与最先进的基线相当或更优。消融分析表明,结构几何和GO功能语义提供了互补的、依赖于任务的信息,在低同源性条件下观察到了最大的性能提升。基于注意力的可解释性分析进一步揭示,该模型在没有明确监督的情况下优先关注生物学上有意义的区域,如激酶催化结构域。本研究提供了一个统一的多模态预训练框架,并证明了联合编码序列、结构和功能语义显著提高了蛋白质属性预测的泛化能力。未来的研究应在更大、分类更多样的蛋白质数据集上验证这一框架,并探索其在疾病相关蛋白质的功能注释和新型药物靶点识别中的潜在应用。