《Journal of Molecular Biology》:MoonProt 4.0: 2026 Update of the Moonlighting Proteins Database
编辑推荐:
MoonProt 4.0(http://moonlightingproteins.org)是一个更新的开放获取数据库,存储了经人工筛选的Moonlighting蛋白注释。Moonlighting蛋白是指单个多肽链表现出两种或更多具有生理相关性的不同生化或物理功
MoonProt 4.0(http://moonlightingproteins.org)是一个更新的开放获取数据库,存储了经人工筛选的Moonlighting蛋白注释。Moonlighting蛋白是指单个多肽链表现出两种或更多具有生理相关性的不同生化或物理功能的蛋白质。在此,研究人员描述了自2021年发表报告以来数据库的扩展情况。在五名本科生注释员的协助下,研究人员添加了约200个蛋白质条目,使总数超过700个Moonlighting蛋白。新条目包括更多来自植物的例子、更多的跨膜蛋白以及额外的功能组合。MoonProt数据库收集的多功能蛋白质资源可作为开发蛋白质功能预测算法的资源,并提供了蛋白质支架上新功能进化的实例,这对于开发设计具有附加功能蛋白质的新方法具有价值。
研究人员针对Moonlighting蛋白这一具有多重生理功能的特殊蛋白质群体,构建了MoonProt 4.0数据库,该成果发表于《Journal of Molecular Biology》。研究背景在于,尽管已有数百种蛋白质被发现具有多种功能,但这些信息分散于大量文献中,且缺乏统一的序列或结构特征来识别Moonlighting蛋白,这严重阻碍了相关领域的系统研究。为此,研究人员旨在通过构建和更新一个集中化的数据库,整合这些分散的信息,以促进蛋白质功能预测算法的发展及蛋白质进化机制的理解。
为实现上述目标,研究人员采用了多项关键技术方法。首先,基于严格的收录标准,筛选经同行评审发表的、具有生化或物理实验数据支持的Moonlighting蛋白,排除了由RNA可变剪接或家族蛋白差异导致的多功能现象。其次,利用UniProtKB和NCBI Protein Database鉴定特定物种的蛋白质序列,并通过BLAST工具比对Protein Data Bank(PDB)以获取结构信息。此外,还整合了Gene Ontology(GO)术语、Enzyme Commission(EC)编号、DisProt数据库及IUPred3预测的蛋白质无序区域信息,并利用DeepTMHMM预测跨膜区域。数据库架构基于MySQL存储数据,结合PHP、HTML和CSS构建Web界面,并采用WordPress内容管理系统进行维护。
研究结果部分详细阐述了数据库的构建与分析发现:
在“Moonlighting蛋白的选择”方面,研究人员确立了严格的纳入标准,确保数据库中每个条目均基于实验验证的多种生理功能,而非细胞定位差异或pleiotropic effects,这为数据库的权威性奠定了基础。
在“个体蛋白质包含的信息”方面,研究人员通过人工筛选,为每个蛋白条目整合了氨基酸序列(FASTA格式)、参考文献、UniProtKB及PDB登录号、GO术语总结以及EC编号。对于版本4.0,还更新了跨膜域和无序区域的预测程序,提升了注释的准确性。
在“数据库架构与Web界面”方面,研究人员开发了基于MySQL和PHP的在线平台,提供了文本搜索和BLAST序列相似性搜索功能,极大地增强了数据库的可用性和交互性。
结果分析与讨论部分揭示了以下核心结论:
关于“功能类型”,研究人员统计发现酶类(特别是糖酵解和柠檬酸循环中的酶)是数量最多的Moonlighting蛋白,其次是细胞表面蛋白及核酸结合蛋白。版本4.0显著增加了跨膜通道、转运蛋白及多蛋白复合物组分的收录。
关于“进化分布”,数据显示Moonlighting蛋白广泛存在于整个进化树中,涵盖细菌、真核生物(包括哺乳动物、植物、昆虫等),甚至在古菌和病毒中也发现了少数实例。
关于“功能组合”,最常见的组合是细胞质蛋白在细胞表面的第二种功能(细胞内/表面组合),许多胞质酶同时充当宿主细胞受体或粘附素。此外,糖酵解的十个酶在多种物种中均被证实为Moonlighting蛋白,展现了极高的功能多样性。
综上所述,研究人员得出结论:MoonProt 4.0数据库通过汇集超过700个经实验验证的Moonlighting蛋白条目,为科学界提供了一个集中化、可搜索的重要资源。该数据库不仅揭示了Moonlighting蛋白在物种间和功能类别上的广泛分布,还为开发基于序列或结构的蛋白质功能预测算法提供了关键训练集,同时也为蛋白质进化和新功能设计的研究提供了宝贵的参考依据。