
-
生物通官微
陪你抓住生命科技
跳动的脉搏
CB-Search:一种用于搜索具有特定组成特征的相似蛋白质基序的方法
《BMC Bioinformatics》:CB-Search: a method for searching for similar protein motifs with biased compositions
【字体: 大 中 小 】 时间:2026年06月06日 来源:BMC Bioinformatics 3.3
编辑推荐:
摘要背景分析蛋白质序列相似性的方法主要集中在识别具有标准氨基酸组成的蛋白质的同源性上。对于那些组成有偏的基序,这些方法已经被证明是次优的;因此,我们缺乏专门的工具来支持它们的分析。然而,具有组成偏见的基序在蛋白质功能中也起着关键作用。这些结构域可以存在于跨膜蛋白中,通过RGG框与
分析蛋白质序列相似性的方法主要集中在识别具有标准氨基酸组成的蛋白质的同源性上。对于那些组成有偏的基序,这些方法已经被证明是次优的;因此,我们缺乏专门的工具来支持它们的分析。然而,具有组成偏见的基序在蛋白质功能中也起着关键作用。这些结构域可以存在于跨膜蛋白中,通过RGG框与RNA结合,并可能形成朊病毒。尽管如此,许多结构域仍然未知,因为长期以来它们被认为没有功能,而大多数方法会掩盖它们以改善同源性搜索。因此,我们需要更好的解决方案来更有效地推断它们的功能。
在这项研究中,我们开发了一种新的方法,结合了三种比对策略、一种用于识别具有相似组成的基序的算法、基于2-mer的过滤方法以及一种用于评估比对的新指标。这些解决方案主要关注比较蛋白质序列的理化性质,而不是它们的进化关系。为了验证我们的方法,我们将BLAST与我们的方法在三种变体中进行了比较,这三种变体分别使用了局部比对、全局-局部比对和全局比对以及用于识别组成相似性的算法。我们使用这些方法来搜索相似的跨膜结构域和RGG框。我们观察到,我们的方法显著增加了真正例的数量。在应用了我们的相似性评分标准后,增加最为显著。组成有偏的基序通常由两个相邻的功能重要基序组成;因此,我们还搜索了与DNA导向的RNA聚合酶δ亚基的K-DE基序的相似性。我们发现,与其他比对策略相比,全局-局部比对和全局比对在识别相似区域时更经常包含查询序列的所有子基序。
我们的方法引入了新的策略,增强了对于组成有偏基序的搜索,从而通过序列匹配改进了注释的检索。
分析蛋白质序列相似性的方法主要集中在识别具有标准氨基酸组成的蛋白质的同源性上。对于那些组成有偏的基序,这些方法已经被证明是次优的;因此,我们缺乏专门的工具来支持它们的分析。然而,具有组成偏见的基序在蛋白质功能中也起着关键作用。这些结构域可以存在于跨膜蛋白中,通过RGG框与RNA结合,并可能形成朊病毒。尽管如此,许多结构域仍然未知,因为长期以来它们被认为没有功能,而大多数方法会掩盖它们以改善同源性搜索。因此,我们需要更好的解决方案来更有效地推断它们的功能。
在这项研究中,我们开发了一种新的方法,结合了三种比对策略、一种用于识别具有相似组成的基序的算法、基于2-mer的过滤方法以及一种用于评估比对的新指标。这些解决方案主要关注比较蛋白质序列的理化性质,而不是它们的进化关系。为了验证我们的方法,我们将BLAST与我们的方法在三种变体中进行了比较,这三种变体分别使用了局部比对、全局-局部比对和全局比对以及用于识别组成相似性的算法。我们使用这些方法来搜索相似的跨膜结构域和RGG框。我们观察到,我们的方法显著增加了真正例的数量。在应用了我们的相似性评分标准后,增加最为显著。组成有偏的基序通常由两个相邻的功能重要基序组成;因此,我们还搜索了与DNA导向的RNA聚合酶δ亚基的K-DE基序的相似性。我们发现,与其他比对策略相比,全局-局部比对和全局比对在识别相似区域时更经常包含查询序列的所有子基序。
我们的方法引入了新的策略,增强了对于组成有偏基序的搜索,从而通过序列匹配改进了注释的检索。