
-
生物通官微
陪你抓住生命科技
跳动的脉搏
Cascade PSI-BLAST 2.0:一款用于快速并行远程同源性检测的工具,以及Cascade Web服务器2.0的开发
《BMC Bioinformatics》:Cascade PSI-BLAST 2.0: a fast-searching parallelized remote homology detection tool and development of Cascade web server 2.0
【字体: 大 中 小 】 时间:2026年02月24日 来源:BMC Bioinformatics 3.3
编辑推荐:
优化后的分布式Cascade PSI-BLAST算法通过中间序列选择和多服务器并行计算,显著提升处理NR、UniProt等大型数据库的效率,同时保持高敏感性以发现远缘同源蛋白,并开发了用户友好的Web服务端处理小型数据库。
远距离同源性检测对于推断蛋白质之间的进化关系和功能关系至关重要,但当蛋白质同源性低于30%时,标准的基于序列的搜索方法往往无法有效检测到这些关系。基于序列特征的方法和隐马尔可夫模型(HMMs)虽然提高了检测灵敏度,但仍有很多远缘同源物未能被识别出来。Cascade PSI-BLAST算法通过高效、迭代的多代搜索中间匹配结果来填补序列间的空白,构建连续的蛋白质结构相似性矩阵(PSSMs),从而在无需结构信息的情况下揭示远缘关系。然而,将其应用于NR和UniProt等超大型数据库时,计算负担较为沉重。我们通过优化中间匹配结果的选择,并实现跨多个CPU或服务器的分布式执行,显著提升了处理速度和资源利用率,同时保持了检测灵敏度。
我们将并行化的Cascade PSI-BLAST算法应用于来自多个SCOP分类的序列数据集,评估了其在GenDis数据库上的检测灵敏度和预测能力。与传统搜索方法相比,该方法在GenDis和UniProt中发现了更多远缘同源物,同时假阳性结果更少。通过将级联搜索任务分配到多台服务器上,甚至像NR这样的大型数据库也能在合理的时间内完成处理。此外,我们还开发了一个用户友好的Web服务器,用于在包括PDB和Swiss-Prot在内的小型数据库上运行Cascade PSI-BLAST搜索。
通过利用中间序列和分布式执行机制,我们改进的Cascade PSI-BLAST算法在大型及经过整理的数据库中显著提高了远缘同源物的检测效率。多服务器并行化将处理大型数据库(如NR)的运行时间缩短到了可接受的水平。Web服务器支持对小型数据集进行快速、用户友好的搜索,而独立软件包则允许在本地基础设施上进行可扩展、可定制的分析。这些工具共同构成了一个仅依赖序列信息的多功能平台,有助于揭示远距离蛋白质之间的关系,加速功能注释和进化研究的进展。
远距离同源性检测对于推断蛋白质之间的进化关系和功能关系至关重要,但当蛋白质同源性低于30%时,标准的基于序列的搜索方法往往无法有效检测到这些关系。基于序列特征的方法和隐马尔可夫模型(HMMs)虽然提高了检测灵敏度,但仍有很多远缘同源物未能被识别出来。Cascade PSI-BLAST算法通过高效、迭代的多代搜索中间匹配结果来填补序列间的空白,构建连续的蛋白质结构相似性矩阵(PSSMs),从而在无需结构信息的情况下揭示远缘关系。然而,将其应用于NR和UniProt等超大型数据库时,计算负担较为沉重。我们通过优化中间匹配结果的选择,并实现跨多个CPU或服务器的分布式执行,显著提升了处理速度和资源利用率,同时保持了检测灵敏度。
我们将并行化的Cascade PSI-BLAST算法应用于来自多个SCOP分类的序列数据集,评估了其在GenDis数据库上的检测灵敏度和预测能力。与传统搜索方法相比,该方法在GenDis和UniProt中发现了更多远缘同源物,同时假阳性结果更少。通过将级联搜索任务分配到多台服务器上,甚至像NR这样的大型数据库也能在合理的时间内完成处理。此外,我们还开发了一个用户友好的Web服务器,用于在包括PDB和Swiss-Prot在内的小型数据库上运行Cascade PSI-BLAST搜索。
通过利用中间序列和分布式执行机制,我们改进的Cascade PSI-BLAST算法在大型及经过整理的数据库中显著提高了远缘同源物的检测效率。多服务器并行化将处理大型数据库(如NR)的运行时间缩短到了可接受的水平。Web服务器支持对小型数据集进行快速、用户友好的搜索,而独立软件包则允许在本地基础设施上进行可扩展、可定制的分析。这些工具共同构成了一个多功能、仅依赖序列信息的平台,有助于揭示远距离蛋白质之间的关系,加速功能注释和进化研究的进展。