编辑推荐:
为应对比较生物圈基因组学与AI结构预测中关联数十亿蛋白质的挑战,研究人员开展了一项主题为DIAMOND DeepClust的超快聚类方法研究。他们成功地将190亿生物圈蛋白质聚类为5.44亿非单例簇,构建了DeepClust数据库。结果显示,该数据库可大幅压缩序列空间,并将具有至少3个成员的簇多样性较现有最大数据库BFD提升了5.5倍,显著改善了AlphaFold2对低代表性序列的结构预测,为地球生物基因组(Earth BioGenome)时代的大规模蛋白质比较与功能解析提供了关键工具。
生命的蓝图由蛋白质书写,它们构成了地球上所有生命形式功能与结构的基石。随着测序技术的飞速发展,我们正以前所未有的速度揭示“生物圈”的蛋白质序列,其数量已达数百亿乃至数千亿的规模。然而,如何在这个浩瀚的“蛋白质宇宙”中有效地组织、比较和理解这些序列,成为了比较生物圈基因组学和人工智能驱动的蛋白质结构预测(如AlphaFold2)所面临的巨大挑战。问题的核心在于,传统的蛋白质聚类方法在应对如此海量、且序列相似性可能极低(即“深度聚类”)的数据时,要么速度太慢,要么会丢失关键的进化关联信息,形成了一个难以兼顾速度与敏感性的“分析瓶颈”。这严重限制了我们从全局视角探索生命进化、发现新蛋白质家族以及提升结构预测模型性能的能力。为此,一项发表在《自然-方法》(Nature Methods)上的研究提出了一种突破性的解决方案。
研究人员开发并应用了一种名为DIAMOND DeepClust的级联式超快聚类方法。该方法旨在对生命之树的蛋白质进行行星尺度的组织,能够在数万亿序列规模上运行,同时保持对低序列同一性的高灵敏度。为了验证其效能,研究团队启动了一项大规模的实验性研究。他们从JGI IMG、MGnify、NCBI NR等十余个公共数据库中收集了约228亿条蛋白质序列,经过预处理和去重后,得到了约190亿条非冗余序列。利用DIAMOND DeepClust,他们以30%的序列同一性和90%的单向覆盖度为阈值,在27个计算节点上耗时18天(总计约25.5万CPU小时),成功将这190亿条序列进行了深度聚类。
研究得出了令人瞩目的结论。首先,在性能上,DIAMOND DeepClust展现出了压倒性的优势。在对包含约5.46亿条序列的NCBI非冗余(NR)数据库进行深度聚类的基准测试中,DIAMOND DeepClust仅用19小时就完成了任务,其速度是MMseqs2的36倍,是FLSHclust的21倍。更重要的是,它在保持高精度(95.5%)的同时,达到了与MMseqs2相近(68.6% vs 62.3%)甚至优于FLSHclust的聚类敏感度,成功实现了速度与敏感性的双重突破。其次,在数据压缩和多样性探索上成果显著。他们将190亿条序列聚类为约17亿个簇,其中包含至少3个成员的簇有3.35亿个。这意味着整个数据集的约94%可以被这5.44亿个非单例簇所代表,实现了巨大的维度约简。与当前用于AlphaFold2的最大深度聚类数据库——大型梦幻数据库(Big Fantastic Database, BFD,包含6100万个成员数≥3的簇)相比,本研究产生的成员数≥3的簇数量增加了5.5倍。尤为重要的是,通过比对分析,他们发现有1.18亿个蛋白质家族是全新的,无法被映射到BFD中,这极大地扩展了已知的蛋白质序列空间。最后,也是最具应用前景的发现是,这个新构建的DeepClust数据库能够直接赋能下游的蛋白质结构预测。研究显示,对于那些在BFD、MGnify等现有较小数据库中代表性不足的蛋白质序列,使用DeepClust数据库来构建AlphaFold2所需的多序列比对,能够显著提升其结构预测的置信度(pLDDT平均提升7.73分)。这为破解更多“未知”蛋白质的结构与功能打开了新的大门。
为了开展这项研究,作者主要应用了以下几个关键技术方法:1. DIAMOND DeepClust算法:一种级联聚类方法,结合了贪心顶点覆盖算法、最小子采样、线性阶段聚类优化以及双向覆盖优化,实现了从快速粗筛到高灵敏度精聚的逐步聚类。2. 大规模并行计算框架:特别设计的线性模式支持在多计算节点或云平台上进行大规模并行处理,可扩展至数万亿序列和PB级数据,并通过自研的并行基数排序实现高效数据处理。3. 基于Pfam结构域的基准测试体系:以NCBI NR数据库中近1.5亿条带有Pfam结构域注释的序列为基准,定义了序列水平的敏感度和精确度,用于客观评估和比较不同聚类工具(DIAMOND DeepClust, MMseqs2, FLSHclust)的性能。研究所用的约228亿条原始蛋白质序列来源于包括JGI IMG、MGnify、NCBI NR、MetaClust等在内的十余个公开宏基因组和蛋白质序列数据库。
研究结果
DIAMOND DeepClust在性能基准测试中显著优于现有方法
通过对NCBI非冗余(NR)数据库的深度聚类(无序列同一性阈值,双向覆盖)测试,DIAMOND DeepClust在单台64核服务器上仅用19小时即完成任务,而MMseqs2需29天,FLSHclust需17天。在敏感度(68.6%)和精度(95.5%)方面,DIAMOND DeepClust与MMseqs2表现相当,但远超FLSHclust的敏感度(49.7%)。其线性模式运行仅需3.9小时,在保持可比性能的同时,实现了超线性扩展。
成功构建了规模空前的深度聚类蛋白质数据库
应用DIAMOND DeepClust对来自全球生物圈的约190亿条去重蛋白质序列进行聚类(阈值:30%序列同一性,90%覆盖度),产生了约17亿个簇。其中,5.44亿个非单例簇涵盖了约94%的输入序列,而3.35亿个成员数≥3的簇代表了其中92%的序列。这表明深度聚类能极大压缩蛋白质序列空间。
DeepClust数据库极大扩展了已知蛋白质家族多样性
与AlphaFold2使用的关键数据库BFD相比,本研究产生的成员数≥3的簇数量是BFD的5.5倍。通过HHblits比对发现,基于至少60%的查询序列覆盖度,有1.18亿个蛋白质家族是BFD中未涵盖的新家族。对现有多个主要数据库(如UniProtKB/TrEMBL、Pfam、BFD等)的注释分析进一步揭示了DeepClust数据库所包含的大量新序列空间。
新数据库可有效提升AlphaFold2对低代表性序列的结构预测
选取473条在BFD、MGnify和UniRef30等数据库中同源序列覆盖不足(MSA深度<30)的蛋白质进行测试。当使用DeepClust数据库替代原有数据库为AlphaFold2提供进化信息时,预测结构的平均pLDDT置信度得分从52.9显著提升至62.6。这证明利用更大规模的聚类数据库能直接改善对“孤儿”或低代表性蛋白质的结构预测精度。
结论与意义
本研究提出的DIAMOND DeepClust成功解决了在行星尺度上对蛋白质宇宙进行快速且高灵敏度聚类的关键计算难题。它不仅大幅超越了MMseqs2、FLSHclust等现有方法的性能,更重要的是,利用该工具构建的DeepClust数据库,将已知的深度聚类蛋白质家族多样性提升了5.5倍,发现了上亿个新蛋白质家族。
这项工作的意义深远。在方法论上,DIAMOND DeepClust为处理地球生物基因组计划(Earth BioGenome Project)即将产生的数百亿乃至上千亿蛋白质序列提供了未来可行的软件解决方案,突破了当前生物信息学分析的瓶颈。在科学发现上,它以前所未有的分辨率绘制了全球蛋白质多样性图谱,为探索生命进化、发现新的蛋白质功能元件(即“功能暗物质”)提供了核心数据资源。在实际应用层面,该数据库已被证明能直接增强AlphaFold2等最先进结构预测工具的性能,特别是对于那些目前难以准确预测的蛋白质,从而加速结构生物学、药物发现和合成生物学等领域的研究。总之,这项研究通过计算方法的创新,架起了连接海量序列数据与深层生物学洞察之间的桥梁,为即将到来的“地球生物基因组时代”的大数据生物学研究奠定了坚实的技术与数据基础。