AlphaFold与ESMFold在单体与二聚体蛋白质结构预测准确性的系统评估与比较

《NAR Genomics and Bioinformatics》:Comparative evaluation of the prediction accuracy of AlphaFold and ESMFold for monomeric and dimeric proteins

【字体: 时间:2026年01月17日 来源:NAR Genomics and Bioinformatics 2.8

编辑推荐:

  本研究针对AI蛋白质结构预测工具在实际应用中的准确性评估需求,系统比较了AlphaFold2、AlphaFold3和ESMFold对2022-2024年PDB新发布结构的预测性能。通过对1666个单体和994个二聚体的严格测试发现,AlphaFold系列对单体蛋白预测准确率达88%,二聚体为77%,而ESMFold分别为76%和41%。研究还开发了交互式评估平台ProModEv,为工具选择提供重要基准。

  
蛋白质是生命活动的执行者,其三维结构决定着生物学功能。传统实验方法如X射线晶体学、核磁共振和冷冻电镜虽能解析结构,但耗时耗力,迄今仅解析约23.8万结构,与UniProtKB中2.53亿蛋白序列形成巨大差距。人工智能技术革命性地改变了这一局面:DeepMind开发的AlphaFold2在CASP14竞赛中表现惊艳,其预测精度可与实验结构相媲美;随后出现的ESMFold基于蛋白质大语言模型,无需多序列比对即可快速预测结构。然而,这些工具在真实生物医学研究中的可靠性如何?它们对单体蛋白和蛋白质复合物的预测准确性是否存在差异?这些问题亟待系统评估。
为此,印度国家免疫学生物信息学中心的Sanjeet Kumar Mahtha、Sureshkumar Venkadesan和Debasisa Mohanty在《NAR Genomics and Bioinformatics》上发表了最新研究,对AlphaFold2、AlphaFold3和ESMFold进行了全面基准测试。研究团队选取了2022-2024年间PDB新发布的结构作为测试集,通过严格筛选(序列一致性<40%,查询覆盖率<70%)确保所选目标在工具训练数据之外,最终获得1666个单体和994个二聚体作为挑战性目标。
研究采用的关键技术方法包括:从PDB获取2012-2024年结构数据并通过BLAST分析筛选无近缘模板的目标;使用本地安装的AlphaFold2(v2.2.3)和ESMFold(v1.0.3)以及在线AlphaFold3服务器进行结构预测;通过RMSD(均方根偏差)、LDDT(局部距离差异测试)和pLDDT(预测局部距离差异测试)评估单体结构,使用DockQ评分评估二聚体界面准确性;开发基于Web的ProModEv平台集成所有评估结果。
单体蛋白预测性能分析
AlphaFold2和AlphaFold3表现高度一致,分别准确预测了64.2%和64.6%的单体结构(RMSD≤3.0?,LDDT≥0.7),另有23%左右的预测存在域移动但局部结构正确。合并计算后,两者总体准确率均达87%以上。ESMFold准确预测了50%的单体,26%存在域移动,总体准确率为76%。值得注意的是,NMR结构预测失败率最高(67-73%),这与NMR结构的构象柔性相关。研究还发现,当将预测结构与NMR全集合作比较而非单一构象时,准确率可提高10%。
二聚体蛋白预测性能分析
蛋白质复合物预测更具挑战性。AlphaFold2和AlphaFold3分别正确预测了76.8%和75%的二聚体(DockQ≥0.23),其中高质量预测(DockQ≥0.80)分别占36.3%和34.8%。ESMFold二聚体预测准确率显著降低至41.1%,且高质量预测仅占8.6%。分析表明,ESMFold失败主要发生在界面区域,与其不依赖MSA而缺乏共进化信号有关。真正生物二聚体的界面面积通常超过1200?2,而误判为二聚体的单体界面面积多小于800?2。
pLDDT置信度的局限性
研究发现pLDDT高分不一定保证结构准确:75-88%的错误单体预测和57-88%的错误二聚体预测仍显示高pLDDT(≥70)。校准分析表明,仅当pLDDT>90时才能可靠指示准确性。因此,pLDDT应结合RMSD、DockQ等指标综合评估。
ProModEv评估平台
为促进结果共享,团队开发了ProModEv(http://pdbi.nii.ac.in/ProModEv/),提供交互式界面用于比较预测与实验结构,支持按蛋白类型、实验方法等筛选查看详细评估指标。
研究结论强调,AlphaFold系列在当前蛋白质结构预测中保持领先地位,特别是对二聚体接口的预测显著优于ESMFold。然而,所有工具对NMR结构和柔性区域预测仍存在局限,且pLDDT置信度需谨慎解读。该基准测试为计算结构生物学提供了重要实践指导,ProModEv平台将持续更新纳入新结构和预测方法,推动蛋白质结构预测领域的标准化评估和工具优化。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号