综述:使用AlphaFold进行整合建模

【字体: 时间:2026年03月12日 来源:Current Opinion in Structural Biology 7

编辑推荐:

  该研究综述了整合建模中结合AlphaFold与实验数据的四种方法,包括验证结构集、融合结构先验、微调模型及推理时整合数据,并分析了当前应用中的关键挑战。

  
Kartik Majila|Omkar Golatkar|Shruthi Viswanath
印度卡纳塔克邦班加罗尔塔塔基础研究所国家生物科学中心,邮编560065
大分子组装体是细胞基本过程的基础,然而对其结构特征的表征仍然具有挑战性。整合建模提供了一种确定大分子组装体结构的方法,该方法结合了多种实验数据、物理原理以及先前结构的统计信息和模型。目前,人们越来越关注利用基于人工智能的结构预测方法(如AlphaFold (AF))中的隐含结构知识来进行整合建模。在这里,我们讨论了最近将AF与实验数据结合用于整合建模的四种方法:用实验数据验证基于AF的组装体;将AF的结构先验与实验数据结合;用实验数据微调AF;以及在推理时纳入实验数据。我们还概述了使用AF进行整合结构确定的关键挑战。

引言

生物大分子经常组装成暂时性或稳定的复合物和/或大分子组装体,这些复合物和组装体介导了包括转录、翻译、分子运输和信号转导在内的多种细胞过程[1,2]。对这些组装体的结构表征对于了解其功能机制至关重要[2]。然而,包括X射线晶体学、核磁共振(NMR)、冷冻电子显微镜/断层扫描(cryo-EM/ET)在内的实验结构确定技术受到技术限制,如结晶困难、对样本数量和均匀性的要求,以及由于组装体大小带来的局限性[1,3]。
基于人工智能(AI)的方法,包括AlphaFold2 (AF2) 和 AlphaFold3 (AF3),彻底改变了结构生物学,使得能够基于序列预测蛋白质、DNA、RNA、脂质、糖类和小分子的结构[4, 5, 6]。重要的是,这些方法还提供了置信度指标,使用户能够评估预测结构的质量。然而,准确预测大分子组装体的结构对这些方法来说仍然是一个挑战。首先,图形处理单元(GPU)内存的限制影响了这些方法处理大型组装体的能力。其次,这些方法的准确性通常会随着复杂性的增加而降低[7, ??8, 9]。第三,AF2 和 AF3 对于某些类别的蛋白质(包括膜蛋白、折叠转换蛋白、卷曲-卷曲蛋白和内在无序蛋白 (IDPs))的预测效果较差[10, 11, 12]。涉及核酸、配体和翻译后修饰的AF3预测也比蛋白质的预测准确性低[13,14]。第四,这些方法通常只预测一个静态结构,这可能无法代表多个组装体的不同功能状态[15]。最后,大分子组装体的结构预测需要先验的化学计量知识,而这往往是未知的[8]。
整合建模(IM)是一种广泛使用的大分子结构确定方法,它克服了单独实验和计算方法的局限性。它将来自各种实验来源的数据与物理原理、先前结构的统计信息和模型结合起来进行结构确定[1,16]。输入信息可能是不确定的,即稀疏的、噪声较大的、模糊的,并且来自异质样本[1,3]。因此,没有单一的结构能够满足所有输入信息。整合建模的目标是获得一组满足输入信息的结构。这种方法最大化了结构确定的准确性、精确度、完整性和效率,并已被应用于多种大分子组装体的结构确定[1,16, 17, 18, 19, 20, 21, 22]。
尽管存在局限性,AF很可能已经学习到了丰富的结构先验,这些先验可以在整合建模中得到利用[23]。因此,将AF与多种实验数据结合的方法目前非常受关注。在这里,我们回顾了最近将实验数据与AF结合的方法,并根据数据与AF结合的方式对这些方法进行了分类和描述(图1)。最后,我们指出了当前方法的局限性以及使用AF进行整合结构确定的关键挑战。

部分摘录

用实验数据验证基于AlphaFold的组装体

在这种方法中,基于AF预测的结构或结构组装体根据其与实验数据的一致性进行验证(表1,图1)。数据是在预测之后使用的,而不是用来影响预测结果。一些研究使用化学交联与质谱(XLMS)的数据来验证大规模基准测试中AF2预测的结构。这些研究表明交联与预测结构之间有很强的一致性,交联违规的情况通常较少

将AlphaFold的结构先验与实验数据结合

在这种方法中,AF的预测结果(如结构、分布图和/或置信度指标)被用作后续建模方法的输入(结构先验),这些方法将这些预测结果与实验数据结合起来(表1,图1)。预测结果作为结构先验有两种用途:定义刚体(例如CombFold、DeepTracer-Refine、DeepMainMAST)或制定距离约束(例如AF-Metainference、bAIes、AF-CALVADOS)[8,33, 34, 35, ?36, 37]。
CombFold使用

用实验数据微调AlphaFold

一种更直接的整合实验数据的方法是进行微调,即通过针对特定实验类型的数据集进行额外的一轮训练来修改AF模型参数。这使得AF的内部表示能够感知数据,从而允许预测结果受到实验数据以及AF学习到的共同进化和结构信息的指导。AlphaLink、AlphaLink2和DEERFold结合了残基对距离的实验数据

在推理时纳入实验数据

与重新训练AF相比,一种计算上更可行的策略是在推理时纳入实验数据(表1,图1)。这种方法也更容易扩展到新的实验数据类型。鉴于AF2和AF3各自的模型架构不同,当前方法采用了不同的微调策略。

讨论

预测蛋白质的四级结构比预测其三级结构更具挑战性:搜索空间呈组合式增长,构建MSA(分子结构阵列)更加困难[8,47]。因此,纳入实验数据可以通过提供空间约束来帮助缩小搜索空间,引导模型朝向满足实验数据的结构。在这篇综述中,我们介绍了最近将实验数据与AF结合用于大分子整合建模的方法

生成式AI使用声明

在准备这项工作时,作者使用了ChatGPT来改进文本表述。使用该工具/服务后,作者根据需要审查和编辑了内容,并对出版物的内容负全责。

作者贡献

概念化:K.M., S.V.
阅读和综合:K.M., S.V.
撰写初稿:K.M.
撰写与编辑:K.M., S.V.
可视化:O.G.
资源获取、监督和资金申请:S.V.

资金来源

这项工作得到了以下资助:原子能部DAETIFRRTI资助4006,以及生物技术部DBT)的BT/PR40323/BTIS/137/78/2023资助,由印度政府提供给S.V.

利益冲突声明

作者声明他们没有已知的可能影响本文所述工作的财务利益或个人关系。

致谢

我们感谢ISB实验室的Muskaan Jindal和Mubashira KP对手稿提出的有益意见。分子图形和分析使用了加州大学旧金山分校的UCSF ChimeraX软件,该软件由生物计算、可视化和信息学资源开发,得到了国立卫生研究院 R01-GM129325网络基础设施过敏和传染病研究所计算生物学办公室的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号