生物大分子经常组装成暂时性或稳定的复合物和/或大分子组装体,这些复合物和组装体介导了包括转录、翻译、分子运输和信号转导在内的多种细胞过程[1,2]。对这些组装体的结构表征对于了解其功能机制至关重要[2]。然而,包括X射线晶体学、核磁共振(NMR)、冷冻电子显微镜/断层扫描(cryo-EM/ET)在内的实验结构确定技术受到技术限制,如结晶困难、对样本数量和均匀性的要求,以及由于组装体大小带来的局限性[1,3]。
基于人工智能(AI)的方法,包括AlphaFold2 (AF2) 和 AlphaFold3 (AF3),彻底改变了结构生物学,使得能够基于序列预测蛋白质、DNA、RNA、脂质、糖类和小分子的结构[4, 5, 6]。重要的是,这些方法还提供了置信度指标,使用户能够评估预测结构的质量。然而,准确预测大分子组装体的结构对这些方法来说仍然是一个挑战。首先,图形处理单元(GPU)内存的限制影响了这些方法处理大型组装体的能力。其次,这些方法的准确性通常会随着复杂性的增加而降低[7, ??8, 9]。第三,AF2 和 AF3 对于某些类别的蛋白质(包括膜蛋白、折叠转换蛋白、卷曲-卷曲蛋白和内在无序蛋白 (IDPs))的预测效果较差[10, 11, 12]。涉及核酸、配体和翻译后修饰的AF3预测也比蛋白质的预测准确性低[13,14]。第四,这些方法通常只预测一个静态结构,这可能无法代表多个组装体的不同功能状态[15]。最后,大分子组装体的结构预测需要先验的化学计量知识,而这往往是未知的[8]。
整合建模(IM)是一种广泛使用的大分子结构确定方法,它克服了单独实验和计算方法的局限性。它将来自各种实验来源的数据与物理原理、先前结构的统计信息和模型结合起来进行结构确定[1,16]。输入信息可能是不确定的,即稀疏的、噪声较大的、模糊的,并且来自异质样本[1,3]。因此,没有单一的结构能够满足所有输入信息。整合建模的目标是获得一组满足输入信息的结构。这种方法最大化了结构确定的准确性、精确度、完整性和效率,并已被应用于多种大分子组装体的结构确定[1,16, 17, 18, 19, 20, 21, 22]。
尽管存在局限性,AF很可能已经学习到了丰富的结构先验,这些先验可以在整合建模中得到利用[23]。因此,将AF与多种实验数据结合的方法目前非常受关注。在这里,我们回顾了最近将实验数据与AF结合的方法,并根据数据与AF结合的方式对这些方法进行了分类和描述(图1)。最后,我们指出了当前方法的局限性以及使用AF进行整合结构确定的关键挑战。