理解生物大分子的三维(3D)结构对于阐明其生物学功能至关重要(Cheng, 2018; Zhu et al., 2023)。单粒子冷冻电镜(cryo-EM)能够高分辨率地重建接近天然状态的蛋白质结构(Grant et al., 2018; Scheres, 2016; Scheres et al., 2007)。在典型的cryo-EM数据集中,大多数粒子对应于几种常见的构象,由于这些构象的丰度较高,因此可以很容易地重建。然而,除了这些常见构象之外,生物大分子还可能呈现稀有构象,尽管这些构象出现的频率较低,但它们对于介导分子相互作用或作为功能中间体至关重要。因此,准确识别和表征这些稀有状态对于全面理解生物分子机制至关重要。然而,它们在cryo-EM数据集中的低代表性以及微妙的结构差异给可靠的检测和重建带来了重大挑战(Toader et al., 2023)。
传统的cryo-EM数据处理方法,如3D分类(Tang et al., 2007; Punjani et al., 2017),主要是通过基于相似性将粒子分组到离散类别中来识别主导结构状态(Scheres, 2012)。虽然这种方法对于解决稳定构象有效,但往往无法捕捉到数据集中代表性不足且在特征空间中分离较差的稀有构象状态(Lederman et al., 2020)。结果,最终密度图中的灵活或低丰度区域通常显得模糊或不确定(Kaur et al., 2021),这限制了它们在理解动态分子行为方面的应用。
随着深度学习的发展,提出了一系列数据驱动的生成方法用于构象建模(Zhong et al., 2021a; Punjani and Fleet, 2023; Schwab et al., 2024)。这些方法通常使用单个神经网络直接从2D cryo-EM图像中推断出潜在的3D构象景观,从而可以从连续轨迹生成稀有状态。同时,也开发了后处理策略(Sanchez-Garcia et al., 2021; He et al., 2023; Liu et al., 2025)来提高生成密度图的视觉质量,目的是恢复缺失的高频结构细节并提高细微特征的分辨率。然而,神经网络在训练过程中倾向于优先学习低频成分(Wang et al., 2020),从而导致高频细节的丢失,从而限制了重建的保真度。此外,由于缺乏针对实验数据的直接验证机制,生成的稀有构象的准确性和可靠性仍然难以验证。
为了解决发现稀有构象的挑战,我们提出了一种新的蛋白质3D密度图生成和验证流程,旨在提高稀有构象的建模准确性和可靠性。具体来说,我们的方法具有三个关键创新:
- 1.
我们引入了一种频率域分离机制,并构建了一个3D双频变分自编码器(3DDF-VAE)模型,分别对高频和低频特征进行建模,从而从多尺度角度提高了生成结构的分辨率和细节准确性。
- 2.
我们设计了一种基于原始姿态信息的姿态一致性验证策略,使得生成的密度图与原始2D cryo-EM图像在统一视角下可以进行相似性比较,以量化它们的真实性和数据一致性。
- 3.
我们建立了一个双频生成和姿态一致性验证流程,涵盖了从3D密度图生成和姿态一致性投影到结构评分和排名的整个工作流程。这种设计使得系统地探索稀有构象成为可能,并为生成建模和验证提供了统一的结构。
为了评估我们流程的可靠性,我们首先在整合素α8复合物(Campbell et al., 2020)上进行了半合成验证实验,其中真实构象是明确可用的。结果表明,我们的方法生成了准确且详细的密度图。此外,基于投影的验证框架能够从大量生成样本中一致地识别出最合理的候选构象,突显了我们评分策略的可靠性。然后,我们将分析扩展到了两个真实的cryo-EM数据集,每个数据集都展示了不同的构象异质性模式。对于T50S核糖体(Davis et al., 2016),该数据集具有离散的组装中间态,我们的模型揭示了几种具有明显结构差异的稀有构象。在SARS-CoV-2刺突蛋白(Benton et al., 2021)的情况下,尽管数据覆盖范围有限,该方法通过利用外部结构参考促进了潜在中间态的重建。总体而言,这些发现支持了我们流程在发现稀有构象方面的多功能性和稳健性。