3DDF-VAE:一种双频变分自编码器,结合姿态一致性验证技术,用于罕见冷冻电镜(cryo-EM)构象的发现

【字体: 时间:2026年03月11日 来源:Journal of Structural Biology 2.7

编辑推荐:

  揭示生物大分子三维构象的多样性对理解其功能至关重要,而现有生成模型在处理稀疏状态时存在数据失衡和结构细节丢失问题。本文提出双阶段管道:生成阶段采用3D双频变分自编码器(3DDF-VAE)分离高频和低频特征以增强全局一致性和局部细节;验证阶段通过投影策略与原始2D粒子对比确保合理性。实验表明该方法能高质量生成密度图,有效识别罕见构象并重建合理中间态,同时频率分离机制显著提升分辨率。

  
陈远波|李福伟|董豪|王新生|张发|胡斌|万小花
北京工业大学脑健康智能评估与干预重点实验室,教育部,北京,100081,中国

摘要

揭示生物分子的3D构象变异性对于理解其功能至关重要,然而由于数据不平衡和现有生成模型中结构细节的丢失,稀有状态的冷冻电镜(cryo-EM)重建仍然具有挑战性。我们提出了一种双阶段流程,包括生成阶段和验证阶段。在生成阶段,我们使用了一种3D双频变分自编码器(3DDF-VAE),该编码器分别对蛋白质密度图的低频和高频成分进行建模,以增强全局一致性和局部结构细节。在验证阶段,通过将生成的图与原始2D粒子进行比较,采用姿态一致性投影策略来评估这些图。在整合素α8、T50S核糖体和SARS-CoV-2刺突蛋白数据集上的实验表明,我们的方法能够生成高质量的密度图,识别稀有构象,并重建合理的中间态,而消融研究证实了频率分离和参数优化的益处。这种集成式的生成-验证框架提高了分辨率,增强了稀有构象的检测能力,并提供了一种数据驱动的方法来探索复杂生物分子系统中的构象异质性。

引言

理解生物大分子的三维(3D)结构对于阐明其生物学功能至关重要(Cheng, 2018; Zhu et al., 2023)。单粒子冷冻电镜(cryo-EM)能够高分辨率地重建接近天然状态的蛋白质结构(Grant et al., 2018; Scheres, 2016; Scheres et al., 2007)。在典型的cryo-EM数据集中,大多数粒子对应于几种常见的构象,由于这些构象的丰度较高,因此可以很容易地重建。然而,除了这些常见构象之外,生物大分子还可能呈现稀有构象,尽管这些构象出现的频率较低,但它们对于介导分子相互作用或作为功能中间体至关重要。因此,准确识别和表征这些稀有状态对于全面理解生物分子机制至关重要。然而,它们在cryo-EM数据集中的低代表性以及微妙的结构差异给可靠的检测和重建带来了重大挑战(Toader et al., 2023)。
传统的cryo-EM数据处理方法,如3D分类(Tang et al., 2007; Punjani et al., 2017),主要是通过基于相似性将粒子分组到离散类别中来识别主导结构状态(Scheres, 2012)。虽然这种方法对于解决稳定构象有效,但往往无法捕捉到数据集中代表性不足且在特征空间中分离较差的稀有构象状态(Lederman et al., 2020)。结果,最终密度图中的灵活或低丰度区域通常显得模糊或不确定(Kaur et al., 2021),这限制了它们在理解动态分子行为方面的应用。
随着深度学习的发展,提出了一系列数据驱动的生成方法用于构象建模(Zhong et al., 2021a; Punjani and Fleet, 2023; Schwab et al., 2024)。这些方法通常使用单个神经网络直接从2D cryo-EM图像中推断出潜在的3D构象景观,从而可以从连续轨迹生成稀有状态。同时,也开发了后处理策略(Sanchez-Garcia et al., 2021; He et al., 2023; Liu et al., 2025)来提高生成密度图的视觉质量,目的是恢复缺失的高频结构细节并提高细微特征的分辨率。然而,神经网络在训练过程中倾向于优先学习低频成分(Wang et al., 2020),从而导致高频细节的丢失,从而限制了重建的保真度。此外,由于缺乏针对实验数据的直接验证机制,生成的稀有构象的准确性和可靠性仍然难以验证。
为了解决发现稀有构象的挑战,我们提出了一种新的蛋白质3D密度图生成和验证流程,旨在提高稀有构象的建模准确性和可靠性。具体来说,我们的方法具有三个关键创新:
  • 1.
    我们引入了一种频率域分离机制,并构建了一个3D双频变分自编码器(3DDF-VAE)模型,分别对高频和低频特征进行建模,从而从多尺度角度提高了生成结构的分辨率和细节准确性。
  • 2.
    我们设计了一种基于原始姿态信息的姿态一致性验证策略,使得生成的密度图与原始2D cryo-EM图像在统一视角下可以进行相似性比较,以量化它们的真实性和数据一致性。
  • 3.
    我们建立了一个双频生成和姿态一致性验证流程,涵盖了从3D密度图生成和姿态一致性投影到结构评分和排名的整个工作流程。这种设计使得系统地探索稀有构象成为可能,并为生成建模和验证提供了统一的结构。
为了评估我们流程的可靠性,我们首先在整合素α8复合物(Campbell et al., 2020)上进行了半合成验证实验,其中真实构象是明确可用的。结果表明,我们的方法生成了准确且详细的密度图。此外,基于投影的验证框架能够从大量生成样本中一致地识别出最合理的候选构象,突显了我们评分策略的可靠性。然后,我们将分析扩展到了两个真实的cryo-EM数据集,每个数据集都展示了不同的构象异质性模式。对于T50S核糖体(Davis et al., 2016),该数据集具有离散的组装中间态,我们的模型揭示了几种具有明显结构差异的稀有构象。在SARS-CoV-2刺突蛋白(Benton et al., 2021)的情况下,尽管数据覆盖范围有限,该方法通过利用外部结构参考促进了潜在中间态的重建。总体而言,这些发现支持了我们流程在发现稀有构象方面的多功能性和稳健性。

章节片段

离散分类

在cryo-EM结构确定的早期发展中,构象异质性主要被视为一组离散的静态状态(Frank, 2009; Sigworth, 2015)。因此,主流重建方法采用了3D分类策略将数据划分为几个离散的类别,每个类别代表一种可能的构象状态。RELION(Scheres, 2012)率先在3D分类中使用了贝叶斯最大后验估计,显著提高了

基线概述

我们方法的整个流程如图1所示。在频率分离生成建模阶段,使用一个3D卷积编码器处理高频输入,另一个结构相同的编码器处理低频输入,从而分别从各自的频率带中提取深度特征。随后,在密度生成阶段,高频和低频特征分别映射到各自的潜在空间中,从中抽取样本

数据集

为了验证所提出流程在建模稀有构象方面的能力以及单粒子Cryo-EM图像处理中结构重建的可靠性,我们设计了一个包含模拟和真实世界实验的验证框架。具体来说,我们的实验数据包括一个来自实验密度图的半合成数据集,以及两个真实数据集,涵盖了代表性的生物系统,如整合素复合物、原核核糖体等

讨论

在这项研究中,我们选择使用快速哈特利变换(FHT)而不是传统的快速傅里叶变换(FFT)来处理蛋白质密度图的频率域。与FFT不同,FHT是一种专为实值信号(如密度图)设计的变换,其输出始终位于实数域。这对于Cryo-EM中的3D密度图特别适用,因为这些密度图是以实数值形式表示的,这样不仅可以避免

CRediT作者贡献声明

陈远波:撰写——原始草稿,软件,方法论,研究,概念化。李福伟:软件,方法论,数据管理。董豪:验证,数据管理。王新生:研究。张发:监督,项目管理。胡斌:监督,项目管理,形式分析。万小花:撰写——审阅与编辑。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

致谢

这项工作部分得到了国家自然科学基金(编号:W2511070、32241027、62472034、62227807)的支持,部分得到了国家重点研发计划(编号:2019YFA0706200)的支持
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号