《Frontiers in Molecular Biosciences》:Connecting the dots: deep learning-based automated model building methods in cryo-EM
编辑推荐:
这篇前沿综述系统梳理了深度学习(DL)如何变革冷冻电镜(cryo-EM)结构解析中的模型构建环节。文章详述了约50种基于深度学习的新方法,这些方法能自动化地从cryo-EM密度图中构建蛋白质、核酸及其复合物的原子模型(包括de novo和混合方法)。作者按生物大分子结构层次(一级、二级、三级/四级结构)对工具进行分类,并深入探讨了其核心神经网络架构(如CNN、U-Net、GNN、Transformer)、工作流程、评估验证、应用、局限性及未来发展方向,为结构生物学家提供了极具价值的一站式资源。
引言
“形式追随功能”这一设计哲学在生物大分子世界同样适用。生物大分子的特定三维结构(形式)决定了其生物学功能。单颗粒冷冻电镜(cryo-EM)技术的“分辨率革命”极大地拓展了我们对大型生物分子复合物的结构认知。然而,从cryo-EM密度图中精确构建原子模型仍然是一个挑战:在低分辨率下难以可靠解读密度特征,而在高分辨率下,传统的手工模型构建流程耗时费力。正在变革各科学领域问题解决的深度学习技术,为自动化和加速这一过程提供了强大的新工具。
生物大分子结构基础
生物大分子具有层次化的组织结构。以蛋白质和核酸为例:
- •
一级结构:指多肽链或 polynucleotide 链中残基的线性序列,由共价键(肽键或磷酸二酯键)连接。
- •
二级结构:指链的局部规则折叠,如蛋白质的α-螺旋(α-helix)和β-折叠(β-sheet),以及核酸的双螺旋(double helix)和茎环(stem loop)。
- •
三级结构:指整条多肽链或核酸链在空间中的三维折叠。
- •
四级结构:指由多条多肽链(亚基)通过非共价相互作用组装形成的复合物结构。
cryo-EM密度图是三维网格数据,每个体素(voxel)包含一个密度值,反映了生物大分子的电子散射势。密度图的分辨率决定了可解析的结构细节层次。
深度学习神经网络(DNN)基础
深度学习是机器学习的一个分支,其核心是使用多层人工神经网络(ANN)进行预测和分类任务。常用的神经网络架构包括:
- •
卷积神经网络(CNN):擅长处理网格状数据(如图像、3D体积),通过卷积核提取局部和层次化特征。3D CNN是处理cryo-EM密度图的常用架构。
- •
U-Net:一种编码器-解码器架构,特别适用于图像分割任务,能进行像素/体素级的分类。3D U-Net广泛用于cryo-EM密度图的体素标注。
- •
图神经网络(GNN):专门处理图结构数据,将生物大分子表示为图(原子或残基为节点,化学键或相互作用为边),通过消息传递更新节点特征。
- •
循环神经网络(RNN) 和 Transformer:擅长处理序列数据,可用于整合蛋白质序列信息。
基于深度学习的自动化模型构建:多模态流程
大多数深度学习方法遵循一个多阶段的通用流程,将原始cryo-EM密度图转化为分子模型:
- 1.
数据预处理与训练集:对输入密度图进行重采样和归一化。训练数据包括实验性cryo-EM图(来自EMDB)和/或从PDB结构模拟生成的合成图。
- 2.
特征学习:深度神经网络从预处理后的密度图中自动学习层次化的特征表示,预测每个体素的结构属性,如骨架原子位置(Cα, N, C)、残基类型、二级结构等。
- 3.
模型构建:将学习到的体素特征转化为初始结构模型。这通常涉及骨架追踪(使用旅行商问题TSP求解器、车辆路径问题VRP求解器、动态规划DP、隐马尔可夫模型HMM等算法连接预测的原子)、序列分配(将已知生物序列与追踪的骨架对齐)和全原子重建(添加侧链或碱基)。
- 4.
精修:使用成熟的结构生物学工具(如phenix.real_space_refine、COOT、分子动力学柔性拟合MDFF)对重建的原子模型进行优化,确保其具有正确的化学、立体化学和几何性质。
深度学习自动化模型构建方法概览
根据其预测的结构层次和目标,这些方法可被分类:
一级结构预测工具
这些工具专注于从密度图中识别和验证蛋白质或核酸的序列。
- •
findMySequence:利用神经网络预测残基类型概率,并通过HMMER搜索序列数据库来识别蛋白质序列。
- •
checkMySequence:自动检测cryo-EM模型中存在的序列注册错误(register shifts)。
- •
doubleHelix:结合神经网络和结构模版,用于核酸序列的分配、识别和验证。
- •
EMSequenceFinder:利用3D CNN评估密度图与骨架痕迹的拟合度,从而将氨基酸序列分配到骨架片段上。
二级结构预测工具
这些工具专门用于预测密度图中体素属于特定二级结构类型(如α-螺旋、β-折叠)的概率。
- •
CNN-classifier, Emap2sec, Emap2sec+, Haruspex, EMNUSS, DeepSSETracer, HaPi, CryoSSESeg, EMInfo 等方法利用CNN或U-Net架构对cryo-EM密度图进行体素级分类,标注出二级结构元素和核酸区域。
三级和四级结构预测工具
这些工具的最终目标是构建生物大分子的三维原子模型。它们可进一步分为de novo(直接从密度图特征构建)和混合(结合密度图特征与结构模版)方法。
- •
De novo方法:
- •
AAnchor, A2-Net, Cascaded-CNN, Structure Generator, DeepTracer, DeepTracer-2.0, DeepMM, SEGEM, SegmA, ModelAngelo, CryoREAD, SMARTFold, EMRNA, EM2NA, Cryo2Struct, EModelX, CryFold, DeepCryoRNA, E3-CryoFold 等方法核心流程是使用深度学习网络(主要是3D CNN/U-Net及其变体,如Swin-Conv-UNet)从密度图中直接预测原子位置和残基类型,然后通过复杂的优化算法(如TSP, VRP, MCTS, HMM)连接这些点形成骨架,最后分配序列并构建全原子模型。
- •
混合方法:
- •
SEGEM++, CR-I-TASSER, DEMO-EM/DEMO-EM2, DeepTracer-ID, EMBuild, FFF, CrAI, DeepMainmast, DeepTracer-Refine, DeepTracer-LowResEnhance, CryoJAM, DiffModeler, Cryo2struct2, DEMO-EMfit, DEMO-EMol, CryoDomain, MICA 等方法将深度学习从cryo-EM密度图中提取的结构特征与外部结构模版(如AlphaFold2/3预测的模型、PDB中的同源结构)相结合。深度学习用于提升模版质量、指导模版拟合、或校正模版中的错误,从而生成更准确的最终模型。
评估与验证
预测模型的准确性评估是模型构建流程的关键最后一步。评估方法主要包括三类:
- 1.
预测模型与目标结构比较:使用Recall、Precision、F1-score、Cα匹配分数、TM-score等指标量化Cα原子的定位准确性。
- 2.
模型质量评估:使用MolProbity等工具评估模型的立体化学质量,检查Ramachandran图异常、原子碰撞、键长键角偏差等。
- 3.
密度图-模型拟合度评估:使用交叉相关系数、Q-score、EMRinger、Strudel score、FSC-Q、MEDIC等指标定量评估结构模型与实验密度图的吻合程度。
可用性与应用
大多数工具是开源的,代码托管于GitHub等平台。许多工具也提供了Web服务器或云平台(如Cosmic Cryo-EM)版本,方便用户使用。这些工具已成为结构生物学家工具箱中的重要组成部分,被应用于从异质数据集中的污染物鉴定到重要生理大分子复合物的结构解析等多个领域。
局限性与未来方向
当前方法仍面临挑战:
- •
分辨率依赖性:模型构建的准确性随密度图分辨率下降而降低。局部分辨率不均一性会影响特定区域的建模精度。
- •
构象异质性:大多数方法生成静态模型,难以捕捉cryo-EM密度图中蕴含的生物大分子动态和构象异质性。
- •
训练数据:依赖于高质量的训练数据。模拟图与实验图之间的差异(噪声、异质性)可能影响模型在真实数据上的表现。
- •
计算资源:一些先进的模型(如大型Transformer)可能需要大量内存和计算时间。
- •
小分子配体:当前方法主要聚焦于生物大分子本身,自动化识别和构建结合的小分子配体仍是一个有待深入开发的领域。
未来发展方向包括:开发能处理构象系综的工具;整合更多数据模态(如序列、进化信息、几何约束);应用更先进的神经网络架构(如几何深度学习);以及将自动化模型构建拓展至冷冻电子断层扫描(cryo-ET)数据,实现原位结构生物学。
结论
深度学习已经深刻地改变了cryo-EM结构解析的流程,使得自动化、数据驱动的模型构建正在成为结构生物学不可或缺的一部分。这篇综述系统梳理了这一快速发展的领域,总结了现有方法的策略、能力与局限,为研究人员和应用者提供了宝贵的资源,并有望推动该领域的进一步创新。