综述:解析化学交联:基于评分的方法与深度神经网络

【字体: 时间:2026年03月04日 来源:Current Opinion in Structural Biology 7

编辑推荐:

  本文系统评述了化学交联质谱(XL-MS)技术在解析大分子组装体结构中的最新进展。文章重点对比了两种核心计算策略:基于评分的概率模型(如IMP)和深度神经网络(DNN)方法(如AlphaLink2、Chai-1)。作者通过整合交联距离约束,有效处理了数据噪声、构象异质性和多拷贝模糊性等挑战,并以Dbp10在核糖体生物发生中间体上的精确定位为例,展示了将IMP的稳健性与DNN的预测能力相结合的混合建模协议的巨大潜力,为研究动态、复杂的生物大分子机器提供了强大工具。

  
在结构生物学领域,化学交联与质谱联用(XL-MS)已成为一种强大的工具,用于探测大分子组装体中残基水平的邻近关系。与X射线晶体学、电子显微镜或固态核磁共振(NMR)等技术不同,XL-MS可以在近生理条件下应用,扩展至大型模块化系统,并以更高的通量进行。这项技术通过共价桥接空间上邻近的残基(最常见的是赖氨酸),提供残基水平的邻近信息,从而捕获肽段间的分子内(内交联)和分子间(间交联)接触。随后,质谱技术鉴定出交联位点,这些信息可转化为距离约束,并与其它正交数据源(如冷冻电子显微镜cryo-EM、荧光共振能量转移FRET、氢氘交换质谱HDX-MS、X射线晶体学或小角X射线散射SAXS)相结合,用于建模蛋白质组装体的结构。
交联是如何形成的?
理解共价交联在样品中形成的机制是解读XL-MS数据的关键。在初步近似中,交联反应的产率受到靶向基团的距离和反应活性、它们的溶剂可及性以及交联剂本身施加的几何约束(包括其有效跨度)的调节。因此,反应产率取决于被连接残基之间的距离、它们的反应活性、可及性以及几何约束(如交联剂的有效长度)。例如,常用的N-羟基琥珀酰亚胺酯(NHS酯)与伯胺(最常见的是赖氨酸侧链的Nζ)反应,形成共价桥。以广泛使用的双(磺基琥珀酰亚基)辛二酸酯(BS3)交联剂为例,可形成长度达约11 ?的桥。在这种情况下,反应分两步进行,其中单交联是必需的中间体。因此,交联最好被描述为一系列相互耦合的反应级联,以网络状方式将单交联和交联的最终产率相互关联。只有溶剂可及且在交联剂跨度内取向正确的残基才能发生反应。这些空间约束通常量化为溶剂可及表面距离(SASD),它比简单的欧几里得距离(ED)更能反映交联的可行性。这些特性共同导致了XL-MS数据集固有的稀疏性:并非所有邻近的赖氨酸都能产生交联,观察到的网络既反映了交联剂的化学性质,也反映了样品的结构集合。这种稀疏性远非限制,反而编码了必须在后续建模策略中仔细考虑的有价值信息。
与XL-MS数据相关的不确定性来源
利用XL-MS数据建模需要仔细考虑样品引起的扰动和数据解释的挑战。交联行为本身会改变系统的平衡自由能景观,交联残基的自由度实际上被“冻结”,稳定了可能不完全反映生理条件下构象集合的状态。同时,许多复合物表现出固有的无序性、瞬时相互作用或替代构象。这种灵活性引入了结构不一致性,意味着单一的静态结构可能不足以解释所有观察到的交联。当复合物中交联蛋白质存在多个拷贝时,复杂性进一步增加。在这些情况下,单个交联可能被分配给几个等效的残基对,从而导致多拷贝模糊性。最后,MS/MS谱图解释中的不确定性仍然是一个主要挑战。信号强度低、碎片重叠和谱图模糊性都增加了假阳性交联的风险,凸显了强大搜索算法和严格验证程序的重要性。综上所述,这些因素表明XL-MS数据提供的不是确定性的距离约束,而是概率性的约束,其解释需要明确容纳噪声、模糊性和构象异质性的建模方法。
整合XL-MS数据的建模策略
目前主要采用两种计算策略从XL-MS数据中提取结构信息。基于评分的方法将交联作为距离约束纳入概率评分框架,明确考虑不确定性、模糊性和结构灵活性。同时,基于深度神经网络(DNN)的方法将交联衍生的距离直接嵌入到AI驱动的结构预测模型的输入特征中,引导折叠或对接朝向符合约束的构象。下文将评述这些方法的互补优势及其混合集成的潜力。
基于评分的方法
在基于评分的方法中,XL-MS信息通常被编码为加权空间约束,纳入评分函数。过去几十年出现了多种多样的方法,它们在交联数据的几何表示方式、构象空间探索方式以及结构和数据不确定性处理方式上各不相同。我们根据结构枚举与几何过滤、结构验证、约束引导的结构采样以及使用贝叶斯推断的概率框架,对这些策略进行了大致分类。
结构枚举与几何过滤
结构枚举是一种计算建模策略,系统生成所有(或绝大部分)符合基本刚体几何的、可能的结构构型,然后逐步应用源自实验数据的几何约束进行筛选。CombDock是最早尝试用稀疏距离约束建模大分子复合物的方法之一。它通过组合组装多个成对对接候选物,分层构建完整组装体,最终模型根据交联满足程度进行聚类和排序。最近,CombDock被用于结合两种不同交联剂的靶向原位XL-MS数据建模。CombFold将基于深度学习的成对预测与分层组装相结合,以增强基于AlphaFold2相互作用的复合物重构,并整合了由AF2置信度加权的交联约束来优化和过滤候选模型。最后,一种名为EASAL的方法详尽枚举满足交联的模型,同时利用离散几何解释数据不确定性。
通过交联距离进行结构验证
结构验证指的是用于评估结构模型相对于XL-MS数据准确性的一系列计算和统计程序。结构验证方法评估一个模型是否满足距离约束和/或避免空间冲突。Cα–Cα欧几里得距离(ED)是距离约束最常用的几何描述符。然而,存在多种方法试图解决溶质与交联剂之间额外空间位阻的问题,以提高解决方案的准确性。MNXL使用Jwalk算法计算的SASD对交联赖氨酸进行评分。NRGXL增加了一个基于物理的能量评分,明确采样连接子和侧链的灵活性,以缓解ED或SASD中距离阈值选择的问题。在另一种方法Xlms-tools中,使用了基于ED的评分函数来计算交联概率分数,该分数由交联位点埋藏程度估计的单交联概率分数加权。最近,开发了一个深度学习模型XlinkNet,用于基于结构环境预测交联残基对的最佳距离范围。
结构采样和距离约束
在采样过程中,随机探索自由度以生成最小化约束违反的模型,同时考虑灵活性、模糊性和数据不确定性。基于Rosetta的结构预测将XL-MS数据作为其全原子能量函数中的谐和上限约束进行整合,并可通过改进的洛伦兹函数增强以处理数据不一致性。HADDOCK3是一个信息驱动的对接框架,将对接触为多项目能量优化,在精炼阶段结合物理相互作用势、谐和距离约束和模糊相互作用约束。HADDOCK还可以结合模糊相互作用约束与基于SASD的违反检查来过滤解。最后,最近的一个分子动力学框架整合了XL-MS、定量质谱和多尺度显微镜来建模线粒体蛋白质复合物,将XL-MS数据用作势能函数中的距离约束。
使用贝叶斯评分函数的方法
贝叶斯推断已被开发来处理数据误差和结构不确定性。贝叶斯方法估计模型M在给定可用数据D和先验知识I下的概率。其关键优势是能够处理数据不确定性和噪声,而无需依赖任意权重。目前,XL-MS数据的贝叶斯评分已在XL-MOD、MELD和IMP中实现。XL-MOD基于模糊约束迭代分配软件,通过贝叶斯重新加权冲突交联,结合亚基灵活性和多状态分析,来自动校准约束。有限数据建模(MELD)将贝叶斯推断与分子动力学模拟相结合,通过采样与数据兼容的大分子底层自由能表面,从稀疏和模糊的数据中确定结构。这允许识别满足不同实验约束子集的多种替代构象。整合建模平台(IMP)与Python建模接口(PMI)已被广泛用于使用数据建模大分子复合物。通常,IMP/PMI中的整合建模项目可以通过一个四阶段工作流程形式化,其中采样和评分同时进行。在IMP/PMI中,XL-MS数据被编码为贝叶斯评分函数,具有可建模结构和数据不确定性的多参数似然项,以考虑超长交联和假阳性。多拷贝模糊性和谱图模糊性也通过模糊逻辑运算符加以考虑。多个软件包直接使用IMP及其贝叶斯评分函数来建模XL-MS数据。IMPprov是Mass Spec Studio的一个接口,用于管理建模数据(cryo-EM密度、原子结构、XL-MS数据和HX-MS数据)并运行IMP建模计算。Assembline是一个多步骤整合流程,结合了IMP和PMI,同时提供高效的构象空间探索和简化的建模设置。
基于IMP/PMI的方法已成功应用于众多生物系统,克服了结构灵活性、异质性或低丰度带来的挑战。它被用于确定核孔复合体及其相关亚复合体的结构、翻译和转录组装中间体的结构、泛素-蛋白酶体系统复合物的结构,以及建模其他多蛋白组装体及其构象变化,还用于测试、开发和验证旨在提高准确性或富集细胞提取物信号的新XL-MS技术。
深度神经网络
用于蛋白质结构预测的深度神经网络,如AlphaFold2、AlphaFold3、Chai-1或Boltz-2,显著受益于实验距离约束(如XL-MS数据)的整合。这对于进化信息有限、经历构象变化或大型蛋白质复合物尤其如此。各种方法的共同策略是将这种距离信息嵌入到模型的配对表示中。配对表示是一个编码令牌之间关系的张量。在原始AF2和AF3中,它使用来自多序列比对的残基-残基耦合和来自模板的空间信息进行初始化。在Evoformer(AF2)或Pairformer(AF3)中处理时,配对表示通过确保几何合理性的操作(三角更新)进行迭代精炼。最终的配对表示与单序列表示一起,作为条件特征传递给下游结构组件。因此,将XL-MS距离信息嵌入到模型的配对表示中,可以使这些数据指导预测过程。
AlphaLink(为单体设计)及其扩展AlphaLink2(为复合物设计)是首批将XL-MS或任意距离约束直接整合到AlphaFold2/OpenFold架构配对表示中的方法,并对AF2/AF-multimer的权重进行了微调。Chai-1和Boltz-2,作为AF3架构的两种替代实现,也结合了距离约束特征来调节结构预测过程。独特的是,Boltz-2提供了在扩散模块中使用引导势来强制满足这些距离约束的选项,确保指定的原子距离满足用户定义的阈值。目前,Boltz-2是唯一可以同时处理多聚体模板和距离约束的架构,使其成为利用XL-MS数据将蛋白质对接到已知复合物上的强大方法。AF3x通过将交联明确建模为共价结合的配体,将XL-MS数据整合到AlphaFold3中。这种方法考虑了交联剂原子结构的空间和构象约束,提供了更现实的空间约束。然而,这种方法的缺点是直接建模交联状态,而不是天然状态,并且不能对同一交联部分(例如一个赖氨酸)强制执行一个以上的约束。
距离信息的加入带来了显著的性能提升。例如,在具有挑战性的异源CASP15靶点上,AlphaLink2大大优于AlphaFold-Multimer,将平均DockQ分数从0.14提高到0.62。AF3x证明,在AlphaFold 3中建模一个明确的交联可以显著提高预测准确性,例如将一个蛋白质-纳米抗体复合物的均方根偏差分数从6.47 ?提高到0.81 ?。类似地,当提示模拟约束时,Chai-1显著提高了性能,在单个体条件距离约束下,DockQ可接受预测的比例从基线35%提高到57%。
处理不一致性
研究表明,AlphaLink对噪声具有弹性,即使在模拟交联数据集中存在10%、20%或50%假阳性的情况下,性能也保持一致。AlphaLink在数据稀疏时也有效,即使是一个交联也有可能提高小复合物的模型质量。此外,AlphaLink还可以将预测引向柔性蛋白质的不同构象状态。有证据表明AF3x能够成功管理冲突的交联而不会被误导,但这一方面有待进一步研究。据我们所知,Chai-1或Boltz-2在提供不一致距离约束时的表现尚未得到研究。我们假设这些方法对不一致数据和噪声具有一定的鲁棒性,因为配对表示在Evoformer/Pairformer中的精炼导致令牌之间的关系越来越一致,而与其他信息(例如来自MSA、模板和其他交联的信息)不兼容的交联被赋予越来越小的权重,从而使这些方法对不一致的XL-MS数据具有一定的弹性。需要进一步的研究来确定这方面的问题。
使用经整合建模平台验证的交联进行深度神经网络推断大复合物结构
作为混合结构建模的一个高级示例,我们展示了一个结合IMP和DNN来确定酿酒酵母核糖体生物发生因子Dbp10在60S前体核糖体生物发生中间体上的对接构象的协议,该复合物已有真实结构可用。Dbp10是一种必需且保守的DEAD-box ATPase,参与60S核糖体亚基组装的晚期核仁阶段。它主要在肽基转移酶中心的成熟中发挥作用,与pre-rRNA和组装因子结合,促进下游加工所需的结构重塑事件。Dbp10的缺失会导致rRNA折叠缺陷和晚期结合因子的过早结合,突显了其在维持核糖体生物发生时间顺序中的关键作用。
在核糖体上观察到Dbp10与多个核糖体位置存在交联,这是瞬时相互作用、替代构象状态和假阳性的结果,使得先验地确定Dbp10结合位点变得困难。因此,Dbp10-核糖体系统必须作为一个整体来分析,不能直接分解为更小的亚复合物,并且需要使用整个XL-MS数据集。用DNN对这个约15,000个残基/核苷酸的复合物进行建模面临两个主要挑战:(i)该系统对于任何当前基于DNN的结构预测器进行全原子建模来说都太大。(ii)如前所述,在存在冲突或噪声约束(如不一致交联)的情况下,DNN推断的可靠性仍不清楚。因此,为了确保鲁棒性,只有内部一致的交联才应用作DNN引导建模的输入。为了解决挑战(ii),我们首先使用IMP,利用所有可用交联,将Dbp10对接到前60S颗粒的cryo-EM重构上。然后,我们只选择在最高评分模型中满足的那些交联,用于后续的DNN精修。为了解决挑战(i),我们通过将完整系统修剪为低于图形处理器内存限制所需令牌阈值的序列子集,提取了相关的亚复合物。然后将DNN预测的子结构重新对齐到完整前60S组装的背景下。
我们选择Chai-1作为DNN模型,因为所有与Dbp10相关的前核糖体的实验结构,无论是来自酿酒酵母还是其他真核生物,都是在模型2021年1月12日的训练截止日期之后存入蛋白质数据库的,确保了评估的无偏性。IMP对接将Dbp10定位在四个核糖体生物发生因子(Nog2、Nsa2、Nop2和Noc3)附近,产生了六个满足的交联(总共47个与22个核糖体蛋白的交联),其解决方案簇的平均结构精度约为20 ?。为了准备Chai-1的输入,我们截短了序列,只包含IMP定位的Dbp10密度20 ?内的前60S结构域,省略了那些折叠依赖于提取亚复合物外部相互作用的无序或远端区域。
当不使用交联运行时,Chai-1未能恢复Dbp10–Nog2–Nsa2–Nop2–Noc3亚复合物的天然构型。相反,结合六个经IMP验证的交联约束,能够准确重建Dbp10的对接相互作用,这与来自酿酒酵母和其他真核生物的实验结构集合高度匹配,甚至再现了Noc3在连续组装步骤中的多种取向。这个例子展示了结合整合建模与DNN引导预测来解决大型大分子机器中瞬时或低分辨率特征的强大能力。
结论
在这篇综述中,我们探讨了尽管存在源于样品灵活性、多拷贝模糊性和谱图解释的固有不确定性,XL-MS数据如何通过两种主要计算策略:基于评分的方法和DNN方法,被有效利用。以IMP为代表的基于评分框架,通过将交联数据编码为距离约束来处理这种不确定性。这些方法结合了贝叶斯推断等技术来解释假阳性、结构异质性和数据模糊性,甚至可以支持多状态建模以解析离散的构象中间体。
AI驱动的结构预测的兴起,为整合XL-MS数据引入了新的范式。像AlphaLink2、Chai-1、Boltz-2和AF3x这样的DNN架构可以将距离信息直接嵌入它们的配对表示中,以数据引导的方式进行结构预测。这种整合显著提高了建模准确性,特别是对于那些缺乏高分辨率模板的挑战性系统。
展望未来,最大的力量在于协同结合基于评分和基于DNN的方法。我们通过一个结合IMP对接和DNN引导建模的混合协议说明了这一点,该协议用于解析Dbp10在核糖体生物发生中间体上的构象。这一策略解决了当前DNN在系统规模上的限制,并通过在DNN推断之前筛选在IMP高分解中得到验证的交联,确保了建模的鲁棒性。
随着结构预测工具的不断发展,像这样的工作流程提供了一个可扩展和通用的策略,用于捕获那些传统方法无法单独解决的动态分子机器的结构。展望未来,一个关键的挑战是提高DNN容忍或明确建模不一致或噪声交联数据的能力。虽然像AlphaLink这样的架构已显示出对高假阳性率的弹性,但较新模型如Chai-1和Boltz-2在这些条件下的性能值得进一步研究。继续开发像Boltz-2这样的架构(目前是唯一能够同时结合多聚体模板和距离约束的模型)对于XL-MS引导的组件对接到已知组装体上将特别有价值。最终,具有不确定性意识的基于评分的建模与深度学习的预测能力的融合,代表了一条必要且令人兴奋的前进道路,使XL-MS数据能够在结构生物学中充分发挥其潜力。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号