编辑推荐:
摘要
所有折叠蛋白质都在其低能天然结构与部分或完全去折叠的高能构象之间持续波动。这些稀有态影响着蛋白质功能1,2、相互作用3、聚集4-7和免疫原性8,9,然而人们对它们的了解远少于蛋白质的天然态。虽然现在通常可以以令人印象深刻的准确度预测蛋白质的天然结构,但构
摘要
所有折叠蛋白质都在其低能天然结构与部分或完全去折叠的高能构象之间持续波动。这些稀有态影响着蛋白质功能1,2、相互作用3、聚集4-7和免疫原性8,9,然而人们对它们的了解远少于蛋白质的天然态。虽然现在通常可以以令人印象深刻的准确度预测蛋白质的天然结构,但构象波动及其能量在很大程度上仍然是不可见的10和不可预测的11-14,而且实验上的挑战阻碍了可以改进机器学习和基于物理建模的大规模测量。在此,研究人员引入了一种多路复用实验方法,利用完整的蛋白质氢-氘交换质谱(Hydrogen-Deuterium Exchange Mass Spectrometry, HDX-MS)并行分析了数百个蛋白质结构域的构象波动能量。研究人员分析了5,778个长度为28-64个氨基酸的结构域,揭示了构象波动中隐藏的变异,甚至在共享相同折叠和全局折叠稳定性的序列之间也是如此。对13个结构域进行位点分辨的氢交换核磁共振(HDX NMR)分析表明,这些波动通常涉及整个比整体折叠更不稳定的二级结构元件。研究人员对结构域的计算模型确定了与实验观察到的波动相关的结构特征,从而使研究人员能够设计突变来稳定低稳定性的结构片段。该数据集支持基于机器学习的蛋白质能量景观的新分析,并且该实验方法有望在相当大的规模上剖析这些能量景观。
研究背景与问题
蛋白质是生命活动的核心执行者,其功能不仅依赖于静态的天然三维结构,更与其动态变化的构象能量景观(protein energy landscapes)密切相关。所有蛋白质都在其低能天然态、高能去折叠态以及具有不同程度类天然结构的多种激发态之间持续波动。这些高能激发态虽然群体稀少,但在生物学和蛋白质工程中具有巨大影响,调控着蛋白质功能、相互作用、聚集和免疫原性。然而,由于这些状态罕见且短暂,传统结构生物学方法难以观测,因此相比对蛋白质天然态的深刻理解,我们对激发态能量景观的认识非常有限。尽管人工智能(AI)方法在预测蛋白质天然(最低能量)结构方面表现出色,但在缺乏额外数据的情况下,它们预测蛋白质折叠稳定性或不同构象状态能量的能力很弱。此外,能量景观具有高度序列特异性,单个突变即可强烈扰动能量景观而不改变天然结构,且现有的大规模测量方法通常仅能探测全局稳定性,无法解析构象波动的细节或识别每个蛋白质序列所填充的激发态范围。为了开发能够预测和设计构象能量景观的新一代AI模型,需要能够在大规模序列空间表征能量景观、揭示蛋白质序列在特定环境中如何决定其能量景观规则的新实验方法。
研究方法概述
为应对上述挑战,本研究开发并应用了一种多路复用的氢-氘交换质谱(mHDX-MS)策略。该方法的核心是:首先,通过DNA寡核苷酸池合成构建包含多达1300个小蛋白质结构域(每个28-64个氨基酸)的定制合成蛋白质组混合物;其次,在氘水(D2O)中孵育混合物,在从25秒到24小时的64个时间点(pH 6和pH 9各32个)取样,淬灭交换反应;然后,使用液相色谱-离子淌度-质谱(LC-IMS-MS)分析每个时间点;最后,通过定制的计算流程,结合张量分解方法和贝叶斯推断,从每个结构域在各时间点的完整同位素分布中,自动化地推断出其所有可交换残基的交换速率(kHX)分布,并据此计算每个结构域近似的“开放自由能”(ΔGopen)分布和全局折叠稳定性(ΔGunfold)。该方法成功分析了来自10个家族的5778个蛋白质结构域,并通过HDX NMR和cDNA展示蛋白水解实验验证了其测量准确性。
研究结果
1. mHDX-MS方法的建立与验证
研究人员开发的mHDX-MS方法能够并行测量数百个蛋白质结构域的ΔGopen分布,即其能量景观的剖面。该方法假设交换遵循EX2机制,并依赖于估计的开放态交换速率kchem。通过与13个不同结构域的HDX NMR金标准测量比较,证实了mHDX-MS在kHX分布(均方根误差1.9倍)和ΔGopen分布(均方根误差0.53 kcal mol-1)测量上的准确性。与cDNA展示蛋白水解法测得的ΔGunfold也显示出强相关性(r=0.78)。实验在不同文库间重复性良好,开放能谱图的平均绝对偏差通常在0.2 kcal mol-1以内。
2. 跨家族的能量景观剖析
研究成功分析了来自四个从头设计家族和六个天然家族(来自Pfam数据库)的共5778个结构域,最终获得3590个稳定结构域(ΔGunfold≥ 2 kcal mol-1)的高质量数据。分析揭示了不同折叠、甚至具有相似全局折叠稳定性的序列之间,ΔGopen分布存在广泛的隐藏变异。为量化构象波动的模式,研究定义了“平均开放能”(ΔGavg)和“归一化协同性”(normalized cooperativity)两个指标。后者是一个反映蛋白质在其能量景观中“全有或全无”开放特性的连续度量。研究发现,ΔGavg随ΔGunfold呈亚线性增长,表明高稳定性蛋白质通常在其ΔGunfold之下存在更多低能量的部分开放状态。不同家族在稳定性和协同性上存在系统性差异,例如PASTA和ββαββ结构域显示出较高的平均协同性,但家族内的序列差异导致的协同性变异大于家族间的平均差异。对来自中温菌和嗜热菌的LysM和PASTA结构域比较发现,嗜热菌来源的结构域具有显著更高的平均全局稳定性,但在归一化协同性上未观察到显著差异。
3. 稳定性的空间分布与低协同性结构域的特征
通过位点分辨的HDX NMR对选定的高、低协同性结构域进行深入分析,发现低协同性通常源于特定不稳定结构元件的聚集。例如,在低协同性的从头设计蛋白HHH_rd4_0518和EEHEE_rd4_0871中,不稳定的残基分别聚集在C端α-螺旋和C端β-发夹结构。研究人员通过溶液NMR解析了这些蛋白质的结构,确认其不稳定元件在天然态下仍正确折叠,其快速交换源于低能激发态。然而,并非所有低协同性结构域都显示出明显的空间聚类,如LysM_1380的情况。这些结果表明,即使是非常稳定的小结构域,其内部也可能存在相对不稳定的结构元件。
4. 协同性的结构决定因素
为探寻影响开放协同性的生物物理决定因素,研究人员计算了数千个基于序列和结构的特征,并分析其与全局稳定性(ΔGunfold)和家族归一化协同性的相关性。在ααα和ββαββ家族中,发现协同性与多个特征存在适度的相关性,但没有单一特征占主导地位。一些特征与稳定性和协同性呈现相反的关系。例如,在ααα家族中,平均紧密度与协同性正相关,但与稳定性负相关,这可能与丙氨酸含量增加、大非极性氨基酸减少有关。在ββαββ家族中,脯氨酸数量与协同性正相关,但与稳定性负相关;而螺旋C端净有利电荷与稳定性正相关,但与协同性负相关。这些关联暗示了稳定性与协同性之间可能存在权衡。
5. 稳定性与协同性的预测
研究人员使用Lasso和Ridge回归模型,结合手工设计的结构特征和蛋白质语言模型(PLM)嵌入,尝试预测ΔGunfold和家族归一化协同性。在四个数据最丰富的家族中,预测ΔGunfold的模型表现较好(未见数据R2为0.40–0.53),而预测协同性的模型准确度较低(R2为0.16–0.24)。这表明,即使有大量实验数据,构象波动的精细差异仍然难以预测。有趣的是,对于协同性预测,基于明确建模结构的手工设计可解释特征,其准确性优于PLM嵌入。
6. 数据驱动的协同性设计
为在分子水平上理解序列-协同性关系,并测试预测模型的实用性,研究人员选择了两个低协同性范例蛋白(HHH_rd4_0518和EEHEE_rd4_0871)。利用家族特异性模型,研究人员设计了预测能提高协同性同时保持或增加稳定性的双突变,并与随机突变进行比较。实验结果表明,机器学习引导设计的突变在提高协同性方面成功率更高。在成功测量的突变体中,分别有4个(HHH_rd4_0518)和12个(EEHEE_rd4_0871)设计突变体实现了稳定性和协同性的双重提升。对其中一个成功设计(HHH_rd4_0518_R35D_G45L)的HDX NMR分析显示,突变最大程度地稳定了最不稳定的α3螺旋,从而解释了mHDX-MS观测到的协同性改善。这些设计结果表明,位于不稳定片段内(如HHH_rd4_0518中的R35D和G45L)和片段外(如EEHEE_rd4_0871中的K21和K31)的残基都能调节局部稳定性,展示了基于数据的蛋白质能量景观理性工程潜力。
讨论与结论总结
论文的讨论部分指出,mHDX-MS方法使研究人员能够以比以前大得多的规模实验分析构象波动,从而实现了理解跨序列空间波动的新方法。几个关键发现包括:首先,实验揭示了3590个设计及天然结构域能量景观中隐藏的变异,序列差异导致的家族内变异常常超过折叠家族间的平均差异。其次,发现低开放协同性结构域通常包含比整体折叠稳定性低得多的整个二级结构元件,这类结构在数据集中有数百个,但对预测蛋白质天然结构的方法而言基本不可见。第三,即使在小型紧凑结构域中,全局稳定性和局部稳定性也部分解耦:数据集中折叠稳定性最高的结构域,其整体结构并不一定是最稳定的。最后,即使有大量实验数据,构象波动仍然难以预测,最佳模型也只能解释协同性方差的一小部分,表明仍有大量内容有待发现。
该方法存在局限性,例如推断的速率依赖于关于回交和合并不同pH数据的假设,自动数据处理可能引入误差,且无法定位每个结构域的高、低稳定性片段。尽管如此,研究人员预期多路复用HDX-MS将改变测量、预测和建模蛋白质构象波动的能力。随着质谱技术的改进,通量将进一步增加,更大结构域也应适用于该方法。结合自下而上或自上而下的碎片化策略,未来甚至可能实现残基分辨率的并行分析。
研究结论翻译
(来自“Discussion”部分)人们普遍认识到蛋白质处于持续运动状态,在其能量景观上采样大量构象状态。然而,这些状态的能量细节——以及介导这些状态的序列特征——几乎完全不清楚。mHDX-MS方法使得能够以比以往更大的规模实验分析这些波动,从而为理解和预测跨序列空间的波动提供了新方法。几个关键发现如下:首先,实验揭示了3590个设计及天然结构域能量景观中隐藏的变异,包括相关序列之间的显著变异。事实上,由序列差异引起的家族内变异常常超过折叠家族间的平均差异。其次,发现数据集中的低开放协同性结构域通常具有整个二级结构片段,其稳定性远低于整体折叠。这些结构域并非特别异常:它们代表了其家族中开放协同性最低的25%、22%和6%百分位数。数据集中有数百个结构域表现出类似的低开放协同性,这对于预测蛋白质天然结构的方法来说基本上是看不见的。第三,研究人员发现即使在这些小型紧凑结构域中,全局稳定性和局部稳定性也是部分解耦的:数据集中折叠稳定性最高的结构域,其整个结构不一定是最稳定的,如图2d和3b中ΔGopen分布的“交叉”所示。最后,研究人员发现即使有大量实验数据,构象波动仍然难以预测。虽然研究人员发现了与协同性具有统计学显著相关性的通用蛋白质性质,但最佳模型只能预测开放协同性中有限部分(16-24%)的方差。考虑到实验噪声,完美模型的预期相关性为R2= 0.74–0.78,这表明仍有大量内容有待发现。