《Nature Communications》:Protein folding stability estimation with explicit consideration of unfolded states
编辑推荐:
蛋白质折叠稳定性(ΔG)的精准预测是生物技术领域的核心挑战。本研究开发了深度学习模型IFUM,通过联合预测折叠自由能(ΔG)和折叠/未折叠态平衡系综,显著提升了稳定性预测精度。该模型在多种蛋白质类型和复杂突变(如插入/缺失)中表现优异,并能有效指导蛋白质工程和从头设计,为蛋白质功能优化提供了强大工具。
蛋白质是生命活动的主要执行者,其功能高度依赖于自身折叠形成的独特三维结构。蛋白质折叠稳定性,即折叠态与未折叠态之间的自由能差(ΔG),是决定蛋白质能否正确行使功能的关键。稳定性不足会导致蛋白质错误折叠、聚集,甚至引发疾病;而稳定性过高又可能影响其必要的构象变化和功能调节。因此,精准预测蛋白质的折叠稳定性,对于理解生命过程、研发新型药物和设计高性能工业酶等具有至关重要的意义。
然而,蛋白质折叠稳定性的实验测定面临巨大挑战。通常需要在非生理条件下(如高浓度变性剂或高温)进行,过程繁琐且耗时,不同实验室的数据往往因条件不同而难以直接比较。这极大地限制了蛋白质工程和设计的效率。
近年来,人工智能技术为蛋白质结构预测带来了革命性突破,例如AlphaFold和ESMFold能高精度预测蛋白质结构。基于这些模型产生的置信度指标(如plDDT和pTM),研究者们尝试将其作为蛋白质稳定性的间接衡量标准,并在蛋白质设计筛选中取得了一定成效。然而,这些指标并非为稳定性预测量身定制,难以提供定量的ΔG值。此外,现有的计算方法大多专注于预测点突变引起的稳定性变化(ΔΔG),而无法处理插入、缺失等更复杂的序列修改,也难以给出蛋白质的绝对稳定性(ΔG)信息。
究其根本,ΔG的本质是折叠态自由能(Gfolded)与未折叠态自由能(Gunfolded)之差。此前许多计算方法仅聚焦于折叠态,而忽略了未折叠态的特性同样受序列影响这一事实。例如,多聚亮氨酸和多聚赖氨酸肽链的未折叠状态显然不同。如何在一个深度学习框架内有效地表征复杂且高度动态的未折叠态,是实现精准ΔG预测的核心科学问题。
为了解决这一难题,由韩国科学技术研究院(KIST)和首尔大学等机构的研究人员组成的团队,在《Nature Communications》上发表了题为“Protein folding stability estimation with explicit consideration of unfolded states”的研究论文。他们开发了一种名为IFUM(意为“基于未折叠态系综建模的折叠自由能计算机评估”)的新型深度学习模型。IFUM的核心创新在于显式地将未折叠态纳入考量。它基于两个关键假设:一是蛋白质遵循简单的“两态折叠”模型;二是纷繁复杂的未折叠态系综可以借助高分子物理中的弗洛里无规线团模型进行有效的简化和表征。该模型将未折叠态抽象为一个由序列残基间距决定的平均距离图。
具体而言,IFUM利用预训练的蛋白质语言模型ProtT5获取序列嵌入,利用逆折叠模型ESM-IF1和结构预测工具ESMFold获取折叠态的结构嵌入和残基对距离图。模型通过一个受AlphaFold2的Evoformer启发的Transformer模块,联合学习并预测三个目标:蛋白质的总ΔG(通过加和每个残基的贡献得到)、表征折叠与未折叠态平衡的系综距离图(作为辅助任务),以及一个用于序列恢复的辅助任务。通过这种多任务学习,IFUM能够更深刻地理解序列如何同时影响折叠态和未折叠态的特性,从而更精准地计算二者的自由能差。
研究团队为IFUM的开发和评估构建了全面而严谨的数据集。训练数据结合了包含数十万个小蛋白(30-80个氨基酸)折叠稳定性数据的Mega-scale数据集,以及来自DisProt数据库的已知内在无序蛋白(IDPs)序列(将它们的ΔG标签设为小于0.5 kcal/mol)。测试集则涵盖了从CATH数据库提取的野生型蛋白结构域、文献中收集的带有实验ΔG值的蛋白质、经过蛋白质工程改造的变体(如IFN-λ, IL-10, UGT76G1)及其熔化温度(Tm)数据,以及大量计算机设计的全新蛋白质及其在大肠杆菌中的可溶性表达数据。
主要技术方法概述
本研究的关键技术方法包括:1. 构建融合序列(ProtT5嵌入)和结构(ESM-IF1嵌入及ESMFold预测的距离图)信息的深度学习模型(IFUM);2. 基于弗洛里无规线团模型对蛋白质未折叠态进行理论建模;3. 使用包含Mega-scale实验ΔG值和DisProt无序蛋白数据的大规模数据集进行模型训练;4. 采用多种独立测试集(如文献野生型蛋白、工程蛋白变体、从头设计蛋白)进行性能评估;5. 与现有方法(如ESMtherm, ThermoMPNN, FoldX, Rosetta, FEP+)进行基准比较。
研究结果
IFUM精准预测小蛋白的折叠自由能
在理想实验条件(PBS, pH 7.4, 25°C)下测得的Mega-scale测试集(86个蛋白)上,IFUM展现出了优异的预测精度,预测值与实验值之间的皮尔逊相关系数(PCC)达到0.78,均方根误差(RMSE)为1.16 kcal/mol。在一个与ESMtherm模型共有的测试子集上,IFUM的表现(PCC=0.91)显著优于ESMtherm、ESM2伪似然值以及单纯的序列长度基线模型,证明了其在小蛋白绝对稳定性预测上的领先能力。
未折叠态系综建模有效提升预测性能
为了验证未折叠态建模的重要性,研究人员训练了一个简化版的IFUM(IFUMbaseline),该模型不包含任何与未折叠态相关的学习目标。结果显示,其预测性能显著下降(PCC从0.78降至0.70),这表明联合学习折叠/未折叠平衡系综对于准确估计ΔG至关重要。此外,模型预测的平衡系综距离图与ΔG预测结果高度一致:稳定蛋白的距离图清晰有序,接近于折叠态;而不稳定蛋白的距离图则模糊不清,更接近于折叠态与未折叠态的混合。
IFUM适用于多种蛋白质类型
IFUM不仅在小蛋白测试集上表现良好,也能有效区分来自CATH数据库的结构化蛋白域和来自DisProt数据库的内在无序蛋白,两者预测的ΔG分布存在极显著差异。虽然对于部分较大的野生型蛋白(最长375个残基),IFUM预测的ΔG与实验值的整体相关性(PCC=0.53)有所下降,但当仅分析输入结构模型质量较高(如AlphaFold3预测的plDDT > 90)的蛋白子集时,相关性大幅提升至0.97。这表明输入折叠态结构的准确性对IFUM的预测性能有重要影响。
IFUM可准确预测多种突变的稳定性效应
IFUM能够稳健地预测点突变、双突变以及插入/缺失等多种突变类型引起的稳定性变化(ΔΔG)。在Mega-scale测试集中,对于点突变、插入/缺失和双突变,IFUM的预测PCC分别达到0.81、0.80和0.63。在与专门为点突变设计的ThermoMPNN、基于物理的FoldX和Rosetta等方法的比较中,IFUM是唯一一个在各类突变(从单点突变到插入/缺失)上均表现稳健的方法,展现了其广泛的应用范围。
实际应用一:指导蛋白质稳定性工程
研究人员在三个实际的蛋白质工程案例(IFN-λ3, IL-10, UGT76G1)中测试了IFUM的实用性。这些工程蛋白均涉及多位点突变和序列长度的改变(插入或删除)。IFUM预测的ΔG值与实验测得的熔化温度(Tm)在三个案例中均呈现良好的正相关(PCC分别为0.75, 0.62, 0.87)。相比之下,常用的AlphaFold3结构置信度指标pLDDT与Tm的相关性则差很多,甚至在两个案例中呈负相关。这表明在同时涉及序列替换和长度变化的复杂蛋白质稳定性工程中,IFUM能提供比结构置信度指标更可靠的指导。
实际应用二:筛选可成功表达的从头设计蛋白
在计算从头蛋白质设计中,通常使用结构预测置信度(如plDDT)来筛选有希望的表达候选者。研究比较了IFUM的ΔG预测值与ESMFold、AF3的plDDT在五个不同折叠类型的设计蛋白库中区分“可溶性表达”与“不表达”蛋白的能力。结果显示,基于IFUM ΔG预测的筛选策略,其受试者工作特征曲线下面积(AUROC)在所有五种折叠类型中均一致性地高于基于plDDT的筛选策略。这表明IFUM可以替代传统的AlphaFold类指标,提高从头蛋白质设计的成功率。
研究结论与展望
本研究开发的IFUM模型,通过将未折叠态系综显式地纳入深度学习框架,实现了对蛋白质折叠自由能(ΔG)和多种突变稳定性效应(ΔΔG)的精准、高效预测。其成功证实了在蛋白质稳定性预测中考虑未折叠态物理本质的重要性。IFUM在蛋白质工程和从头设计等实际应用场景中展现了强大的实用价值,为蛋白质功能的理性优化提供了新的强大工具。
当然,IFUM也存在一些局限性。例如,其训练数据主要来自小尺寸(<80aa)、水溶性单体蛋白,这限制了对超大蛋白(>200aa)、膜蛋白或寡聚蛋白的预测外推能力;其基于两态折叠和理想无规线团的简化假设,可能无法完全捕捉复杂蛋白质的真实折叠景观。未来的工作将集中于扩展模型的应用范围,例如通过纳入更精确的未折叠态模型(如CALVADOS)、整合膜环境信息以及利用更大规模、更多样化的训练数据来进一步提升模型的性能和普适性。
总之,IFUM不仅提供了一个强大的蛋白质稳定性预测工具,更重要的是为深度学习在生物物理特性预测方面的架构设计提供了新思路,即通过整合物理原理与数据驱动的方法,更深刻地揭示和理解生命的分子规律。