《Nature Methods》:Quantifying uncertainty in protein representations across models and tasks
编辑推荐:
为评估蛋白质语言模型(pLMs)生成的嵌入质量、解决其缺乏可靠性度量的问题,研究人员提出了一种名为“随机邻居分数(RNS)”的模型无关经验框架。该研究通过分析嵌入在潜在空间中与非生物“合成”序列的接近程度,量化了蛋白质嵌入的不确定性,并证明低质量嵌入往往无法捕捉有意义的生物学信息。这一方法可显著提高下游预测任务的可靠性,为蛋白质科学中深度学习模型的应用提供了关键的质量控制工具。
在当今计算生物学领域,蛋白质语言模型(protein language models, pLMs)已成为从简单氨基酸序列中高效提取生物分子信息的强大工具。这些模型能够生成称为“嵌入”的低维向量表示,从而在潜在空间中刻画蛋白质的序列与结构特征。基于嵌入的方法已被广泛应用于相似性搜索、结构与功能预测、生物物理性质估计以及变体效应评估等多种下游任务,其性能甚至可与传统方法媲美或更优。然而,一个关键但常被忽视的问题是:我们能否信任这些嵌入作为蛋白质的准确表示?正如在手术中使用未经验证锋利度的手术刀一样,依赖未经质量评估的嵌入进行后续分析与推断,可能带来不可预知的风险。当前大多数pLMs并未提供明确的置信度或不确定性评分,以指示某个嵌入在多大程度上真正编码了有意义的生物学信息。这种可靠性的缺失,使得研究人员难以在下游应用前筛选低质量嵌入,也无法有效诊断预测错误的根源,从而可能误导生物学发现。
为此,发表在《Nature Methods》上的这项研究,旨在填补这一空白。研究人员开发了一种模型无关的经验性框架,以量化蛋白质嵌入的不确定性,并评估这些嵌入的生物学相关性。该框架的核心是提出了一种称为“随机邻居分数(Random Neighbor Score, RNS)”的新指标。RNS通过计算给定蛋白质嵌入在其最近邻中与非生物“合成”序列(即随机生成的序列)的比例,来评分该嵌入的表示不确定性。研究发现,低质量的嵌入往往无法捕捉有意义的生物学信息,其向量属性与随机生成序列的嵌入难以区分。这项工作首次为蛋白质序列嵌入的可靠性提供了量化手段,使得在下游应用和推断前进行嵌入筛选成为可能,可显著提高其可靠性。作者进一步提出,此类嵌入评估方法也应扩展到科学中其他语言模型的应用场景。
为开展此项研究,作者主要采用了以下几项关键技术方法:首先,他们构建了多个蛋白质序列数据集用于分析,包括结构域数据集Astral40、其对应的随机序列集Astral40R、包含近期实验结构的PDB23to24数据集、完整蛋白质组数据集Proteome4、以及来自DisProt数据库的固有无序蛋白(IDP)与无序区域(IDR)序列等。其次,研究从一系列预训练的蛋白质语言模型(如ESM-2、ProtT5、ESM-1v、PLUS-RNN、Bepler等)以及经典自然语言处理模型(Word2Vec、GloVe、FastText)中提取了蛋白质级别的嵌入表示。接着,他们利用t分布随机邻域嵌入(t-SNE)对高维潜在空间进行降维可视化。然后,研究定义了计算嵌入间相似性的指标(如余弦相似性、欧氏距离),并提出了核心评估指标——随机邻居分数(RNS),该分数通过比较蛋白质嵌入在潜在空间中与随机序列嵌入的接近程度来衡量不确定性。最后,研究将RNS与传统的模型不确定性指标(如伪困惑度、Jensen-Shannon散度)进行了比较,并评估了嵌入不确定性对两个代表性下游任务性能的影响:基于ESM-2的残基-残基接触预测和基于ProtT5的蛋白质二级结构预测。
研究结果
嵌入与预测存在相同缺陷
研究以提供残基水平置信度得分(pLDDT)的ESM-2模型为例,分析了其基于Astral40数据集预测的蛋白质结构质量。通过将预测结构与实验结构对齐并计算TM分数,他们发现预测质量(以TM分数衡量)与模型的平均pLDDT分数高度相关。更重要的是,他们发现预测结构质量较差的蛋白质,其对应的嵌入与随机序列(Astral40R)的嵌入相似度更高。这表明,低质量的结构预测可能源于信息贫乏或模糊的嵌入。这一现象在ProtT5等其他pLM中也普遍存在,说明嵌入作为模型的“预测”,其质量直接影响下游输出。
存在嵌入的“垃圾场”吗?
通过对ESM-2和ProtT5的潜在空间进行t-SNE可视化,研究人员观察到一个明显的现象:随机序列(Astral40R)的嵌入聚集在潜在空间的一个特定子区域。而预测质量较低的Astral40蛋白质嵌入,则倾向于“扩散”进入这个随机序列所在的子空间;相反,预测质量高的嵌入则与之几乎不相交。这个由非生物序列占据的子空间,被形象地称为“垃圾场”,是低质量、未充分学习或噪声嵌入的聚集地。不过,并非所有模型都展现出这种清晰的模式,例如训练目标包含对比学习损失的PLUS-RNN和Bepler模型,其潜在空间的组织方式就有所不同。
什么是“好”的嵌入?
基于上述观察,研究人员提出了核心假设:如果一个蛋白质的表示在训练中未被充分学习,其嵌入在潜在空间中就会靠近生物无关序列(如Astral40R)。他们将这种接近程度量化为随机邻居分数。对于一个给定的蛋白质P1,其RNSk定义为在其k个最近邻中,属于随机序列集的比例。分析表明,对于ESM-2,RNS与预测结构的TM分数呈负相关,这表明RNS能够有效反映嵌入质量。RNS的计算是模型无关的,不依赖于下游任务,并且可以通过调整近邻数量k来适应不同规模的数据集。
嵌入不确定性与下游性能
研究进一步探究了嵌入不确定性(通过RNS衡量)对下游任务预测性能的实际影响。他们评估了两个任务:1)使用ESM-2进行残基-残基接触预测;2)使用ProtT5进行蛋白质二级结构预测。结果显示,对于两个任务和两个测试数据集(Astral40和PDB23to24),具有较高RNS(即更高不确定性)的蛋白质,其预测准确率显著下降。在接触预测中,长程接触的预测精度下降尤为剧烈;在二级结构预测中,螺旋和延伸结构的预测比“其他”类别受到更大影响。这证明RNS可以作为一个稳健的、与架构无关的嵌入不确定性诊断工具,其评分能够预警下游应用可能出现的性能瓶颈。
为蛋白质集选择合适的模型
研究利用RNS评估了不同预训练pLM在多种蛋白质序列数据集上的表现,包括结构化的Astral40、完整的蛋白质组、固有无序蛋白/区域、新型宏基因组蛋白以及计算机“幻想”生成的新蛋白质。结果显示,ProtT5和ESM-2在大多数数据集上表现出最低的RNS(即最高的置信度)。值得注意的是,所有被测模型对固有无序区域(IDR)分配的RNS都显著高于对结构化蛋白,表明pLM在表示无序序列空间时普遍存在更高的不确定性。相反,对于计算机生成的、但生物学上合理的“幻想”蛋白质,所有模型都给出了较低的RNS,表明这些模型能够识别其内在的生物合理性模式。
RNS捕捉了未学习嵌入的向量属性
为了探究未充分学习嵌入的信息含量,研究比较了真实蛋白嵌入与随机序列嵌入在多个向量属性上的差异,包括嵌入的L2范数、全序列残基嵌入的协方差、片段内残基嵌入的平均协方差以及连续残基间的平均余弦相似性。分析发现,不同模型在不同属性上区分生物与非生物序列的能力各异。RNS通过综合衡量一个蛋白质嵌入相对于随机序列嵌入和其他蛋白质嵌入在潜在空间中的位置,成功地将这些多样化的特征信号整合为一个单一的不确定性度量。
人类蛋白质组中未学习部分揭示了预测性能
研究将RNS应用于人类蛋白质组分析,发现相当一部分人类蛋白质的嵌入存在不确定性。例如,ESM-2(30亿参数)对约46.2%的人类蛋白质(长度≤1022)给出了大于零的RNS。更重要的是,研究证明了基于RNS的筛选可以改善下游预测任务的性能。在人类基因变体效应预测任务中,研究人员比较了三种pLM(ProtT5, ESM-1v, ESM-2 650M)在区分功能性敲除/效应变体与中性变体、以及致病性变体与常见/罕见变体上的表现。结果显示,对于来自RNS为零(即嵌入高度确定)的蛋白质的变体,模型预测性能最佳(AUROC > 0.8);而对于来自高RNS(>0.8)蛋白质的变体,预测性能则下降至接近随机猜测水平(AUROC ≈ 0.5)。这清晰地表明,嵌入的表征不确定性与其在变体影响预测等任务中的判别能力呈负相关。
研究结论与讨论
本研究系统地揭示了当前蛋白质语言模型所生成嵌入中存在的不确定性问题,并创新性地提出了一个模型无关的框架来量化这种不确定性。所提出的随机邻居分数作为一种简单而有效的度量,能够评估单个蛋白质嵌入的可靠性,并识别模型在表示特定序列空间时的“盲点”。
研究发现,低质量的嵌入往往与随机序列的嵌入在潜在空间中难以区分,这些嵌入会导致下游任务(如结构预测、接触预测、二级结构预测、变体效应预测)的性能显著下降。通过在不同类型的蛋白质数据集上进行测试,研究证实了RNS的普适性,并揭示了不同pLM在表示结构化蛋白、固有无序区域、新型序列等方面的能力差异。
这项工作的意义重大。首先,它为解决蛋白质嵌入的“黑箱”问题迈出了关键一步,为研究人员提供了在下游应用前进行质量控制和筛选的工具,从而能够主动排除低置信度的数据,提高整体分析的可靠性。其次,RNS有助于为特定研究问题选择最合适的预训练模型。更重要的是,该框架可以整合到pLM的训练工作流程中,动态识别蛋白质表示空间中的薄弱环节,从而指导更高效、更有针对性的模型训练与数据收集。
正如统计学家George E. P. Box所言:“所有的模型都是错的,但有些是有用的。” 这项研究并未否定pLM的价值,而是旨在使其更加“有用”。通过倡导对蛋白质嵌入进行置信度评估,并提供了切实可行的实施方案,该研究有望增强深度学习模型在蛋白质科学中的可靠性与可解释性,推动这一强大工具在生物学发现和生物医学应用中发挥更稳健、更可信的作用。