1.降解图谱:揭示肽组中隐藏的蛋白水解活性,一种连接降解组学与肽组学的机制性框架
中文标题:降解图谱:揭示肽组中隐藏的蛋白水解活性,一种连接降解组学与肽组学的机制性框架
《PLOS Computational Biology》:Degradation graphs reveal hidden proteolytic activity in peptidomes
5.蛋白质降解是细胞生命活动中的核心过程,它不仅回收蛋白质以维持稳态,还作为一种不可逆的翻译后修饰调控蛋白质的定位、丰度和活性。更重要的是,蛋白水解能产生具有功能性作用的肽段,例如激素、神经递质、抗菌肽和炎症调节因子等,这表明降解并非一个终点过程,而是一个动态重塑蛋白质组并创造新生物活性的过程。在宿主-病原体相互作用中,蛋白水解的重要性尤为突出,双方都利用蛋白酶来获取优势。宿主蛋白酶可以释放抗菌肽、调节炎症并降解毒力因子,而病原体分泌的蛋白酶则会破坏抗体、细胞因子和补体蛋白等功能。这些例子说明蛋白水解受到严格调控,具有情境依赖性且机制复杂。降解组学(degradomics)和肽组学(peptidomics)是试图解析这种复杂性的两个主要领域。降解组学侧重于蛋白酶活性、切割位点和底物谱,在癌症、神经退行性疾病和炎症等领域有广泛应用。肽组学则强调内源性肽段的大规模鉴定和定量,用于生物标志物发现和活性谱分析。两者都依赖质谱分析(mass spectrometry, MS),但方法不同:降解组学通过阻断天然末端来富集由蛋白酶活性产生的新末端(如TAILS方法),而肽组学则是对肽段进行全局定量。
2 结果
2.1 降解图谱的形式化定义
降解图谱被定义为一个有向无环图(DAG)G = (V, E),其中每个节点v∈V代表一个肽段(包括全长蛋白质),每条有向边e = (u, v)∈E表示肽段v可以降解为肽段u。该图谱编码了将完整蛋白质逐步分解成更小肽段的切割网络。为了量化这个过程,每条边都被赋予一个转移概率p(u, v),指定了v降解为u的可能性。出边概率之和与1的差值代表了(v)保持稳定(即在马尔可夫意义下被吸收)的机会,由一条自环捕获,其概率为p(v, v)= 1 - Σu∈child(v)p(u, v),其中child(v)表示子节点集合。这种概率形式化将早期的外肽酶活性模型推广到了一般性的肽段降解。
一种直观的解释这些概率的方式是通过“流”的概念。从蛋白质节点Ω(概率质量为1)开始,质量根据分配的边概率在图谱中流动。当到达每个节点v时,到达v的质量的一部分p(v, v)在v处被吸收,剩余部分则根据p(u, v)的比例分配给其子节点u∈child(v)。由于图谱除了自环外不包含循环,所有质量最终都会被节点吸收,产生一个肽段分布P。每个节点吸收的总质量可以解释为从Ω开始的降解通路以该节点为终点的总体概率。
2.2 降解图谱的识别
由于缺乏高分辨率的时间序列数据,蛋白水解过程无法被直接观察,因此必须从测量的肽段分布中推断出降解图谱。先前的研究从时间分辨数据中重建蛋白水解动力学,但此类数据在体内实验和患者样本(构成了肽组学实验的绝大多数)中很少可用。因此,我们将图谱视为从静态肽组快照推断出的潜在结构,其原则是最优图谱应能重现经验肽段分布Y。我们将推断构建为一个优化问题。模型预测的边际肽段分布P由边转移概率p(u, v)决定。调整这些概率以最小化损失函数L(P, Y),该函数衡量模型预测丰度与观察丰度之间的差异。Softmax映射确保每个节点的转移概率有效且总和不超过1,剩余部分解释为吸收。通过P计算梯度?pL,并通过迭代更新来优化图谱,直到其预测分布与数据对齐。
一个等效且更直观的公式是将同一问题表达为一个流系统,其中每条边承载一个非负流f(u, v),表示从u到v转移的概率质量。质量守恒要求每个节点的出流和吸收质量等于其总流入质量。当这些条件被写成线性约束时,就形成了一个标准的优化问题,可以通过线性规划(linear programming, LP)求解。该解提供了流f(u, v),其比值直接产生转移概率p(u, v)= f(u, v)/ Σw∈child(u)f(u, w)。
识别降解图谱是一个欠定问题,因为不同的图谱结构可以产生相同的观察肽段分布。为了评估推断图谱的变化程度,我们在不同大小的图谱上从不同的随机初始化(五次重复)运行梯度下降,使用变异系数测量边权重的变化。虽然平均变异随图谱大小增加而增加,但即使对于最大的图谱,也保持在10%以下。
为了说明生物数据集上的推断过程,我们重建了人细胞裂解液中胰蛋白酶化的β-肌动蛋白的降解图谱。肽段强度在样本间取平均,并通过梯度下降优化边权重。推断的图谱重现了预期的降解层级结构,捕获了从完整蛋白质到较短肽段的顺序性片段化。这表明可以从单次快照肽组中恢复降解图谱,提供降解连接性的紧凑表示。
2.3 降解图谱的重要性
传统的肽组学定量假设每个肽段反映单一的蛋白水解事件,因此蛋白水解活性被简单地计算为肽段丰度的总和:w1= ΣvYv。实际上,肽段本身可以作为进一步降解的底物,这意味着它们观察到的丰度低估了产生它们的上游活性。在传统的工作流程中,只考虑了蛋白质Ω与其肽段v之间的直接联系,而忽略了v降解为u的过程。因此,仅从肽段丰度得出的明显切割权重w1小于当下游修剪被建模时获得的真实值w2。因此,降解图谱中的总蛋白水解事件可以计算为流量的总和,而传统建模低估蛋白水解活性的比率Δ可以计算为:Δ = (Σe∈Efe) / (ΣvYv)。在β-肌动蛋白数据中,这导致对总蛋白水解活性的低估大约为两倍。我们检查了在蛋白水解模拟中,随着降解程度的增加,低估比率如何变化。随着模拟时间增加和更多切割累积,该比率上升。这种行为是预期的,因为更大的降解图谱包含更长、更多分支的通路,而简单地将观察到的肽段强度相加无法捕捉到沿着这些通路的丰度累积损失。这些结果定量地表明,随着肽组变得越复杂,传统的肽段求和方法越来越低估蛋白水解活性。
通过明确模拟降解的顺序流动,降解图谱纠正了这种偏差。每个肽段的流入等于在该肽段中吸收的质量加上路由到其后代的质量,确保上游事件按其真实活性的比例表示。除了提高定量准确性,图谱结构还将可解释的组织引入到肽组中。相关肽段自然地聚集成反映共同祖先的分支,而中间节点则识别出流动分流或累积的控制点。这些网络特征提供了生物学上有意义的单元——分支和瓶颈,它们比单一肽段强度更稳定、更可解释,并且可以直接链接到特定的蛋白酶家族或通路。
最后,明确的图谱拓扑结构支持基于图的推断。节点和边级特征,如位置、长度、丰度和转移概率,可以被整合到机器学习模型中,以识别特征性的降解模式。作为一个例子,源自几个蛋白质的体外蛋白水解的降解图谱通过GraphConv网络进行分类,该网络以高准确度(总体ROC–AUC = 0.915)区分了胰蛋白酶和弹性蛋白酶衍生的图谱。我们还在用不同酶消化的细胞裂解液肽组上应用了GraphConv网络。由于β-肌动蛋白在样本中覆盖度高,被选择进行分析,其图谱通过梯度下降识别。在这些样本上,模型实现了接近完美的ROC-AUC。虽然这些演示仅限于模拟数据和简单消化,但它证明了降解图谱不仅纠正定量,还为蛋白酶活性的预测性分析奠定了基础的概念。
2.4 在体内数据中的应用
为了研究降解图谱在临床数据上的表现,我们分析了来自糖尿病和健康个体的尿肽段数据集。尿调节素(Uromodulin, UMOD)被选为案例研究。对于每个样本,通过梯度下降重建降解图谱,以使模型预测的肽段分布与观察到的丰度对齐。在不考虑下游降解的情况下,传统定量将总蛋白水解活性低估了约3.5倍(95% CI: 3.52-3.58)。健康患者和糖尿病患者之间的低估比率没有发现显著差异。沿尿调节素骨架映射总流入揭示了降解差异集中在C端生物标志物区域。
在第二次研究中,我们分析了被金黄色葡萄球菌或铜绿假单胞菌感染的猪伤口液体的肽组学数据。先前的工作确定了血红蛋白α亚基的N端区域是区分由这两种不同病原体引起的感染的生物标志物。降解图谱分析重现了这一信号,识别出铜绿假单胞菌感染伤口中的关键切割点,并进一步强调了残基60-80附近额外的差异流量。当忽略顺序降解时,总蛋白水解活性再次被低估了约3.5倍(95% CI: 3.41-3.60)。金黄色葡萄球菌和铜绿假单胞菌感染的伤口之间的低估比率没有发现显著差异。这些案例展示了降解图谱建模如何用于改进肽组学分析。
我们通过梯度下降在临床数据集的随机样本上扫描学习率和训练轮数来测试该方法对训练设置的敏感性。对于两个数据集和肽组,当损失收敛时,低估比率(Δ)增加并趋于稳定。具有最高流入的肽段和具有最高流量的边在不同运行中被一致地恢复,尤其是在较小的UMOD图谱中。较大的HBA图谱显示出更多变化,但一旦训练收敛,仍然产生稳定的顶级特征。
3 讨论
这项工作通过将肽段视为降解通路中的中间体而非终端观察,重新构建了肽组学分析。传统的蛋白水解量化将顺序性蛋白水解折叠成静态的肽段丰度,导致上游酶活性被系统性低估。通过对降解图谱进行明确建模,我们恢复了蛋白水解的机制性流动。这种结构带来了几个优势,例如改进的定量:考虑下游降解将使推断的蛋白水解活性增加大约3到4倍。除了纠正定量,降解图谱还为肽组提供了一个自然的组织层。分支总结了连贯的降解通路,而瓶颈则突出了限速中间体或潜在具有生物活性的片段。基于流的表示将降解组学的逻辑与肽组学的可观测物联系起来,从而在单一的概率形式化中统一了这两个领域。
由于降解图谱将蛋白水解编码为具有明确节点和边特征的有向无环图,它们可以直接用于图神经网络(Graph Neural Network, GNN)和其他专为从图结构数据中学习的机器学习模型,这与早期仅基于肽段强度的方法不同。在我们的演示中,一个简单的GraphConv架构仅凭拓扑和序列衍生特征就可以对降解图谱进行分类。尽管我们仅将此应用作为概念验证呈现,但它为从数据中直接学习蛋白酶特征、降解动力学或组织特异性蛋白水解模式的预测模型打开了大门。
实际上,降解图谱能够在不依赖时间分辨测量的情况下,对静态肽组进行更丰富的分析。该方法可以扩展到全蛋白质组重建,并与蛋白酶数据库(如MEROPS)整合,以识别导致观察到的降解流的酶家族。应用包括生物标志物发现、蛋白水解状态的评估,以及对以蛋白水解失调为特征的疾病进行机制性分层。
3.1 局限性与展望
从肽组学数据构建降解图谱存在两个主要挑战。首先,图谱不是唯一的,因为不同的图谱结构可以产生相同的边际分布,所以问题本质上是欠定的。即便如此,我们的结果表明推断的图谱在不同运行之间是可重复的,可以一致地识别高流量的边和高累积流入的节点。
第二个挑战源于质谱肽组学领域普遍存在的问题,即肽段鉴定和定量问题。质谱由于许多原因(包括电离效率、长度、电荷或低丰度)而无法鉴定和定量许多肽段。如果关键的中间体未被检测到,我们就没有真实的肽段分布,那么没有任何方法可以从不完整的数据中恢复完全正确的图谱。缺失的肽段可能隐藏降解通路中的真实分支,或产生在生物学上并不存在的虚假捷径。然而,可以利用图谱结构的实际开发来帮助缓解这个问题。例如,围绕降解逻辑设计的插补方法可以推断可能缺失的中间体,例如通过强制要求一个父片段应产生两个具有相容丰度的子片段。此外,敏感性分析(在其中添加合理的缺失肽段并检查图谱如何变化)可以显示结果对检测差距的依赖程度有多强。
随着质谱仪器和工作流程的不断改进,可以可靠测量的肽组部分将不断扩大,从而减轻检测问题的严重性。非唯一性问题将受益于已知蛋白酶行为和切割模式的不断增长的数据库。总的来说,这些发展将使降解图谱对于理解复杂样本中的蛋白水解更加准确和有用。
总之,降解图谱代表了向机制性、可解释的肽组学迈出的一步。通过将蛋白水解嵌入一个定量的、基于图谱的形式化中,它们将序列水平的事件与系统水平的结果联系起来。通过这样做,可以纠正现有的量化偏差,为降解组学和肽组学之间提供一个概念性的桥梁,连接起起作用的酶及其留下的片段。
4 方法
4.1 变量定义
(变量定义总结在文中表2。)
4.2 使用基于梯度的优化识别降解图谱
我们通过优化降解图谱来推断转移概率p(u, v),以便建模的肽段分布P重现观察到的分布Y。每个节点u由对数向量θu参数化,对应于向其子节点child(u)及其自身吸收的转移。Softmax变换确保出边转移概率有效且总和为一。从根Ω开始,质量为1的概率质量按拓扑顺序在图谱中传播。在每个节点u,根据p(u, v)将到达的概率质量p(u)分配给其子节点并吸收。这些吸收概率共同定义了预测的肽段分布P。为了使预测分布P与观察数据Y对齐,我们最小化均方误差L(P, Y) = Σv(Pv- Yv)2。可以添加正则化项以强制参数稀疏性或平滑性。训练后,最终的转移概率通过对优化的θ值进行softmax变换获得。
4.3 使用线性规划识别降解图谱
或者,推断可以表述为一个受约束的流问题,其中概率质量在节点间守恒。我们求解流f(u, v),代表从节点u转移到节点v的质量。质量守恒要求每个节点的总流入质量等于总出流加上吸收质量(观察到的丰度)。根注入约束为从根Ω流出的总质量等于1。这些约束形成了一个可以通过线性规划求解的线性系统。从优化的流解中,转移概率计算为归一化的出流:p(u, v)= f(u, v)/ Σw∈child(u)f(u, w)。每个节点的剩余吸收概率定义为p(u, u)= 1 - Σv∈child(u)p(u, v)。
4.4 用于基于图推断的图神经网络
为了展示降解图谱如何捕捉蛋白水解模式,我们实现了一个在图推断的降解图谱上运行的图神经网络分类器。每个样本表示为一个有向图G = (V, E),边权重为p(u, v)。每个肽段节点v由一个特征向量hv描述,包括归一化的肽段强度以及位置归一化的序列描述符(起始、结束、长度)。我们使用了一个隐藏维度为64的双层GraphConv架构,第一层后dropout概率为0.2。通过全局平均池聚合节点嵌入以产生图级表示,随后是一个带有log-softmax输出的线性分类器。该网络使用负对数似然损失在酶类别标签(胰蛋白酶与弹性蛋白酶)上进行训练,使用Adam优化器(学习率0.005,权重衰减10-4)优化50个轮次。
4.5 肽段分布和降解图谱的形式化定义
我们形式化了肽段分布、降解转移及其图形表示。机制性降解模型:蛋白质通过顺序切割降解,产生一组肽段。对于蛋白质序列Ω,降解产生在经验频率Y下观察到的肽段集合。我们将降解建模为一个概率过程,其中肽段v可能保持完整或降解成其子集合child(v)中的更小肽段。每个转移(v→u)具有概率p(u, v),自吸收发生概率为p(v, v)= 1 - Σu∈child(v)p(u, v)。图表示:该过程表示为一个有向无环图G = (V, E),其中V是肽段,E是转移(v→u)。每个节点v具有从其父节点pa(v)的入边和到其子节点child(v)的出边。权重p(u, v)满足Σu∈child(v)∪{v}p(u, v)= 1。边际肽段分布:预测的肽段分布P描述了跨图谱的稳态吸收概率,可以递归计算。条件分布:从节点k开始的分布定义为P(k)= A ek,其中ek表示在节点k处具有单位质量的一热向量。梯度:P相对于权重p(u, v)的梯度为?P/?p(u, v)= P(u)evT- P euT。推广到真实数据:在真实数据集中,肽段覆盖是不完整的。我们放宽了严格的二分片段分裂模型,允许每个肽段转移到其自身的任何有效子序列。这可以在更简单的连接假设下产生等效的边际分布P。
4.6 关键局限性和假设的形式化
降解图谱形式化基于几个简化假设和生物学约束。肽段生成假设:设Y代表肽组学实验中观察到的肽段集合。该集合是作用于源自蛋白质降解的初始肽段集合的多个过程的结果。我们假设工作流程中的以下步骤:设P是理论上可能通过蛋白质降解产生的所有肽段的集合。该过程由两个主要操作组成:内肽酶切割(在序列内切割,不包括末端氨基酸)和外肽酶修剪(从肽链中移除末端氨基酸)。因此,我们定义P = f(Protein, E, X),其中f表示在E和X的作用下将序列Protein映射到集合P的函数。快速降解过滤器:一个生物学过滤过程去除了P中一些经历快速降解以回收资源(例如能量和原子)的肽段。设F1代表此生物学过滤器,它产生一个更稳定的肽段子集S。形式上,S = P \ F1,其中F1是经历快速降解的肽段集合。剩余集合S包含稳定的肽段。肽段鉴定过滤器:观察到的肽段集合Y是S的子集,因为并非S中的所有肽段都能通过质谱等技术检测到。设F2代表对应于技术限制(例如检测灵敏度、电离效率等)的过滤器,产生最终观察到的肽段分布Y。形式上,Y = S \ F2,其中F2代表实验设备未检测到或未定量的肽段集合。因此,最终观察到的肽段集合Y是:Y = P \ (F1∪ F2)。此外,肽段强度因其在质谱中有效电离和飞行的能力而产生偏差。这可能导致对P的不准确表示。不可识别性:近似降解图谱存在基本限制。例如,如果ABC降解为B,并且我们观察到AB和BC的丰度相等,我们无法确定B是通过AB单独、BC单独还是两者共同降解的。这个问题凸显了降解图谱的过度参数化。
4.7 降解模拟
为了验证我们的降解图谱模型并测试计算方法,我们开发了一种模拟蛋白水解的算法。该模拟器通过根据酶特异性切割模式模拟内肽酶和外肽酶事件来生成合成肽组。模拟器的工作方式如下:从完整的蛋白质序列开始,模拟器迭代执行蛋白水解事件,直到生成目标数量的肽段。每次迭代根据可配置的概率参数随机选择内肽酶切割(在序列内切割)和外肽酶修剪(移除末端残基)。对于内肽酶事件,模拟器:1. 从当前池中根据长度和丰度加权选择一个肽段;2. 根据指定酶的基于正则表达式的规则确定潜在的切割位点;3. 使用酶的偏好选择主要切割位点;4. 选择第二个切割位点,其概率由酶特异性和与第一个位点的距离(遵循伽马分布)共同加权;5. 从两次切割中生成最多三个片段。对于外肽酶事件,模拟器:1. 根据丰度加权随机选择一个肽段;2. 从N端或C端随机移除一个氨基酸。输出是降解图谱以及生成的肽段分布。
4.8 应用于胰蛋白酶化的β-肌动蛋白
我们分析了来自胰蛋白酶化的人细胞裂解液的肽组学数据。原始文件使用PEAKS X在不限制切割位点的情况下搜索人类蛋白质组,提取肽段强度并进行对数归一化。对于β-肌动蛋白序列,构建降解图谱并通过梯度下降优化边权重,以便建模的边际分布P与观察到的肽段丰度Y匹配。这使我们能够量化流入并识别瓶颈肽段,这些被定义为相对于其丰度具有不成比例高流量的中间体。
4.9 应用于糖尿病尿调节素肽组
我们将降解图谱建模应用于已发表的糖尿病和健康患者尿肽组数据集。选择尿调节素作为案例研究。肽组学数据从ProteomeXchange(PXD012210)下载,并使用PEAKS X在不加酶切限制的情况下搜索人类蛋白质组。对于每位患者,提取对应于尿调节素的肽段丰度并进行对数归一化。缺失的肽段用对应于数据最低分位数的对数强度值进行插补。对于每个样本,构建降解图谱并使用梯度下降优化边权重,以便建模的边际分布P与观察到的肽段丰度Y匹配。为了量化传统肽组学的系统性偏差,我们定义每个样本的低估因子为总流量与总丰度的比率:Δ = (Σe∈Efe) / (ΣvYv),其中fe是边e的总流量,Ω是全长蛋白质。Δ > 1的值表明当仅考虑肽段丰度时,总蛋白水解活性被低估。为了定位组间差异,我们将优化的流入汇总到肽段,并沿尿调节素骨架映射它们在糖尿病样本与健康样本之间的log2倍数变化。
4.10 应用于感染血红蛋白α(猪伤口液体)
我们分析了被金黄色葡萄球菌或铜绿假单胞菌感染的猪伤口液体的肽组学数据集。提取对应于血红蛋白α亚基的肽段强度并进行对数归一化。缺失的肽段用对应于数据最低分位数的对数强度值进行插补。对于每个样本,构建降解图谱并通过梯度下降优化边权重。如前所述,每个样本的总蛋白水解活性量化为总生成的肽段流量与肽段丰度之和的比率。通过平均每种感染类型内的肽段流入并计算金黄色葡萄球菌与铜绿假单胞菌样本之间的log2倍数变化来评估组间差异。将这些值沿HBA骨架映射以可视化差异降解的区域。