推动基于数据非依赖性采集(DIA)的有限酶解工作流程:DIA-LiPA的引入与应用

《Analytical Chemistry》:Advancing DIA-Based Limited Proteolysis Workflows: Introducing DIA-LiPA

【字体: 时间:2026年02月15日 来源:Analytical Chemistry 6.7

编辑推荐:

  本文系统评估了无库DIA工作流程在有限酶解偶联质谱(LiP-MS)中的应用,通过雷帕霉素处理的人细胞裂解物和酵母热休克数据集,证明了DIA-NN和Spectronaut在无库模式下可获得高灵敏度与重现性。基于此,作者开发了专门针对LiP-MS数据分析的DIA-LiPA流程,该流程整合了半胰酶切和全胰酶切前体数据,并考虑了数据缺失性,为蛋白质构象动态研究提供了更稳健的分析框架。在多数据集验证中,DIA-LiPA成功复现了已知结构特征并揭示了额外的调控模式。

  
引言
蛋白质的功能与其结构紧密相关。蛋白质并非单一的静态形式,而是采用多种构象状态,即构象集合体,这些状态可能因环境刺激、配体结合或翻译后修饰而改变。此类构象变化与蛋白质功能改变密切相关,例如调节蛋白质-蛋白质相互作用。因此,理解蛋白质构象动力学有助于阐明细胞过程和疾病机制。结构蛋白质组学旨在表征构象变化,目前已开发了多种基于质谱的技术,包括交联质谱(XL-MS)、氢氘交换质谱(HDX-MS)、热蛋白质组分析(TPP)、肽中心局部稳定性测定(PELSA)以及有限酶解偶联质谱(LiP-MS)。在众多技术中,LiP-MS以其在复杂样品中探测构象变化的能力而脱颖而出。其原理是蛋白质的构象决定了其表面可被蛋白酶切割的位点,这些位点位于溶剂暴露且柔性的蛋白质区域。改变蛋白酶接近这些区域的构象变化会导致不同的蛋白酶切割模式。在LiP-MS中,蛋白质首先在天然条件下与混杂蛋白酶(如蛋白酶K)短暂孵育,随后用胰蛋白酶完全消化。这产生了所谓的构象型肽段,这一术语涵盖了新形成的半胰酶切肽段和其丰度受结构重排影响的全胰酶切肽段。因此,构象肽段可作为蛋白质的结构指纹。通过比较不同条件(如药物或代谢物结合)下的蛋白水解LiP特征,LiP-MS能够在肽段水平检测构象变化,并识别功能相关的蛋白质区域。
最初,LiP-MS工作流程采用数据依赖性采集(DDA)来识别构象型肽段并构建用于下游分析的谱图库。然而,DDA的随机前体选择会导致复杂样品中出现缺失值和有限的重现性。为了克服这些限制,数据非依赖性采集(DIA)的应用日益增多。与DDA相比,DIA提供了更深的蛋白质组覆盖范围和显著改善的重现性,因为在定义的m/z窗口内的所有前体都会被系统性地碎裂,而不依赖于其信号强度。这减少了缺失值,提高了运行间的一致性,特别是对于复杂样品。DIA还能够检测到DDA经常遗漏的低丰度肽段,使其非常适合无偏和定量的蛋白质组分析。这些优势也推动了DIA在LiP-MS工作流程中的应用。这些工作流程通常由基于DDA运行生成的项目特异性谱图库支持,当肽段在DDA前进行预分级时,谱图库能提供更深的覆盖范围。然而,生成此类谱图库耗时,需要额外的样品材料,并且仍受DDA固有偏差的影响。
近期发展引入了用于LiP-MS的无库DIA方法,这些方法依赖于计算机预测的谱图库而非实验生成的谱图库。这些工作流程在保持全面覆盖的同时减少了实验开销。类似的优势也已在其他质谱应用中得到报道,包括免疫肽组学和磷酸化蛋白质组学,进一步支持了该方法的稳健性。鉴于谱图复杂性增加和搜索空间扩大,LiP-MS数据的半胰酶切特性对无库DIA方法提出了挑战。近期机器学习和深度神经网络的进展解决了这些问题。DIA-NN和Spectronaut等工具现在能够直接从DIA LiP-MS数据中进行准确的前体识别和定量,而无需实验谱图库。这些工具可以高精度预测前体碎裂模式和保留时间,从而实现无库工作流程,其灵敏度和重现性可与传统基于DDA的方法相媲美甚至超越。
然而,假阳性发现率(FDR)控制在DIA工作流程中仍然是一个挑战,特别是在像LiP-MS这样的构象蛋白质组学应用中,区分微妙的构象变化与背景变异和分析噪声至关重要。在DIA中,这种噪声可能源于同一选择窗口内多个前体的共隔离和共碎裂,导致来自共洗脱肽段的干扰和谱图复杂性增加。这一挑战在LiP-MS中因包含半胰酶切肽段而进一步加剧,这增加了肽段水平的复杂性并扩大了搜索空间。因此,FDR估计变得更加困难,搜索空间相比胰酶切搜索膨胀高达20倍,从而增加了识别假阳性的可能性。虽然基于DDA的谱图库通过限制搜索空间有助于控制FDR,但无库方法依赖于深度学习的判别能力,以更有效地区分真阳性和假阳性。
为了克服基于DDA谱图库生成的局限性并解决LiP-MS数据的具体挑战,我们开发了DIA-LiPA,这是一个为基于DIA的有限酶解数据分析量身定制的灵活且全面的流程。DIA-LiPA运行在来自DIA-NN或Spectronaut的前体水平定量输出上,执行数据过滤、丰度归一化、差异丰度(DA)分析以及通过使用胰酶对照校正LiP前体水平log2倍数变化(FC)以校正整体蛋白质丰度变化的相对差异丰度(RDA)分析,最终生成可解释的输出,如包含缺失信息的火山图和结构条形码。
实验部分
细胞培养与蛋白质组制备
HEK293T细胞在标准条件(37°C, 5% CO2)下于杜氏改良 Eagle 培养基(DMEM;Gibco)中培养,补充有10%胎牛血清(FBS;Gibco)。经过数次传代后,通过胰蛋白酶消化收获细胞,随后用完全DMEM中和。细胞悬液在室温下以450 g离心3分钟。吸弃上清液,用磷酸盐缓冲盐水(PBS)洗涤沉淀,然后在相同条件下进行第二次离心。去除上清液后,所得细胞沉淀在液氮中速冻并储存于-80°C直至使用。
相当于约1200万个HEK293T细胞的细胞沉淀在300 μL LiP缓冲液(100 mM HEPES, pH 7.4; 150 mM KCl; 1 mM MgCl2)中使用研杵电机(Kimble)裂解。裂解在冰上进行,每分钟10次脉冲,持续10分钟。然后裂解物在4°C以16000 g离心10分钟,上清液转移至新的微量离心管(Eppendorf, 1.5 mL)中。使用Pierce BCA蛋白测定试剂盒(Thermo Scientific)按照制造商的说明书测定蛋白质浓度。
有限酶解处理
细胞裂解物被分为16个样品:八个胰酶对照(TC)样品,仅进行胰酶消化;八个LiP样品,进行蛋白酶K双酶解,随后完全胰酶消化。每个样品含有50 μg裂解物。
LiP方案如下:样品在25°C孵育5分钟,随后用10 μM雷帕霉素(Sigma-Aldrich)溶于0.1%二甲基亚砜(DMSO;Sigma-Aldrich)或0.1% DMSO作为载体对照处理,在25°C孵育5分钟。然后将蛋白酶K(PK;Promega)以1:100 (w/w)的酶与底物比例添加到LiP样品中,并在25°C孵育5分钟。对于对照样品,加入等体积的水代替PK。
通过将样品在99°C加热5分钟来停止蛋白水解,随后在4°C冷却5分钟。然后加入脱氧胆酸盐(DOC;Sigma-Aldrich)至终浓度为5%。
胰酶消化与肽段制备
样品用5 mM三(2-羧乙基)膦(TCEP, Thermo Scientific)在37°C还原30分钟,并用40 mM碘乙酰胺(Sigma-Aldrich)在30°C暗处烷基化30分钟。用0.1 M碳酸氢铵(Merck)稀释样品以将DOC浓度降至1%。
加入测序级修饰胰蛋白酶(Promega),酶与底物比例为1:100 (w/w),在37°C、800 rpm的热混合器中孵育过夜。通过用50%甲酸酸化样品至pH < 2来停止消化。
使用Microspin C18柱(Nest Group)对肽段进行脱盐,用50%乙腈和0.1%甲酸洗脱,在真空离心机中干燥并储存于-20°C。
肽段的高pH反相分级
将肽段复溶于20 μL上样溶剂A(0.1%三氟乙酸溶于水/乙腈(ACN) (98:2, v/v))。分别合并LiP和对照重复样(每个样品16 μL,每个条件4个重复),每个条件总共获得约50 μg总肽段消化物。每个合并样品干燥后,用分级溶剂A(10 mM醋酸铵pH 5.5溶于H2O)复溶,并使用高pH反相色谱在配备有Zorbax 300SB-C18柱(0.3 × 150 mm, 3.5 μm;Agilent)和前置Zorbax 300SB-C18保护柱芯(0.5 × 5 mm, 5 μm;Agilent)的Vanquish Flex(Thermo Fisher Scientific)上分级为12个合并级分。
使用100分钟线性梯度从1%到100%乙腈(ACN),流速8 μL/min进行分离。监测肽段洗脱,收集从50到148分钟的1分钟级分,并每12分钟在线合并。真空干燥后,各个级分用上样溶剂A'(0.5% ACN溶于0.1%三氟乙酸(TFA))复溶,并根据制造商的说明加入Biognosys的iRT试剂盒肽段。
在线液相色谱
将肽段复溶于20 μL上样溶剂A(0.1%三氟乙酸溶于水/乙腈(ACN) (98:2, v/v))。对于每次进样,将2 μL未分级、未合并的样品(用于DIA)或10 μL已分级、合并的样品(用于DDA)进样到与Q Exactive HF质谱仪(Thermo)在线连接的Ultimate 3000 Pro Flow纳升液相色谱系统上。在5 mm捕获柱(Thermo scientific, 300 μm内径, 5 μm填料)上以上样溶剂A以20 μL/min的流速捕获2分钟。肽段在保持在45°C恒定温度的蝴蝶炉(Phoenix S&T)中的250 mm Aurora Ultimate分析柱(1.7 μm C18, 75 μm内径; Ionopticks)上分离。通过非线性梯度洗脱肽段,从0.5%质谱溶剂B(0.1%甲酸溶于乙腈)开始,在75分钟内达到26%质谱溶剂B,95分钟内达到44%质谱溶剂B,100分钟内达到56%质谱溶剂B,随后在56%质谱溶剂B下洗涤5分钟,并用质谱溶剂A(0.1%甲酸溶于水)以250 nL/min的恒定流速重新平衡。
DIA采集
未分级、未合并的肽段以数据非依赖性采集(DIA)模式进行分析,在MS和MS/MS采集之间自动切换。全扫描MS谱图范围375至1,500 m/z,目标值为5E6,最大填充时间50 ms,分辨率60,000,随后进行30次四极杆隔离,前体隔离宽度10 m/z,用于在NCE 30%下进行HCD碎裂,在目标值3E6下填充离子阱,最大注入时间45 ms。MS2谱图在Orbitrap分析器中以15,000的分辨率在200 m/z下获取,不进行多路复用。使用Skyline软件工具创建了范围从400到900 m/z、宽度为10 m/z的隔离区间。QCloud用于在项目期间控制仪器的纵向性能。
用于谱图库生成的DDA采集
合并、分级的肽段以数据依赖性采集(DDA)模式进行分析,每个MS谱图自动切换MS和MS/MS采集以获取12个最丰富的离子峰。全扫描MS谱图(375–1,500 m/z)在Orbitrap分析器中以60,000的分辨率获取,累积至目标值3E6,最大离子时间60 ms。超过阈值1.3E4的12个最强离子被隔离(隔离窗口1.5 m/z),在填充离子阱至目标值1E5、最多80 ms后进行碎裂,归一化碰撞能量为30%。MS/MS谱图(固定第一质量为145 m/z)在Orbitrap分析器中以15,000的分辨率获取。使用445.120028 Da的聚二甲基环硅氧烷背景离子进行内部校准(锁定质量),并使用QCloud在项目期间控制仪器的纵向性能。
质谱数据分析
DIA原始文件通过两种不同方式搜索:(1) 使用计算机预测谱图库进行无库搜索;(2) 使用从离线肽段分级DDA分析生成的谱图库进行经验库搜索。
(1) 无库(计算机预测)DIA
使用Spectronaut(版本20.3;Biognosys AG)和DIA-NN(版本2.3.0)分析DIA数据。在这两种工具中,应用半特异性酶解以直接从DIA数据中识别半胰酶切肽段。值得注意的是,半特异性酶解最近才在DIA-NN中引入(版本2.3.0及更高版本);早期版本需要一个半胰酶切FASTA的变通方法。对于DIA-NN,评分策略设置为Proteoforms。两种工具均使用人UniProt FASTA (01/2024)并补充蛋白酶K序列。搜索参数在各工具间统一,包括允许1个漏切位点、1至4个电荷状态、7至30个氨基酸的肽段长度、200至2000的碎片离子m/z范围、最多1个可变修饰、甲硫氨酸氧化(M)作为可变修饰、半胱氨酸氨基甲酰甲基化(C)作为固定修饰,并禁用N端甲硫氨酸切除。
所有其他设置保持默认值,除了在Spectronaut 20.3中专门进行的两项修改。首先,半特异性流程设置为完全枚举而非默认的智能枚举,因为智能枚举在处理原始文件时会大幅抑制半胰酶切鉴定。完全枚举将半胰酶切鉴定恢复至35%。其次,在导入前应用HTRMS转换器进一步将半胰酶切鉴定提高至38%。HTRMS转换对于内部生成的包含MS采集最初几分钟负极性扫描的原始文件是必需的,否则会干扰Spectronaut的原始文件解析并导致鉴定减少。
为了进一步证明DIA-LiPA流程的适用性和实用性,我们使用Spectronaut和DIA-NN的无库DIA重新分析了一个酵母热休克数据集。为了确保与原始发表的可比性,我们采用了相同的酿酒酵母UniProt FASTA。
(2) 基于经验谱图库的DIA
离线DDA分级数据使用Spectronaut Pulsar(版本20.3)或FragPipe(使用MSFragger版本4.3)进行谱图库生成分析。为了确保与无库DIA搜索的公平比较,应用了上述相同的搜索参数。然后使用这些谱图库,通过Spectronaut和DIA-NN搜索DIA数据。
在Spectronaut中,使用Pulsar和相同的UniProt FASTA(补充蛋白酶K序列)生成谱图库。LiP样品使用半特异性酶解搜索,胰酶对照样品使用特异性酶解搜索。
在FragPipe中,使用DIA-SpecLib-Quant工作流程从DDA文件构建谱图库。使用与Spectronaut中相同的FASTA文件并补充Biognosys iRT肽段序列,LiP样品的切割设置为SEMI,胰酶对照样品设置为ENZYMATIC。在Spec Lib选项卡中,RT校准设置为Biognosys_iRT,并选择psm.tsv作为要转换的文件类型。
诱饵法评估假阳性发现率
为了评估无库方法中的FDR控制,将大肠杆菌蛋白质组作为诱饵数据库与先前提到的人类蛋白质组数据库一起包含。由于诱饵数据库小于人类蛋白质组数据库,因此应用了组合估计方法,该方法考虑了诱饵与目标数据库大小之比。每个样本的估计假阳性比例按公式计算,其中Nτ和Nε分别表示从人类和诱饵数据库中识别的前体数量。随后,对所有样本的FDP进行平均以获得FDR的估计值,即预期的假阳性比例。
对于诱饵验证,所有蛋白质水平过滤器均被禁用:在Spectronaut中,将蛋白质Q值截断值、蛋白质PEP截断值和蛋白质组FDR设置为1.0;在DIA-NN中,通过在Proteoforms评分模式下进行搜索,并使用--no-refine-q选项以避免在验证期间进行蛋白质水平精修。前体水平FDR阈值保持在1%。
DIA-LiPA统计方法描述
过滤具有有效MS2定量值的前体,保留每个样本组中至少有两个鉴定的前体。例如,在组A中有三个测量值而在组B中只有一个的前体,将仅从组B中被过滤掉。可以来自胰酶消化的前体被注释为胰酶切肽段,那些以赖氨酸或精氨酸结尾或前面有赖氨酸或精氨酸的前体被注释为半胰酶切肽段,其他则被注释为非胰酶切肽段。在有限的蛋白酶解或胰酶对照流程内,数据通过从所有log2前体定量中减去样本特异性缩放因子来分别进行归一化。该缩放因子仅使用在流程中所有样本间共享的前体计算。选择此策略是为了避免因跨样本拾取的前体差异而引入的偏差。
归一化后,在蛋白质登录号水平计算覆盖度。基于完整前体使用Spearman相关性计算样本相关性,多维标度图基于log2转换和归一化前体强度的欧几里得距离。LiP前体上的差异丰度分析基于翻译后修饰文献中的方法。与直接评估LiP前体水平的差异丰度(DA)和相对差异丰度(RDA)分析区分开来,以便针对整体蛋白质水平丰度变化校正LiP前体水平的log2倍数变化(FC)。DA分析包括直接在LiP前体水平上推断log2FC。LiP RDA分析则取决于实验设计。一方面,当LiP和TC样本未配对时,使用MSstatsTMT开发的策略。另一方面,对于配对的LiP和TC样本,采用msqrob2TMT方法。
上述所有步骤均在msqrob2 dialipar工作流程中实现。生成的html报告包括几个质量控制图,以及每个对比的差异分析火山图和感兴趣蛋白质的条形码。
结果与讨论
DIA基LiP-MS中性能评估的实验设计
为了评估新开发的流程DIA-LiPA的性能,我们使用了一个靶点结合的LiP-MS实验,其中细胞裂解物分别用雷帕霉素或溶剂对照处理。雷帕霉素是已知选择性结合FKBP1A的明确小分子,使其成为评估不同LiP-MS工作流程灵敏度和特异性的理想分子。按照既定方案进行LiP-MS,所得数据使用四种DIA工作流程进行分析:(i) 在Spectronaut中经验库搜索,(ii) 在DIA-NN中经验库搜索,(iii) 在Spectronaut中无库搜索,(iv) 在DIA-NN中无库搜索。所有四种工作流程的下游分析均使用未配对的DIA-LiPA进行。
DIA工作流程在LiP-MS中的前体水平鉴定、覆盖度和重现性
我们首先评估了不同DIA工作流程中鉴定的前体数量和半胰酶切肽段的比例。无库工作流程鉴定的前体数量大约是经验库工作流程的三倍,同时保持了LiP-MS实验中典型的半胰酶切预期比例。尽管进行了肽段分级以减轻DDA随机性并提高谱图库深度,但鉴定率仍低于无库DIA实现的水平。在无库方法中,Spectronaut对半胰酶切肽段的灵敏度略高于DIA-NN。此外,我们观察到无库工作流程之间有大量重叠,经验库工作流程中鉴定出的前体约有84%也在无库工作流程中被发现。这表明有相当数量的前体是共享的,但许多前体仍为无库方法所独有。这些额外的前体在质量上并不较低,如其q值所示,其强度也并不较低。鉴于无库工作流程总体上鉴定出三倍多的前体,它们提供了更广泛的蛋白质组覆盖。重要的是,这些额外的前体不会成比例地增加蛋白质组的数量,而是为每个蛋白质提供更多的肽段,从而转化为改进的序列覆盖度。这是LiP-MS的一个关键优势,因为更广泛的覆盖度增强了结构分辨率和检测更微妙构象变化的能力。
为了进一步评估蛋白质组覆盖度,我们比较了共享蛋白质的序列覆盖度。无库工作流程实现了更广泛和一致的覆盖,这是由于检测到了低丰度和半胰酶切肽段,这些肽段在经验DDA谱图库中经常被遗漏。如重叠面板所示,搜索引擎的选择对总体覆盖度没有重大影响,这表明差异主要由使用的谱图库类型驱动。在非共享蛋白质中也观察到了类似的趋势,无库方法达到更高的覆盖度。
半胰酶切搜索将搜索空间扩大到完全胰酶切搜索的15倍以上,这增加了鉴定率,但也引入了更多假阳性。为了确认无库工作流程增加灵敏度反映了真实鉴定,我们进行了一个诱饵实验,在人类蛋白质序列数据库旁添加大肠杆菌蛋白质组进行半胰酶切搜索。在前体水平进行了基于诱饵的FDR验证,所有蛋白质水平过滤器均被禁用。FDR使用组合诱饵方法进行估计,该方法考虑了数据库大小差异,并提供了真实FDR的保守上界,而不是目标-诱饵估计的直接等效值。在我们的半胰酶切DIA搜索中,所得的前体水平诱饵FDR在DIA-NN中为0.58%,在Spectronaut中为1.64%。这些结果表明,在我们的半胰酶切搜索条件下,Spectronaut的FDR估计可能过于宽松。然而,我们避免将此观察结果普遍化,因此一致地对所有比较分析应用默认的名义1% FDR设置。此外,这些值与近期对DIA FDR控制的系统评估结果一致。因此,我们将这些值解释为指示有效的FDR控制,特别是考虑到半胰酶切搜索空间显著扩大。这些发现共同表明,无库工作流程将FDR保持在DIA的可允许范围内,同时为LiP-MS实验提供了显著提高的灵敏度和覆盖度,增强了它们在结构蛋白质组学中的适用性。
在LiP-MS中,半胰酶切肽段源于蛋白酶K的非典型切割事件,这将降低相应胰酶切肽段的强度,并产生新的、丰度较低或至多相等的半胰酶切肽段。再加上与典型的蛋白质组样品制备相比,此工作流程涉及额外的样品处理步骤,这可能导致定量精度降低。这些因素解释了为什么半胰酶切工作流程通常表现出更广泛的CV分布。因此,我们还通过比较各工作流程间共享前体的前体水平变异系数来评估定量精度,结果显示各工作流程的CV分布相似。所有工作流程的中位CV均低于20%,这通常被认为是定量蛋白质组学可接受的。在非共享前体中也观察到了类似的情况。为了避免因跨样本量化的前体不同而引入全局中位数归一化偏差,我们应用了基于条件间共享前体的归一化。这种方法确保跨肽段类型的平衡调整,并提高定量准确性。因此,实现低于20%的CV并保持FDR控制尤其值得注意,因为它强调了无库DIA工作流程的可靠性,这些工作流程将高灵敏度与稳健的定量相结合,同时消除了经验谱图库生成的实验开销。
LiP-MS中DIA-NN基于FASTA与原生半特异性酶解策略的比较
我们最初开发了一个变通方法,通过在DIA-NN版本2.3.0及以上版本实现半特异性酶解支持之前,生成一个半胰酶切肽段FASTA文件来启用DIA-NN中的半胰酶切数据分析。尽管此变通方法对于最新版本的DIA-NN不再必要,但对于特殊应用,它仍然是一个有用的策略,例如自定义蛋白酶基序或当前搜索引擎不支持的蛋白酶。此外,完整的半胰酶切FASTA文件仍然支持在早期版本的DIA-NN中进行半胰酶切搜索。我们还将此变通方法与DIA-NN中的新半特异性酶解选项进行了基准测试。观察到工作流程之间有大量重叠,版本2.2.0中基于FASTA的方法获得的鉴定率接近于版本2.3.0中使用半特异性选项所获得的鉴定率。这证实了该变通方法仍然有效,尽管新的半特异性酶解功能性能更优,并推荐用于未来的LiP-MS分析。
使用DIA-LiPA捕捉构象动力学
接下来,我们检查了每个工作流程使用火山图和结构条形码检测构象变化的能力,这是DIA-LiPA的功能输出。所有工作流程都通过多个相关的、显著的前体鉴定了FKBP1A,确认了雷帕霉素的已知靶点。
有趣的是,在校正TC后在雷帕霉素处理的LiP条件下显著上调的前体是胰酶切肽段,而在校正TC后在LiP中下调的前体是半胰酶切肽段,这表明雷帕霉素结合后FKBP1A构象屏蔽性更强。无库和经验DIA-NN均检测到了来自另一个蛋白质的一个额外前体,每个蛋白质覆盖度低且映射到稀疏覆盖的短区域,这可能指向假阳性。重要的是,尽管在所有搜索策略中FKBP1A
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号