《Nature Communications》:Exon inclusion signatures enable accurate estimation of splicing factor activity
编辑推荐:
本文针对如何从单组学数据中准确评估受多重调控的剪接因子(SF)活性这一难题,提出了一种创新解决方案。研究人员通过整合基于RNA-seq扰动实验构建的剪接因子-外显子网络与VIPER算法,成功地从外显子纳入变化中精准估算了剪接因子的功能活性。该研究不仅验证了该方法在多种复杂调控场景下的适用性,还通过分析癌症样本,揭示了具有致癌或抑癌样行为的、可预测患者生存的复发性癌症剪接程序。这项工作为在异质性条件下(如癌症)全面分析剪接调控提供了一种仅需最少数据要求的强大工具。
在生命体复杂而精密的基因表达工厂中,信使RNA(mRNA)的“剪辑”过程——即选择性剪接——是产生蛋白质多样性的核心环节。这项工作由一类被称为剪接因子的蛋白质“剪辑师”们主导。然而,确定在特定生理或病理状态下,究竟是哪位“剪辑师”在发挥关键作用,却异常困难。因为剪接因子的功能活性受到其转录、翻译、翻译后修饰、亚细胞定位乃至蛋白质相互作用等多重分子机制的精细调控,形成了一个复杂的调控网络。传统的、基于单个组学层面(如仅检测基因突变或mRNA表达差异)的方法,犹如管中窥豹,难以全面捕捉剪接因子真实的、整合了所有调控输入的功能状态。特别是在癌症等基因组高度复杂的疾病中,多种分子改变同时发生,使得识别驱动表型的异常剪接因子活动更具挑战性。那么,能否像通过观察一支军队的动向(其靶基因表达变化)来推断将军(转录因子)的指令强度一样,通过监测“剪辑”成品(外显子纳入模式)的变化,来精准推断“剪辑师”(剪接因子)的活性高低呢?这项发表于《Nature Communications》的研究,为这个设想提供了强有力的肯定答案。
为开展此项研究,作者运用了几个关键技术方法:首先,从公开数据库(如ENCODE/ENCORE、欧洲核苷酸档案ENA)系统性地收集并统一处理了数百个剪接因子单扰动(敲低、敲除或过表达)实验的RNA测序(RNA-seq)数据,使用vast-tools工具量化外显子纳入百分比(PSI),构建“经验性”剪接因子-外显子调控网络。其次,他们将VIPER算法(一种最初用于从基因表达特征推断转录因子活性的富集分析方法)适配于剪接因子活性估算。再者,利用来自癌症基因组图谱(TCGA)等多个人类癌症队列的转录组数据,以及癌症细胞系百科全书(CCLE)的数据,进行大规模的剪接因子活性分析和生存关联研究。最后,整合蛋白质组、磷酸化蛋白质组及基因依赖性(DepMap)等多组学数据进行关联与验证。
研究结果
评估单扰动实验中剪接因子活性估算的准确性
研究人员首先建立了一个评估框架。他们假设剪接因子的活性可以通过其靶向外显子纳入特征的变化来估算,并需要两个关键输入:连接剪接因子与其靶向外显子的网络,以及一个基于富集的活性估算器。为了验证这一假设,他们创建了五个基于剪接因子扰动实验的基准数据集,并系统性地比较了不同网络构建方法(基于计算推断的ARACNe、多元线性回归与基于扰动实验的“经验性”网络)和不同活性估算方法(GSEA、相关性分析、VIPER)。结果表明,结合经验性网络与VIPER算法能够最准确地从外显子纳入特征中识别出被扰动的剪接因子,其性能显著优于其他组合。这证实了从经验性扰动数据衍生的网络能够为VIPER提供可靠的基础,从而实现对剪接因子活性的稳健估算。
经验性网络和VIPER实现稳健的剪接因子活性估算
进一步分析表明,尽管某些剪接变化具有环境特异性,但基于经验性网络和VIPER的活性估算在不同研究和实验背景下均表现出高度的准确性和稳健性。对网络结构的分析显示,大多数外显子仅被少数剪接因子调控,且核心剪接体因子的网络连接度更高,其活性估算也通常更准确。这些发现支持了该方法在不同生物学背景下的适用性。
经验性网络捕捉功能性调控
研究还比较了基于功能扰动(经验性网络)和基于物理结合(CLIP-seq数据)定义的剪接因子-外显子相互作用。两者重合有限,表明它们捕捉了剪接调控的不同层面。有趣的是,即使仅使用缺乏CLIP支持证据的经验性相互作用,VIPER仍能保持高估性能。这表明经验性网络主要反映了功能性的调控关系,而不局限于直接的RNA结合事件。
估算的剪接因子活性再现了日益复杂的调控机制
研究团队将该方法应用于更复杂的调控场景进行验证。例如,药物Indisulam通过介导剪接因子RBM39的蛋白质降解来降低其活性,但 paradoxically (矛盾地)会导致RBM39的mRNA水平代偿性升高。仅基于mRNA的分析会得出错误结论,而剪接因子活性分析则准确地识别出RBM39是活性下降最显著的因子,成功再现了药物的作用机制。此外,在组合敲低多个剪接因子、或使用靶向剪接体SF3b复合物(如SF3B1)的药物(如H3B-8800、Pladienolide B等)处理细胞时,该方法不仅能识别出被直接扰动的因子,其估算的活性变化还与蛋白质在剪接体蛋白相互作用网络中的距离相关,证明了该方法能够捕捉由蛋白质相互作用介导的复杂调控效应。
复发性异常剪接因子活性定义了两个癌症剪接程序
将这种方法应用于复杂的癌症环境,研究人员分析了14个具有配对的肿瘤与癌旁正常组织的TCGA癌症队列。通过比较两组的剪接因子活性,他们发现了一组在多个癌症类型中反复被激活的剪接因子(“致癌样”程序,n=61)和另一组反复被抑制的剪接因子(“抑癌样”程序,n=61)。例如,PTBP1被确定为最常被激活的剪接因子。重要的是,这些程序的活性与患者预后显著相关:“致癌样”程序活性高预示不良预后,而“抑癌样”程序活性高则预示较好预后。相反,仅基于剪接因子基因表达的差异分析未能识别出具有类似预后预测能力的程序。这表明剪接因子活性分析能揭示更直接的功能相关性。
将癌症剪接程序失调与癌症标志相关联
功能富集分析显示,“抑癌样”程序调控的外显子所属基因显著富集于抗原呈递相关通路。通过整合免疫检查点阻断疗法(ICB)患者数据与体内CRISPR筛选数据,研究人员发现了一个潜在的关键外显子(SEC22B基因中的HsaEX1036341),其低纳入水平与更好的ICB治疗反应和患者生存率相关。此外,在癌症细胞系中,“致癌样”程序活性与细胞增殖标志物MKI67表达呈正相关,而“抑癌样”程序活性与之呈负相关,将这两个程序与“免疫逃逸”和“持续增殖”这两个癌症标志联系了起来。
癌症剪接程序在癌变过程中表现出协同调控
为了探究这些程序是否参与癌变过程,研究人员分析了一个多阶段细胞癌变模型的数据。结果显示,在从永生化到成瘤性再到转移性的转化过程中,“致癌样”程序的活性逐渐升高,而“抑癌样”程序的活性逐渐降低。通过整合同一模型的多组学数据(转录组、蛋白质组、磷酸化蛋白质组、可变剪接)并构建正则化多元线性模型,研究人员筛选出了一小部分可能驱动此活性转换的候选分子特征,例如FUS的mRNA水平变化等,为进一步的机制研究提供了线索。
研究结论与讨论
本研究表明,通过整合基于经验性扰动数据构建的剪接因子-外显子网络与VIPER算法,可以仅从外显子纳入特征中准确、稳健地估算剪接因子的活性。这种方法成功地将剪接因子所受的多重、复杂调控整合为一个单一的功能性评分。与关注剪接因子自身分子事件(如突变、表达变化)的传统方法不同,该策略将焦点转移至剪接因子功能调控的终端输出——其靶向外显子的纳入变化,从而能够更全面地捕捉其活性状态。即使仅使用广泛可得的转录组数据,该方法也能再现由蛋白质降解、组合扰动、蛋白质复合物相互作用等多种机制引起的剪接因子活性变化。
作为一个重要的概念验证和应用展示,该研究通过系统分析多种癌症类型,首次揭示了两个具有“致癌样”和“抑癌样”行为的复发性癌症剪接程序。这些程序不仅与患者生存显著相关,还通过富集分析、与细胞增殖关联以及在癌变模型中的动态变化,被证明与“免疫逃逸”和“持续增殖”等关键癌症标志密切相关。这凸显了剪接因子活性分析在解析复杂疾病表型背后的剪接调控程序方面的强大能力。
尽管当前方法依赖于单因子扰动实验来构建网络,且对某些剪接因子类别的覆盖尚有局限,但它为从海量转录组数据中挖掘功能信息提供了新范式。未来,随着单细胞扰动数据集的丰富以及其他剪接事件类型的纳入,该方法的覆盖范围和精度有望进一步提升。总之,这项研究建立了一个强大的框架,使得仅凭外显子纳入特征便能实现对剪接因子活性的精准功能解读,这将极大地促进对发育、疾病(尤其是癌症)等复杂生物学过程中剪接调控机制的理解,并有助于识别新的治疗靶点和预后标志物。