《Nature Structural & Molecular Biology》:Transposable element–gene chimera cartography, origination and role in enhancing transcriptome plasticity
编辑推荐:
研究人员为探究转座元件(TE)衍生异构体在物种和细胞状态间的动态变化及其在转录组可塑性中的作用,整合了长读长测序与多组学分析,系统绘制了TE-基因嵌合体的图谱,揭示了RNA质量控制机制如何通过调控这些嵌合体来塑造转录组,为理解TE在发育、衰老及疾病中的调控功能提供了新见解。
基因组中遍布着被称为“转座元件”(Transposable Elements, TEs)的DNA序列,它们是远古病毒感染的遗迹。在人类基因组中,TEs及其衍生成分占据了大部分,如同一本被重复抄写了多次的古老书籍。然而,这些序列具有高度重复性,给研究工作带来了巨大的技术挑战。长期以来,科学家们对它们在基因组中的具体位置、调控功能以及在何时、何地、如何整合进宿主基因中形成“TE-基因嵌合体”(TE–gene chimera,简称TE-chimeras)知之甚少。传统的短读长测序技术难以精确捕获这些嵌合体,导致许多关键的转录事件被遗漏。理解TE-chimeras的形成机制及其在细胞分化、器官发育、衰老和疾病(如癌症)中的作用,对于揭示转录组的动态可塑性至关重要。
为了解决这些问题,研究人员开展了一项系统性研究。他们整合了PacBio长读长单分子实时测序(Iso-seq)与短读长RNA测序等多维转录组分析技术,构建了异构体水平的参考转录组。这种方法克服了短读长测序的局限,能够高精度地识别和定位TE-chimeras。研究人员在不同物种(人和小鼠)、不同细胞状态(如胚胎干细胞、类上胚层细胞)以及不同发育阶段的多个器官中进行了系统性的“制图”,旨在回答TE-chimeras如何形成、如何变化以及如何被调控。相关研究成果已发表在《Nature Structural & Molecular Biology》上。
为了开展研究,研究人员主要运用了以下几项关键技术:首先,整合PacBio长读长单分子实时测序和短读长RNA测序的混合测序策略,构建了高分辨率的参考转录组,以精确鉴定TE-chimeras。其次,利用公共数据库(如GTEx、TCGA)分析TE-chimeras在人类遗传变异、多组织表达、衰老及多种癌症中的表达模式。再次,在细胞模型中通过条件性敲除(如Exosc3cKO)或敲低关键RNA降解通路(如NEXT、PAXT、Integrator)及剪接体成分的基因,结合RNA聚合酶II染色质免疫沉淀测序、染色质构象捕获(Hi-C)、新生RNA测序等,探究了调控TE-chimeras表达的分子机制。此外,还利用反义寡核苷酸干扰、Dux转录因子过表达等功能实验验证了关键调控网络。
结果1:小鼠和人类中TE衍生基因的定位
研究人员首先在小鼠胚胎干细胞中,通过混合测序策略识别了5,807个新的RNA种类,包括编码和非编码转录本。尽管基因组中散布的核元件(SINEs)和长散布核元件(LINEs)在拷贝数上占优,但嵌合体事件主要由长末端重复序列(LTRs)驱动,且大多位于转录本的5‘端。这提示LTRs具有独特的顺式调控潜力,能直接驱动下游区域的转录和“外显子化”。对小鼠不同发育阶段器官的分析表明,TE-chimeras在不同组织和时间点存在显著差异,例如SINEs在大脑结构中被更多地利用,而LTRs在非脑样本中占主导。通过对人类器官发生公共数据的分析,研究人员鉴定出大量活跃的TE启动子,发现LTRs产生的嵌合体最多,且这些嵌合体的表达具有高度的组织特异性,睾丸和肝脏中活性最高。超过80%的TE-chimeras是非编码的,但小鼠大脑中表达的TE-chimeras显示出更高的蛋白质编码潜力。
结果2:健康与疾病中的TE-chimeras
为评估TE-chimera表达在人类变异和疾病中的调控,研究人员分析了基因型-组织表达项目和癌症基因组图谱的数据。结果显示,TE-chimera的表达在不同器官间差异显著,在肌肉和睾丸中表达最高。衰老调控了TE-chimeras的表达,在全血和脑区中表达随年龄增长而下降,但在外周组织中上升。在癌症分析中,LTR-chimeras在肿瘤中几乎一致性地上调,且高表达预示着较差的生存率。进一步分析发现,LTR外显子化事件与癌症药物(如抗PD-L1疗法和奥沙利铂)的耐药机制相关。这些数据突显了TE-chimeras在疾病进展和治疗反应中的潜在作用。
结果3:转录耦联的RNA降解抑制TE-chimeras
由于先前研究提示RNA衰变可抑制TE表达,研究人员假设RNA监视也可能控制TE-chimeras。他们在条件性敲除RNA外切体亚基Exosc3的小鼠胚胎干细胞中发现,LTR来源的嵌合体启动子活性显著增强,其中ERVK、ERVL和ERVL-MaLR家族产生的嵌合体受RNA外切体抑制最为明显。通过RNA聚合酶II ChIP-seq和新生RNA测序分析,研究人员将上调的LTR-chimeras分为两类:一类因RNA聚合酶II沉积增加而转录激活;另一类则在RNA聚合酶II水平不变的情况下,因RNA稳定性增加而表达上调。这表明RNA降解在转录起始和RNA稳定性两个层面控制着LTR-chimeras。此外,Hi-C数据分析表明,产生嵌合体的LTRs更频繁地定位在细胞核的A区室内,这与其更活跃的转录环境一致。
结果4:位置依赖性的LTR功能化
由于LTRs在基因组中是多拷贝的,产生嵌合体的LTRs必然具有区别于非嵌合体LTRs的特征。研究发现,许多LTRs的启动子附近紧密嵌入着剪接供体位点和多聚腺苷酸化位点,这种独特的基因组构架在宿主基因中很少见,容易导致转录提前终止。RNA下拉实验证实,代表性的LTR序列能被多聚腺苷酸化机制识别。然而,序列特征本身不足以解释嵌合体的形成。位置分析显示,约70%的嵌合体LTRs位于基因启动子附近或基因内部,其邻近的内源基因表达水平更高,且更受RNA外切体调控。对于启动子近端上游的基因间LTRs,其与邻近基因之间的反义转录信号在嵌合体LTRs附近更强,并且在Exosc3cKO中增加,这表明局部转录活动(包括反义转录)可能创造一个更有利于LTR-chimera生成的转录环境。重要的是,Exosc3cKO并未导致这些嵌合体LTRs上的H3K9三甲基化或DNA甲基化水平降低,表明其上调并非由于这些表观遗传沉默标记的丢失。
结果5:抑制RNA降解和剪接促进TE功能化
研究人员进一步探究了RNA外切体的不同辅助因子(如NEXT、PAXT、Integrator)以及剪接体成分在控制TE表达和嵌合体形成中的作用。敲低这些因子均导致TE(主要是LTRs)的显著上调,并激活了LTR启动子。相比之下,敲低多聚腺苷酸化因子Cpsf2则无此效应。有趣的是,尽管剪接是LTR-chimera外显子化所必需的,但降低剪接活性反而会反式激活LTR启动子。U1反义吗啉寡核苷酸处理在野生型细胞中增加了LTR启动子活性,而在Exosc3条件性敲除细胞中,这种效应进一步增强。转录组分析显示,RNA降解或剪接受到扰动(单独或联合)会导致一类短基因(如无内含子的MERVL-int)以及与之相关的转录因子(如Dux、Zscan4d、Obox)上调,这些是代表高细胞潜能(如两细胞样状态)的标志基因。Dux的过表达实验证实,其全长的反式激活域可上调MERVL-int、Zscan4以及代表性的LTR-嵌合体转录本。而用反义寡核苷酸降解MERVL,则能逆转Exosc3cKO引起的转录组变化和高细胞潜能基因网络的激活。这表明,剪接和RNA降解的扰动共同汇聚于MERVL-int等短基因的上调,从而启动了一个增强细胞潜能和TE-chimera表达的程序。
结果6:体内TE-chimera表达的调控
为探究RNA降解是否在体内控制TE-chimeras,研究人员比较了卵母细胞中条件性敲除RNA外切体辅助因子Mtr4以及条件性敲除Dicer1的影响。在卵母细胞中,Mtr4cKO上调了ERVK家族的LTR-chimeras,而Dicer1cKO则上调了ERVL家族的LTR-chimeras,这表明在卵母细胞中,ERVL嵌合体通过RNA干扰通路(依赖于卵母细胞特异性的Dicer1嵌合体)调控,而ERVK嵌合体则受RNA监视通路调控。相比之下,在胚胎干细胞中,由于缺乏卵母细胞特异的Dicer1嵌合体,Exosc3cKO上调了ERVL和ERVK两家族的LTR-chimeras,而Dicer1cKO则对两者均无显著影响。这揭示了在体内,不同的机制特异性地作用于特定的TE家族,以调控细胞特异性和散在的TE外显子化事件。
结果7:TE-chimeras的进化分析
研究人员对TE序列及其外显子化进行了深入的进化分析。在人类中,与形成反义嵌合体的TEs相比,形成正义嵌合体的TEs在LTR12、ERVL、ERVL-MaLR和SVA这几个家族中富集程度最高。按进化年龄分层分析发现,LTR12和SVA的富集发生在人猿特异性分支,ERVL和ERVL-MaLR的富集发生在灵长类特异性分支,而ERVL-MaLR的富集还延续到灵长类以外的谱系。在小鼠中也观察到ERVL和ERVL-MaLR的类似富集模式,且多为小鼠特异性或啮齿类特异性。重要的是,对于ERVL和ERVL-MaLR家族,形成正义嵌合体的TEs在进化上显著比形成反义嵌合体的TEs更年轻,而LINEs等其他家族则无此现象。这表明年轻的LTRs仍然处于进化压力之下,驱动着正义嵌合体外显子化,从而产生新基因。
在讨论部分,作者总结道,这项研究为将TEs作为基因进行表征建立了一个框架。通过机制性和图谱式的分析,揭示了TE衍生新基因和异构体的动态性及其在转录组可塑性中的关键作用。研究阐明了TE-chimeras在器官发生、衰老和疾病中的细胞类型特异性表达模式。然而,本研究仍受限于细胞类型和空间分辨率不足,以及无法定位某些极长的、涉及多个TEs的外显子化事件。未来的研究,随着测序成本降低和技术进步,有望在所有细胞中实现基因和TE的异构体水平解析。此外,随着更多高质量全基因组组装的完成,TE及其嵌合体的进化分析将得到极大增强。
本研究的重要意义在于,它系统揭示了RNA降解和剪接依赖的质量控制机制,如何独立于DNA甲基化和异染色质化等常规TE抑制机制,共同防止TE-chimera的异常表达和TE诱导的细胞分化。这为理解病毒源性元件如何增强转录组可塑性提供了新机制。同时,研究明确了TE-chimeras在癌症进展、耐药性和细胞命运决定中的潜在作用,为未来开发针对特定TE-chimeras的疾病诊断和治疗策略奠定了基础。