在生物信息学的新时代,随着下一代测序技术的出现,Telomere-2-Telomere(T2T)联盟于2022年测序并发布了第一个无间隙的女性单倍体参考基因组(Nurk等人,2022年)。在人类基因组的31亿个碱基对中,重复DNA序列占基因组的53.941%。仅转座元件(TEs)就占了46%,数量达到1,405,826,300个碱基对(Hoyt等人,2022年)。DNA重复序列的丰富程度在几乎所有真核生物基因组中都很常见,包括小鼠基因组的37.5%(Berrens等人,2021年)、秀丽隐杆线虫基因组的12%(Laricchia等人,2017年)以及玉米基因组的80-95%(Stitzer等人,2021年)。
转座元件,也称为转座子,是能够在基因组内、基因组间甚至物种间移动的DNA序列。这些转座子可以从一个基因组位置跳跃到另一个位置,因此被称为“跳跃基因”(Arkhipova和Yushenova,2019年)。转座元件还被称为“自私基因”,因为它们具有持续复制并在基因组中产生多个新拷贝的显著倾向,这会导致染色体断裂和插入突变等不良后果(Klein和O’Neill,2018年)。
长期以来,转座元件被视为无功能的“垃圾”DNA,但在发现结直肠癌中APC基因的体细胞L1逆转录后,它们被认定为肿瘤发生的内源性驱动因素(Miki等人,1992年)。目前,只有3类逆转录转座子家族——LINEs(L1)、SINEs(Alu)和复合元件SINE-VNTR-Alu [SINE/可变数量串联重复(VNTR)/Alu]或SVA被认为在人类基因组中是活跃和可移动的(Jansz和Faulkner,2021年)。大约有50万个L1拷贝(主要是片段化的),占我们总基因组的17%,其中只有大约100个是活跃的;高度活跃的L1元件(称为hot-L1元件)数量更少(Kazazian和Moran,2017年)。尽管如此,hot-L1元件被认为是大多数L1介导的疾病的原因(Brouha等人,2003年)。
人类及其他真核生物基因组中各种类型转座元件的这种惊人丰富度证明了它们在不断复制和生成多个拷贝以侵入和占据不同基因组区域的动态能力。TE插入基因组可能产生新的内含子(内含子化)或新的外显子(外显子化)。外显子化通常会导致阅读框的移位或提前终止密码子的出现;因此,mRNA的错误剪接会产生截短且无功能的蛋白质(Lee等人,2020年)。TE还会侵入基因的调控区域,如启动子、增强子和沉默子,从而导致转录失调。
表观遗传控制,特别是DNA甲基化、组蛋白修饰和microRNA(miRNA)的干扰,调节和抑制TE的移动,防止大规模的基因组不稳定。在人类癌症的背景下,表观遗传变化与肿瘤发生有关。其特征是肿瘤抑制基因的过度甲基化以及TE的全球性低甲基化,尤其是甲基化模式的丢失会重新激活TE。因此,癌基因的激活、由于易位导致的染色体断裂以及融合基因的形成进一步促进了肿瘤的整体发展和进展(Anwar等人,2017年)。
转座元件虽然因其在基因组中的“不可控跳跃”而臭名昭著,但据报道它们也是某些miRNA的自然来源。miRNA长度约为22个核苷酸,是一种参与基因表达转录后调控的小型非编码RNA(Gim等人,2014年)。Qin等人(2015年)在人类中鉴定出409种由转座元件(TEs)衍生的miRNA,这比其他非哺乳动物脊椎动物中的MDTEs更多。Lee等人(2020年)发现了34种与人类疾病和癌症相关的MDTEs,其中16种来自LINE,6种来自SINE,2种来自LTR,10种来自DNA转座子。此外,他们的研究还表明,一个miRNA序列可能来源于多个TE家族。一些差异表达的MDTEs包括在结直肠癌组织和细胞系中严重下调的mIR625以及在NSCLC中上调的mIR130a。
Hanahan提出的“非突变性表观遗传重编程”是癌症的一个新兴特征,它描述了肿瘤微环境中的表观遗传机制(Hanahan,2022年)。肺癌是最常见的癌症类型,是全球癌症相关死亡的主要原因(Siegel等人,2022年)。非小细胞肺癌(NSCLC)和小细胞肺癌(SCLC)是这种致命肺部疾病的两种主要类型,前者占病例的80%。根据肿瘤组织学特征,NSCLC进一步分为腺癌(AdC)、鳞状细胞癌(SqCC)和大细胞癌。肺癌通常在晚期才被诊断出来,此时预后和治疗选择非常有限(Ramazi等人,2023年)。
尽管肺癌的发病机制在基因组和分子生物学层面得到了广泛研究,但TE的作用仍被严重忽视。现有的治疗方法受到人类基因组和表观基因组的动态性质、快速进展和转移以及对抗化疗药物的抗性的影响,使得肺癌既致命又治疗成本高昂。在这种情况下,需要深入研究以揭示所有重要的生物学机制。对跳跃基因及其作用方式的研究可以为抗击肺癌提供重要知识(Burns,2017年)。