编辑推荐:
这篇综述总结了近年来关于植物中非经典核酸二级结构——G-四链体(G4s)和i-基序(iMs)——研究的进展。文章系统阐述了它们在基因组中的鉴定与预测方法,并重点关注人工智能(AI)驱动的高精度预测技术。综述强调了G4s和iMs在启动子和非翻译区(UTRs)等调控区域的广泛分布,及其在转录和转录后调控中的重要作用。尽管植物中的功能研究仍较有限,但深入探索其机制将增进我们对植物基因调控的理解,并为作物改良提供新机遇。
引言
长久以来,DNA的双螺旋(B-form)结构被视为生命体遗传信息储存和传递的经典模型。然而,近年研究表明,DNA还能形成多种具有重要调控功能的非B型结构,包括Z-DNA、发卡结构、十字形结构、三链体、G-四链体(G4s)和i-基序(iMs)。其中,G4s和iMs在植物中正成为关键的顺式调控元件,同时在DNA和RNA层面发挥作用。
DNA G4s(DG4s)由鸟嘌呤四聚体(G-quartets)堆叠而成,通过Hoogsteen氢键和单价阳离子(如钾离子)稳定,可根据环的长度和链的取向形成平行、反平行或混合拓扑结构。而富含鸟嘌呤的RNA序列也能折叠成称为RNA G4s(RG4s)的四链螺旋结构,与结构多样的DG4s不同,RG4s几乎只采取平行构型,这主要是由于核糖的2′-羟基(2′-OH)倾向于C3′-内式构象,使鸟嘌呤保持反式取向,从而稳定了平行G4s。在动物中,G4s的功能已被广泛研究,而植物中的研究才刚刚开始。例如,在水稻中的全基因组图谱和表观基因组分析表明,DG4s调控基因转录并有助于维持基因组完整性,而RG4s则在翻译和RNA稳定性的调控中发挥作用。
与G4s类似,iMs也是四链结构,但它们由两条平行链组成的核酸双螺旋以反平行方式排列,并由插层的、半质子化的胞嘧啶-胞嘧啶(C·C+)碱基对稳定。DNA iMs(D-iMs)在酸性环境下更稳定,主要有两种插层拓扑:更稳定的3′E型(末端C·C+对在3′端)和稳定性较差的5′E型。RNA i-motifs(R-iMs)则有不同的结构状态,主要是M型,较不常见的是m型,两者都表现出C3′-内式的糖折叠构象。近期的生物信息学分析和实验研究揭示,在特定pH或胁迫条件下,D-iMs可以在启动子区域内折叠,并可能作为顺式调控元件调节转录响应。
植物中G4s和iMs的实验与计算鉴定
G4s的鉴定可追溯至上世纪60年代,最初依赖于低通量方法,如核磁共振(NMR)、圆二色谱(CD)、X射线晶体学和表面等离子体共振(SPR)。高通量测序和计算方法的发展使得在转录组和全基因组范围内绘制G4s图谱成为可能。
在植物中,已发展出多种基于测序的方法。其中,G4-seq利用配体(如吡哆司汀,PDS)诱导聚合酶停滞来体外鉴定DG4s;BG4-DNA-IP-seq和G4DP-seq则分别使用抗体或小分子配体富集DG4s。对于RG4s,rG4-seq 2.0(rG4-seq的改进版本)特别适用于低起始量RNA样品;SHALiPE-seq结合折叠RG4s的化学修饰和逆转录停滞,以定量评估体内RG4的折叠状态。此外,G4Bank(针对DG4s)和G4Atlas(针对RG4s)等数据库整合了这些数据集,提供了多个植物物种中已验证G4s的精选资源。
同时,各种计算工具被开发出来预测潜在的G4形成序列(PQFSs),主要可分为三大类:基于规则的方法、机器学习方法和深度学习方法。基于规则的方法,如G4Hunter、G4SNVHunter、QGRS Mapper、G4-iM Grinder、QuadParser、G4P Calculator和pqsfinder,根据富含鸟嘌呤的模式、环长和错配惩罚来识别DG4s。其中,G4Hunter、QGRS Mapper和G4-iM Grinder也广泛用于预测RG4s。G4SNVHunter基于G4Hunter开发,专门用于评估单核苷酸变异对G4稳定性的影响。然而,植物中的全基因组研究表明,预测的PQFSs与实验验证的G4s之间存在显著差距。例如,水稻的BG4-DNA-IP-seq仅检测到约5%的预测位点。这种差异可能反映了实验限制(如离子条件、抗体识别限度、组织特异性表达、蛋白质或表观遗传干扰)和模型局限(如僵化的基序规则、忽略侧翼序列效应、不准确的热力学评分、缺乏植物特异性训练数据)。
机器学习和深度学习方法的进步正逐步帮助克服这些限制。基于机器学习的方法G4Boost通过整合序列、折叠能和拓扑特征来预测包括水稻、玉米和拟南芥在内的植物基因组中的DG4s。而G4RNA screener则使用经过实验数据训练的神经网络(G4NN)结合G-丰富度评分来识别RG4s。深度学习方法包括G4mismatch、DeepG4和G4-Attention,它们都针对DG4s设计。这些模型采用卷积神经网络,但训练策略不同:G4mismatch在G4-seq数据上训练,DeepG4整合G4-seq、G4-ChIP-seq和染色质可及性来预测活跃的G4区域,G4-Attention进一步结合Bi-LSTM和注意力机制来捕获关键序列特征。对于RNA,rG4detector采用CNN来预测RNA序列的rG4倾向性。
与G4s相比,植物中iMs的研究显著滞后。抗iM抗体iMab的开发使得通过iM-IP-seq高通量检测D-iMs成为可能,促进了水稻基因组中iMs的全基因组分析。除了这种实验方法,机器学习模型iM-Seeker在来自多个物种的实验验证iM数据集上训练,能够对拟南芥及其他物种中的典型和非典型iMs进行全基因组预测。此外,MD-TSPC4利用分子建模和分子动力学模拟来预测iMs的热稳定性,为其折叠行为提供了结构上的见解。
植物中G4s和iMs的全基因组分布
G4三级结构在真核和原核基因组中广泛存在。在植物中,DG4形成序列非随机地富集在调控区域。对多种植物物种的全基因组分析显示,大多数G4s属于G2型(两个G-四联体),而经典的G3型(三个G-四联体)相对罕见。G2型G4s主要位于基因区域,包括CDS、外显子和注释的非翻译区(UTRs),而G3型G4s在基因间区、启动子和内含子区域更常见。此外,单子叶植物中PQFSs的密度显著高于双子叶植物,这很可能与GC含量差异有关。除了核基因组,PQFSs也存在于叶绿体和线粒体DNA中,其中后者显示出最高的G4频率。跨植物物种的比较分析进一步表明,富含G的G4形成序列通常保留在直系同源蛋白编码基因的调控区域,如启动子和UTRs,但折叠的DG4结构保守性的直接证据仍然有限。
转录组水平的研究揭示,RG4s优先富集在蛋白质编码转录本的5′UTR,在那里它们充当翻译调控因子。此外,RG4景观在不同组织、发育阶段和环境条件下会发生变化,特别是在低温等胁迫下,RG4形成的增加可增强mRNA的稳定性和胁迫适应。新出现的证据也表明,细胞器转录本可能含有RG4结构,尽管它们在叶绿体和线粒体中的功能意义仍有待探索。总之,这些分布模式表明RG4s在调控基因表达和植物发育中具有潜在重要作用。与此一致,拟南芥和水稻的转录组水平研究都鉴定出了直系同源转录本子集中的RG4形成,这表明一些RG4s在植物物种间可能是保守的。
与G4s相比,iMs在植物中似乎更为普遍,在单子叶和双子叶植物中均观察到富集。在水稻中,全基因组iM-IP-seq分析显示,潜在的i-基序形成序列(PiMFSs)显著富集在顺式调控区域,包括启动子和5′UTRs。这些序列还与DNA甲基化存在复杂关联,表明其在基因表达和转座因子动态中可能具有调控作用。然而,iM形成的富含C的序列在不同植物物种的直系同源基因的启动子或UTR区域是否保守,在很大程度上仍不清楚。
植物中G4s和iMs的调控功能
G4s和iMs在哺乳动物中已被广泛研究,并被公认为DNA和RNA水平上的重要调控元件。DNA和RNA G4s普遍存在于启动子、UTRs和复制相关区域,调控转录、翻译、RNA稳定性和基因组完整性。此外,启动子区域的iMs已被证明与动物细胞中的转录调控有关,并且它们在人类细胞核内的形成已得到明确证实。受动物中这些成熟发现的启发,G4s和iMs在植物中的调控作用近来也受到越来越多的关注。
作为非经典DNA或RNA结构,G4s已成为重要的调控元件,参与植物的转录、翻译、RNA稳定性和相分离。在转录调控方面,DNA G4s通过调节染色质可及性和基因表达发挥表观遗传作用。聚乙二醇(PEG)和PDS是两种常用于促进体外G4形成的化学试剂。尽管两者都增强G4折叠,但它们在序列和染色质偏好上存在差异。PEG偏好的G4s通常位于常染色质区域,具有较低的DNA甲基化和丰富的活性组蛋白标记,通常与较高的基因表达相关。相反,PDS偏好的G4s富集在异染色质中,具有较高的DNA甲基化和抑制性组蛋白修饰,通常与较低的基因表达相关。
值得注意的是,位于玉米胁迫相关基因(如WRKY、JAZ8、MAPK1、AP2-EREBP和ACO1)启动子区域的DNA G4s被认为在胁迫启动过程中参与建立转录记忆。这些G4s可能作为表观遗传书签,使基因在后续环境刺激下能够更快或更强地激活。此外,DG4s在拟南芥和小立碗藓的rDNA区域富集,它们可能抑制转录并阻碍复制叉进程,从而威胁rDNA的稳定性,除非被G4解旋酶解旋。特别是,小立碗藓5S和18S rDNA之间的一个G4位点可能充当边界,防止RNA聚合酶III和RNA聚合酶I之间的转录干扰。
除了DNA G4s,rG4s是植物中关键的转录后调控因子,其最明确的特征是翻译抑制功能。多项研究表明,位于5′UTRs的rG4s可抑制翻译起始,例如在拟南芥和水稻中均保守存在的ATR和HIRD11中的rG4s。RG4介导的翻译控制在发育中也起着重要作用。例如,在拟南芥中,RNA结合蛋白JULGI与RG4s相互作用以调控韧皮部发育。这些发现表明,在植物中,RG4折叠、翻译调控和生理结果之间存在功能联系。除了直接的翻译控制,RG4s还参与间接的翻译抑制。一个显著的例子是tDR-Ala,一种tRNA衍生的RNA,它形成分子间RG4s,通过调节tDR-Ala的细胞可用性以及与RNA解旋酶DExH1的相互作用来调控翻译。近期的研究还发现,位于3′UTRs的RG4s可以作为温度传感器——在低温胁迫下,它们稳定靶标mRNA,而破坏RG4形成则会降低mRNA稳定性。此外,RG4s已被证明有助于RNA相分离,如在SHR mRNA中所证明的。相比之下,由tDR-Ala形成的分子间RG4s被认为可促进RNA组装,并可能潜在地促进相分离。这些发现共同表明,RG4s在细胞内的转录本空间组织中发挥作用。
与DG4s类似,D-iMs在转录调控中也发挥重要作用。使用最小35S启动子构建体的功能测定表明,D-iM的存在可以显著增强基因表达。此外,D-iMs通常与转座子相关,可能与DNA甲基化协同作用以维持TE沉默和基因组稳定性。值得注意的是,在水稻中,DNA甲基化在生理pH条件下调节D-iM的形成。在中性pH(7.0)下折叠的iMs往往与较高的胞嘧啶甲基化相关,这表明在植物中,甲基化可以在非酸性条件下增强D-iM的稳定性。到目前为止,我们对iM介导的调控的理解仍然有限,并且在植物中尚未有R-iMs的报道。
结论
近年来,G4s和iMs鉴定技术的进展,以及功能研究的推进,提供了越来越多的证据,表明这些非经典结构是植物中重要的调控元件。它们参与许多细胞活动,如转录、翻译、RNA稳定性和相分离,并且对植物的生长、发育和环境适应也很重要。
结构特异性抗体和化学探针的发展使得能够更准确地在不同发育阶段和不同环境中检测G4s和iMs。然而,这些实验方法仍然耗时且昂贵,并且重要的方法学差距仍然存在。特别是,虽然已为RG4s建立了稳健的高通量策略,但用于系统鉴定和探测iM形成的、可比拟的体外和体内方法仍然缺乏。解决这一局限性对于在植物中获得更全面、更平衡的非经典核酸结构认知至关重要。
与此同时,计算预测已成为实验图谱不可或缺的补充。广泛使用的基于基序的工具,如QGRS Mapper,主要依赖于经典序列模式,通常不考虑侧翼序列或基因组和转录组背景,而这些可能显著影响体内的结构形成。近年来,将高通量测序数据与人工智能方法相结合,例如G4-Attention和iM-Seeker,极大地提高了预测的准确性。未来,预测模型需要更好地捕捉影响植物中G4s和iMs形成的序列和背景特征。
与动物的研究相比,植物中G4s,特别是iMs的研究仍处于早期阶段。尽管G4s和iMs在启动子和UTRs中广泛分布,但它们在基因调控中的因果关系、对发育和环境信号的动态响应,以及与特定蛋白因子的相互作用,仍未完全明了。由于这些调控过程不改变底层的基因组序列,G4s和iMs可能代表了一种独特的表观遗传调控层面。总的来说,这些特征强调了未来探索G4s和iMs作为影响植物基因表达的关键调控元件的必要性。
在未来的研究中,进一步研究G4s和i-基序的生物学功能,不仅有助于加深我们对植物基因调控的理解,也可能为作物改良开辟新的可能性。因为这些结构可以在不改变编码序列的情况下调节转录和转录后调控,它们可能为调整与胁迫反应和其他农艺性状相关的基因表达提供一种替代方法。