《Current Opinion in Plant Biology》:Super-enhancer-mediated transcriptional regulation of gene clusters in plants
编辑推荐:
植物中生物合成基因簇(BGCs)的转录调控依赖超增强子(SEs),其与拓扑关联域(TADs)结合实现基因簇的时空特异性表达调控,为合成生物学和代谢工程提供新靶点。
Brandon D. Beall|Hainan Zhao|Jiming Jiang
密歇根州立大学植物生物学系,美国密歇根州东兰辛市48824
在植物基因组中,功能相关的基因通常会聚集成簇,包括由重复基因衍生的同源基因簇(HGCs)和由参与相同代谢途径的基因组成的生物合成基因簇(BGCs)。BGC中的基因往往以组织和时间特异性的方式共同表达,从而能够在特定的植物组织中或响应特定的环境信号时控制特定代谢产物的产生。最近的一些研究表明,转录超级增强子(SEs)在协调BGC内基因的共同表达中起着核心作用。在拟南芥(Arabidopsis thaliana)中,已经识别出大量BGC的SEs。此外,这些基因簇及其相应的SEs嵌入在同一拓扑关联域(TADs)中。通过T-DNA插入或规律间隔短回文重复序列(CRISPR)/CRISPR相关(Cas)诱导的删除来破坏这些SEs可以改变整个基因簇的表达。值得注意的是,利用组织特异性染色质可及性数据集可以很容易地预测和绘制与基因簇相关的SEs。对SE介导的BGC调控的分子解析对于推进合成生物学、代谢工程和作物改良具有巨大潜力。
引言
在所有真核生物中——从植物到人类——功能相关的基因通常在基因组中聚集在一起[1,2]。这些基因簇大致分为两类。第一类是由单个祖先基因重复形成的簇,称为同源基因簇(HGCs),例如哺乳动物物种中的Hox基因簇[3]。第二类包括结构和/或功能上不同的基因,它们协同作用产生最终产物,这类基因簇通常被称为生物合成基因簇(BGCs)或代谢基因簇(MGCs)[4,5]。
植物同时具有这两类基因簇。在抗病性中起关键作用的NBS-LRR基因家族是研究最深入的HGCs之一[6]。植物还以其非凡的代谢多样性而闻名[7]。特殊代谢产物的产生通常涉及一系列由不同基因执行的酶促步骤,这些基因共同构成一条代谢途径。尽管生物合成途径的基因通常分散在基因组中,但已发现许多生物合成途径的基因以BGC的形式组织起来[4,5]。
由于高质量参考植物基因组的成本效益不断提高以及用于基因簇预测的计算工具的发展,现在可以很容易地识别植物中的基因簇。尽管取得了这些进展,我们对基因簇调控机制的理解仍然有限。虽然簇内的基因在特定组织中常常共同表达,但尚不清楚多个功能无关的基因是如何实现这种协调表达的。一个可能的答案在于这些基因簇周围的调控环境。在这篇综述中,我们重点介绍了对植物BGC调控机制的最新认识,并探讨了被称为超级增强子(SEs)的主要调控元件是否可能是植物BGC转录调控的普遍特征。
节选
真核生物中邻近基因的共同表达和调控
在模式动物系统中,已有大量文献记载邻近基因常常作为一个整体共同表达[8, 9, 10, 11, 12, 13, 14, 15]。然而,局部聚集基因共同调控的分子机制仍不甚清楚。一种解释是“表达搭便车”现象——类似于遗传学中的“搭便车”——即一个基因表达的变化会影响邻近基因的表达[16]。高表达或低表达基因的簇
哺乳动物物种中同源基因簇的增强子介导的转录调控
β-珠蛋白基因座是研究哺乳动物物种中HGCs转录调控的经典模型。该基因座由五个基因线性排列组成,并由一个基因座控制区(LCR)控制。β-珠蛋白LCR包含几个位于基因簇上游的DNase I高敏感位点(DHSs),覆盖大约20–30 kb的范围[29]。从功能上看,LCR类似于哺乳动物的SE,因为它由多个单独的增强子组成[30]。LCR的删除
植物中与生物合成途径相关的基因簇
在早期的一项研究中,Lee和Sonnhammer(2003年)分析了五种模式植物和动物的基因组,包括拟南芥(A. thaliana),以评估属于同一代谢途径的基因的聚集情况。令人惊讶的是,30–98%(在拟南芥中约为50%)的代谢途径表现出比随机预期更高的聚集程度[1]。在过去的二十年里,大量研究表明,与同一生物合成途径相关的基因聚集是一种普遍现象
拟南芥(A. thaliana)中与BGCs相关的SEs
已经开发了几种用于识别植物基因组中BGCs的计算工具,包括plantiSMASH [42]、PhytoClust [43] 和 PlantClusterFinder [44]。在拟南芥中,plantiSMASH预测出总共64个BGCs(
https://plantismash.bioinformatics.nl/)。这个列表包括几个研究较为深入的BGCs,如thalianol簇[38]、arabidiol/baruol簇[45]和marneral簇[45,46]。
可以预测包括SEs在内的转录增强子的基因组位置
与拟南芥(A. thaliana)中BGCs相关的拓扑关联域(TADs)
拓扑关联域(TAD)是一种基因组区域,其特征是内部染色质相互作用频繁,即该区域内的DNA序列彼此之间的相互作用比与域外序列的相互作用更频繁[58]。TADs代表自相互作用的染色质块,是划分基因组为不同功能区间的基本结构单位。重要的是,TADs创建了隔离的调控环境,使增强子和其他
与SEs相关的DNA序列特征
在拟南芥(A. thaliana)预测的BGCs中鉴定出的27个SEs为我们探索与这些长顺式调控元件相关的基因组特征提供了机会。我们之前发现,与thalianol BGC相关的5.6-kb SE包含两对重复序列,长度分别约为550 bp和300 bp。这些重复序列可能是由于转座子插入引发的重排而产生的[57]。类似的序列重复现象也
SEs调控BGCs的功能验证
有多种方法可以用来验证预测的SEs在调控BGCs中的功能作用。如果可以从BGC活跃表达的同一起始组织中获得Hi-C或micro-C数据,那么可以检测到连接SE和各个簇基因的染色质环。这些环提供了物理和潜在调控相互作用的间接证据。也可以使用传统的报告基因测定法来测试假定的SEs[48,69]。然而,这些转基因测定方法并不能揭示
结论性意见和未来方向
增强子和SEs在哺乳动物的多个HGCs以及植物的BGCs的转录调控中起着核心作用。多个基因的精确、组织特异性的共同表达可能依赖于众多转录因子(TFs)[74, 75, 76?]的协调活动,以及转录激活因子、抑制因子、染色质修饰剂和其他调控蛋白(图2)。单个增强子通常只跨越几百个碱基对,可能无法容纳
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文所述的工作。
致谢
本研究得到了美国国家科学基金会的资助,项目编号为MCB-1412948和IOS-2029959,资助者为J.J.