《The Crop Journal》:A haplotype-resolved genome assembly for
Centella asiatica provides insights into its genome evolution and ursane-type triterpene accumulation
编辑推荐:
针对积雪草中主要药用成分乌苏烷型三萜皂苷(如积雪草苷和羟基积雪草苷)的生物合成遗传基础不明、高质量基因组资源缺乏等问题,本研究构建了高质量的积雪草单倍型基因组,揭示了其基因组结构特征、进化历史(经历一次全基因组复制WGD及后续染色体融合),并发掘了参与乌苏烷型三萜皂苷积累的关键基因家族(如OSCs、CYP450s、UGTs)。该研究为深入理解积雪草药用成分多样性及伞形科植物基因组进化提供了重要资源。
在大自然中,许多植物不仅是风景的点缀,更是人类宝贵的“药箱”,它们体内合成的复杂化合物构成了许多现代药物的源头。积雪草,这种在伞形科中具有重要地位的药用植物,便是其中之一。它所合成的积雪草苷和羟基积雪草苷等乌苏烷型三萜皂苷,被证实具有保护心肌细胞、神经、延缓细胞衰老等多种生物活性,是化妆品和医药行业的重要原料。然而,这些宝贵成分在植物体内含量极低,提取困难,限制了其广泛应用。更重要的是,科学家们对于是什么基因、以怎样的“流水线”方式驱动积雪草合成这些独特的三萜皂苷,其基因组经历了怎样的演化历程才塑造出如今的特性,仍知之甚少。现有的基因组参考序列,往往无法区分来自父本和母本的两套染色体(即单倍型)的差异,从而掩盖了大量可能与功能、表达相关的等位基因信息。为了解开积雪草药用价值背后的遗传密码,并为相关育种和合成生物学研究奠定基础,来自海南大学的研究团队在《The Crop Journal》上发表研究,为积雪草构建了高质量的单倍型基因组,并深入探究了其基因组演化与乌苏烷型三萜皂苷累积的奥秘。
为了开展这项研究,研究人员综合运用了多项关键技术。他们首先利用PacBio Sequel II平台对积雪草混合组织的DNA进行高通量测序,获得了高精度的HiFi长读长序列,同时结合Illumina MGISEQ-T7平台产生的Hi-C数据,利用Hifiasm等软件成功组装出了两个单倍型分型的基因组(分别命名为Ca. Hap1和Ca. Hap2),并将其锚定到9条假染色体上。随后,他们利用多种生物信息学工具对基因组进行了注释,包括重复序列预测、蛋白质编码基因预测与功能注释,并利用多组学整合分析,通过对叶、茎、根三种组织的代谢组和转录组进行联合分析,构建了代谢物-基因的调控网络。最后,他们通过in vitro酶活实验,对从网络中筛选出的候选糖基转移酶基因进行了功能验证。
研究结果
3.1. 单倍型基因组组装与注释
研究成功组装了积雪草的单倍型基因组。分析显示,Ca. Hap1和Ca. Hap2的基因组大小分别约为439.77 Mb和436.92 Mb,各包含9条染色体。基因组质量评估指标(如QV值、LAI值、BUSCO完整性)均表明该组装具有高质量。两个单倍型中分别注释出38,825和38,383个蛋白质编码基因,重复序列(特别是LTR反转录转座子)占基因组总长的比例超过57%,表明积雪草基因组富含重复序列。
3.2. 单倍型间变异、端粒和着丝粒的鉴定
与已发表的端粒到端粒(T2T)基因组相比,Ca. Hap1存在大量单核苷酸多态性(SNP)和40个染色体倒位区域。然而,两个单倍型自身之间则表现出高度的共线性,结构变异极少。研究人员在所有染色体末端都鉴定到了端粒区域,并预测了各染色体上的着丝粒位置。
3.3. Ca. Hap1与Ca. Hap2之间的等位基因失衡
尽管两个单倍型序列保守,但存在显著的等位基因失衡现象。研究人员从共线性区块中鉴定出35,737对等位基因,其中2,443对编码不同的氨基酸序列。通过对不同组织(叶、茎、根)的转录组分析,发现有536对等位基因呈现表达失衡,这些基因在单倍型间存在偏向性表达,形成两个不同的基因簇。研究还展示了一个具体例子(Hap1_Ceasi03g150560/Hap2_Ceasi03g151510),其编码的蛋白质序列高度相似但存在多个非同义SNP,且其中一个等位基因在所有组织中均占主导表达。
3.4. 系统基因组分析与基因家族进化
通过与其他11种植物的比较基因组学分析,构建了系统发育树,估算了物种分化时间。结果显示,积雪草与伞形科其他物种在大约4690万年前发生分化,是一个早期分化的物种。在积雪草中,发现了632个扩张的基因家族和5,098个收缩的基因家族。扩张的基因家族富集于植物激素信号转导、光合作用-天线蛋白通路以及细胞色素P450(CYP450)介导的药物代谢等途径,这可能与其强大的再生能力、无性繁殖特性以及三萜皂苷的生物合成能力相关。
3.5. 基因组进化分析与古真双子叶植物核型重建
同义替换率(Ks)分布分析表明,积雪草在其进化史上经历了一次古老的γ全基因组三倍化(WGT)事件和一次后续的Ca-α全基因组复制(WGD)事件,其中Ca-α WGD事件是伞形科植物共有的。基因复制模式分析显示,分散复制(DDG)是积雪草基因复制的主要方式。通过以仅经历γ WGT事件的葡萄基因组为参考,研究重建了由7条染色体组成的古真双子叶植物祖先核型(AEK),并推断积雪草等物种的9条染色体是经历WGD/WGT事件后,通过复杂的染色体融合和重排过程形成的。
3.6. 不同组织类型的代谢谱分析与基因表达
通过对叶、茎、根三种组织的代谢组学分析,共检测到563种代谢物。主成分分析显示不同组织的代谢物积累模式存在明显差异。转录组分析鉴定了6,738个差异表达基因(DEG),其中叶与根之间的差异最显著。结合代谢组与转录组数据,研究人员构建了一个包含6,738个DEG和196个差异积累代谢物(DAM)的代谢调控网络,为挖掘药用成分合成的关键基因奠定了基础。
3.7. 串联重复的CaUGT73s对三萜皂苷生物合成的贡献
从上述调控网络中,研究人员聚焦于积雪草苷和羟基积雪草苷生物合成途径相关的基因。他们发现在8号染色体末端存在一个包含9个UGT73家族基因的串联重复基因簇,其中包含已验证功能的CaUGT1和CaUGT73AD1。研究人员克隆了该簇中一个未验证的基因CaUGT73CL69并进行体外酶活实验。结果表明,CaUGT73CL69能够以UDP-葡萄糖为糖供体,催化积雪草酸和羟基积雪草酸分别生成其一葡萄糖苷,但其与CaUGT1对两种底物表现出不同的催化偏好性。
3.8. WGD/WGT和串联基因复制维持了积雪草中乌苏烷型三萜皂苷的多样性
对已验证的参与乌苏烷型皂苷合成的基因(包括OSCs、CYP450s、UGTs、RRTs)进行分析发现,它们分布在多条染色体上,未形成典型的代谢基因簇,但存在串联重复现象。例如,参与糖链第一轮葡萄糖修饰的CaUGT73s基因形成两个串联基因簇(位于3号和8号染色体),这两个簇所在的染色体区域高度共线性,提示它们可能源于复制事件。参与第二轮葡萄糖修饰和鼠李糖修饰的CaUGT94s和CaRRTs基因也经历了WGD/WGT和串联复制。这些复制事件增加了相关基因的拷贝数,促进了多种乌苏烷型皂苷的合成。
3.9. CYP716C11的进化塑造了积雪草的现代药用化学型
催化积雪草酸合成的关键酶基因CaCYP716C11起源于Ca-α WGD事件,但其在2号染色体上的同源基因因DNA序列变异(插入一个T导致形成终止密码子)而丢失。系统发育分析表明,CYP716C11在五加科植物刺五加中仍存在同源基因,但在伞形科的胡萝卜等物种中已丢失。这表明积雪草现代药用化学型的形成,是祖先基因在特定谱系中被保留并获得新功能的结果。
研究结论与讨论
本研究成功构建了高质量的积雪草单倍型基因组,为深入探究其遗传特性提供了前所未有的资源。基因组分析揭示了积雪草基因组的特征,如高比例的重复序列和显著的等位基因表达失衡现象,后者可能是物种进化的重要遗传基础。进化分析表明,积雪草经历了一次古老的γ-WGT和一次伞形科共享的Ca-α WGD事件,后续的染色体融合与重排最终形成了其当前的9条染色体核型。
研究的核心发现在于阐明了乌苏烷型三萜皂苷多样性的遗传驱动机制。研究表明,全基因组复制(WGD)、全基因组三倍化(WGT)以及串联基因复制是增加三萜皂苷生物合成途径关键基因(尤其是UGT73s、UGT94s和RRTs)拷贝数的主要力量。这些额外的基因拷贝通过序列和功能分化,促进了多种糖链修饰的可能性,从而造就了积雪草中丰富多样的乌苏烷型皂苷。同时,研究验证了新的糖基转移酶基因CaUGT73CL69的功能,并揭示了CYP716C11这一关键氧化酶基因的进化轨迹,指出其同源基因的丢失与保留是塑造积雪草独特药用化学型的关键事件之一。
这项研究的意义重大。首先,所提供的单倍型基因组填补了高质量积雪草基因组资源的空白,特别是揭示了以往混合基因组所掩盖的等位基因差异。其次,研究从基因组演化角度,系统解析了乌苏烷型三萜皂苷生物合成途径的扩张机制,为通过合成生物学或分子育种手段提高目标皂苷产量提供了关键的候选基因靶点和理论依据。最后,研究重建的祖先核型及染色体演化模型,增进了对伞形科乃至真双子叶植物基因组进化规律的理解。总之,该工作不仅解码了“草药明星”积雪草的遗传蓝图,也为利用基因组学工具挖掘和利用植物药用活性成分树立了典范。