《The Plant Genome》:A chromosome-scale genome of Sarracenia purpurea reveals a significant expansion of plant defense and stress response gene families following paleopolyploidization
编辑推荐:
研究人员为探究食肉植物进化的遗传机制,对紫瓶子草(Sarracenia purpurea)进行了基因组测序与组装,获得了首个来自杜鹃花目(Ericales)的食肉植物染色体水平基因组(3.41 Gbp),也是迄今最大的食肉植物基因组。分析发现,该基因组在约81-84百万年前经历了一次古全基因组加倍(WGD)事件,导致了33个涉及植物防御和胁迫响应代谢与调控通路的基因家族扩张。这些通路的互作网络构成了该物种食肉性的遗传基础。比较基因组学分析表明,基因获得(而非丢失)是紫瓶子草功能创新和适应的主要驱动力,并鉴定出在不同食肉植物谱系中可能共同促进食肉性状进化的关键直系同源基因簇(Orthogroups)。这项研究为揭示植物食肉性的遗传基础提供了关键基因组资源,对理解植物进化、生态学和功能基因组学具有广泛意义。
在亿万年的生命演化长河中,植物并非总是扮演着被动、温和的角色。至少13个独立的开花植物谱系独立演化出了令人惊叹的食肉性,从瞬间闭合的捕蝇草到静待昆虫坠落的猪笼草,它们演化出多样化的陷阱来捕捉、消化昆虫,以弥补其生长的贫瘠土壤中养分的匮乏。然而,这些奇特性状背后的遗传密码,特别是其如何从无到有地被“构建”出来,在很大程度上仍是未解之谜。紫瓶子草(Sarracenia purpurea),这种来自北美的紫色捕虫堇植物,便是研究这一奥秘的绝佳模型。它拥有瓶状的叶片用于诱捕昆虫,并依赖共生微生物群落辅助消化。尽管已有部分食肉植物(如捕蝇草、茅膏菜、猪笼草等)的基因组被测序,但作为杜鹃花目(Ericales)中唯一一个完全具备食肉性状(吸引、诱捕、消化、吸收)的科——瓶子草科(Sarraceniaceae),其遗传基础却鲜有探索。这个家族的基因组普遍巨大(单倍体基因组≥3.4 Gbp),这为获得高质量的染色体水平组装带来了巨大挑战,也阻碍了对其食肉性状的深入功能与结构基因组学研究。为了揭开瓶子草科食肉性的遗传面纱,并为比较基因组学、遗传图谱定位及宿主-微生物互作等研究提供参考,研究人员对紫瓶子草进行了全面的基因组测序、组装、注释和比较分析,相关研究成果发表于《The Plant Genome》期刊。
为开展此项研究,研究人员采用了多项关键技术。他们从温室栽培的紫瓶子草(S. purpurea venosa burkii品种)的捕虫叶中提取了高分子量核DNA和高质量总RNA。在测序方面,采用了多种技术组合以获得全面的数据:使用Pacific Biosciences (PacBio) Sequel II平台生成长读长连续读数(CLRs)用于基因组组装;利用Illumina NextSeq 2000平台产生短读长序列用于纠错和评估;通过Dovetail Omni-C技术进行染色质构象捕获测序,为支架(scaffold)构建提供染色体构象信息。此外,还通过Illumina RNA-seq、PacBio Iso-seq以及Oxford Nanopore (ONT)的cDNA和直接RNA(dRNA)测序,获取了全面的转录组数据以支持基因注释。在生物信息学分析方面,使用Canu进行初步组装,利用HiRise算法结合Omni-C数据将重叠群(contig)提升为支架,并通过AGOUTI整合RNA-seq数据进一步优化。基因注释则通过结合从头预测(ab initio)和证据支持(evidence-based)的方法,利用Funannotate流程完成。比较基因组学分析则涵盖了包括食肉植物(如澳大利亚土瓶草Cephalotus follicularis)和非食肉近缘种(如君迁子Diospyros lotus)在内的多个物种,通过OrthoFinder鉴定直系同源基因簇,利用CAFE5分析基因家族扩张与收缩,并运用WGD v2流程推断全基因组加倍事件。
3 结果
3.1 测序数据集及其利用
研究人员生成了多种测序数据集,包括用于初级组装的96X PacBio CLR reads,用于支架构建的155X Dovetail Omni-C reads,以及用于评估基因组特征的约42X DNA短读长。多种RNA测序数据(RNA-seq, Iso-seq, ONT cDNA, ONT dRNA)则用于后续的基因组注释。
3.2 基因组组装大小、连续性与完整性评估
通过k-mer和GenomeScope2分析,估计紫瓶子草的单倍体基因组大小约为3.41 Gbp。最终组装版本(Spu.v1.0)的总长度为3.332 Gbp,覆盖了约97%的估计基因组大小。该组装具有高度的连续性,其N50大于220 Mbp,L50为7。组装中约78%的序列形成了13个最大的染色体水平连续序列(C-Contigs),被视为代表了13条单倍体染色体。长末端重复序列组装指数(LAI)为20.3,表明该组装达到了“黄金”标准。BUSCO评估显示,该组装包含了92.2%的完整真双子叶植物保守基因,证明了其高度的完整性。
3.3 基因模型与注释
结合证据支持和从头预测的注释流程,共预测了52,067个基因模型,其中96%(50,013个)有直接的mRNA证据支持。平均基因密度为每兆碱基15.6个基因。此外,还通过计算预测了1705个tRNA基因和1669个rRNA基因。
3.4 蛋白质序列
对预测的基因模型进行翻译,获得了52,067条蛋白质序列。PSAURON评估显示,长度≥200个氨基酸的蛋白质序列可信度高达96.8%。约99%的预测蛋白质序列在NCBI非冗余蛋白质数据库中具有显著的BLASTp同源性,支持其编码潜力。
3.5 miRNA
共鉴定出2467个miRNA位点,编码68个miRNA家族的793个独特成员。成员数量和位点最多的家族包括miRNA166、miRNA156、miRNA171、miRNA172和miRNA167。
3.6 基因组重复序列
基因组中重复序列含量丰富。串联重复序列(TRs)覆盖约4.5 Mbp。通过RepeatModeler2识别了8402个共有转座元件(TE)家族。长末端重复反转录转座子(LTR-RT)是基因组扩张的主要贡献者,其总长度占基因组的74.42%,其中Copia类占29.23%,Gypsy类占23%,未知类别占25.70%。
3.7 染色体着丝粒与端粒
利用quarTeT算法,在13条染色体和一个大连续序列中预测了着丝粒区域,这些区域显示基因密度较低。在6条连续序列上鉴定出了端粒重复序列阵列(单体为“AAACCCT”),未能为所有染色体鉴定出端粒,表明当前组装尚未达到端粒到端粒(T2T)的完全水平。
3.8 基因同线性与复制模式
对13条染色体和一个大连续序列上的40,239个基因进行同线性分析。根据复制模式和基因组背景,基因被分为五类:单拷贝基因(8547个)、分散重复基因(20,030个)、近端重复基因(2834个)、串联重复基因(3703个)和同线/共线基因(5125个)。共识别出323个共线性区块,其中31个为染色体内区块,其余为染色体间区块。这种广泛的同线性模式是古全基因组加倍事件残留的迹象。
3.9 直系同源基因的比较分析
对紫瓶子草与另外六个物种(包括食肉的澳大利亚土瓶草Cfo和非食肉的君迁子Dlo等)进行了直系同源基因分析。在系统发育树的N0节点共推断出29,843个分层直系同源基因簇(HOGs)。紫瓶子草拥有最多数量的物种特异性HOGs(4527个)和未分配基因,这可能与其独特的适应性有关。值得注意的是,紫瓶子草与澳大利亚土瓶草这两个食肉物种共享了180个HOGs,这些可能代表了与食肉性相关的关键基因家族。
3.10 基因组分化与基因复制
利用四重简并位点颠换率(4DTv)估计了物种间的分子分化时间。紫瓶子草与其近缘非食肉物种君迁子的分化时间约为8900万年前。基因复制树显示,紫瓶子草和澳大利亚土瓶草分别经历了18,919和18,939次基因复制事件,如此高数量的复制事件暗示了多倍化历史。
3.11 全基因组加倍是基因扩张的驱动力
通过分析共线基因对的同义替换率(Ks),发现了紫瓶子草基因组经历古多倍化的证据。重复栈图显示了所有染色体上存在大量重复片段。共线性深度图显示存在约150个长度为10 Kbp、最少包含30个基因、共线比例为2:2的片段,表明至少经历了一次古WGD。Ks分布图在0.51处有一个显著峰。通过系统发育定年,估计这次WGD事件发生在大约8150万至8450万年前(中位数81.77,众数84.54百万年前)。
3.12 紫瓶子草基因组中的基因家族扩张与收缩
比较基因组学分析共鉴定出11,191个发生扩张或收缩的基因家族。在紫瓶子草基因组中,5457个基因家族发生了改变,其中96个家族显著扩张,848个家族显著收缩。这些显著扩张的基因家族富集在与植物防御和胁迫响应相关的七条代谢和调控通路中,包括苯丙烷生物合成、植物-病原互作、MAPK信号通路、植物激素信号转导、昼夜节律、ABC转运蛋白和谷胱甘肽代谢。对这33个扩张基因家族的功能分析表明,它们形成了一个调控网络,共同构成了紫瓶子草食肉性的遗传基础。
4 结论与讨论
本研究成功完成了紫瓶子草染色体水平的高质量基因组组装和注释(Spu.v1.0)。这是来自杜鹃花目的首个食肉植物基因组,也是迄今为止已测序的最大的食肉植物基因组。该基因组组装高度连续、完整,为后续研究提供了可靠的参考框架。
研究揭示了紫瓶子草基因组的几个关键特征。首先,其巨大的基因组尺寸(3.41 Gbp)主要由长末端重复反转录转座子(LTR-RT)的增殖驱动。其次,也是最关键的发现,基因组中存在约81-84百万年前发生的一次古全基因组加倍事件的有力证据。这次WGD事件并非随机地增加基因拷贝数,而是特异性地导致了33个基因家族的扩张。功能富集分析表明,这些扩张的家族并非直接与消化或捕食相关,而是富集于苯丙烷生物合成、植物-病原互作、MAPK信号、植物激素信号、昼夜节律、ABC转运蛋白和谷胱甘肽代谢这七条核心的植物防御和胁迫响应通路。这揭示了一个重要的进化机制:食肉性在紫瓶子草中的演化,很可能不是通过创造全新的“食肉基因”,而是通过“征用”和扩张已有的、用于防御和响应生物/非生物胁迫的遗传工具包来实现的。WGD为这些基因的复制和功能分化提供了原材料,使其能够被重新用于吸引、困住、消化猎物以及吸收养分等新的生理功能。
比较基因组学分析进一步支持了这一观点。基因获得(gain)而非基因丢失(loss),被确定为紫瓶子草功能创新和适应的主要驱动力。研究还鉴定出了一些在两个独立进化出瓶状陷阱的食肉物种(紫瓶子草和澳大利亚土瓶草)中共享的直系同源基因簇,它们可能代表了食肉性状趋同进化下的功能保守基因家族。
这项研究具有多重重要意义。在基础科学层面,它首次提供了瓶子草科食肉植物的高质量基因组资源,为在系统发育框架下深入解析植物食肉性的遗传机制、进化历程和生态适应性打开了大门。所鉴定的扩张基因家族及其构成的防御/胁迫响应网络,为理解“基因征用”和全基因组加倍在塑造复杂新性状中的作用提供了经典案例。在应用层面,该基因组可作为遗传图谱的参考,用于定位与食肉形态、宿主-微生物互作相关的数量性状位点(QTL),并有助于探索紫瓶子草已报道的抗病毒、抗菌等药用特性的分子基础。总而言之,紫瓶子草基因组如同解开植物食肉之谜的一把关键钥匙,其揭示的通过基因组加倍和防御基因网络重塑来实现生态创新的途径,极大地丰富了我们对植物进化可塑性的认识。