《Physiologia Plantarum》:High-Quality Genome Assembly and Annotation of Ceratonia siliqua Provide Insights Into the Secondary Loss of Symbiotic Nitrogen Fixation
编辑推荐:
本文报道了首个染色体级的长角豆(Ceratonia siliqua L.)高质量基因组(501.39 Mb,scaffold N50 39.58 Mb),通过比较基因组学与系统发育分析,结合关键固氮结瘤基因(如NIN和RPG)的假基因化证据,揭示了这一地中海重要豆科植物共生固氮能力的二次丢失现象。这项研究为理解豆科植物对地中海气候的适应性进化、关键性状的退化以及植物-微生物共生关系的演变提供了宝贵的基因组资源。
1 引言
长角豆(Ceratonia siliqua L.)是一种常绿豆科植物,原产于西亚,并在整个地中海盆地被广泛种植。它因其耐旱性、营养丰富的豆荚以及生态价值而受到重视。尽管具有经济和环境重要性,但该物种的基因组资源一直较为有限。此外,关于长角豆是否具有共生固氮能力,即能否形成固氮根瘤(Nitrogen-Fixing Root Nodules, NFN),在生态学观察中存在争议。一些研究未能检测到根瘤,而另一些则报告了其存在。这种矛盾凸显了对长角豆结瘤潜力进行进一步分子和生态学研究的必要性。本研究旨在通过对一个克里特岛本地栽培品种进行高通量测序,组装并注释首个高质量的长角豆基因组,以解析其基因组结构、进化历史,并探究其共生固氮能力的分子基础。
2 材料与方法
研究选取了克里特岛潘诺尔莫地区的一个本土雌性长角豆栽培品种作为测序材料。样本包括用于DNA提取的叶片和用于RNA提取的幼叶及雌蕊。
2.1 基因组测序与组装
利用PacBio HiFi长读长测序技术和Hi-C染色质构象捕获技术对基因组进行测序。共获得了52.67 Gb的HiFi数据(约105倍覆盖度)和204.65 Gb的Hi-C数据(约408倍覆盖度)。使用Hifiasm进行de novo组装,并利用Hi-C数据通过YaHS进行染色体挂载,最终获得了包含12条假染色体(对应于其单倍体染色体数2n=24)的染色体级别组装。
2.2 基因组注释与重复序列分析
使用BRAKER流程结合RNA测序(RNAseq)数据和植物同源蛋白数据进行基因预测。同时,利用RepeatModeler、RepeatMasker和EDTA套件对基因组中的转座元件(Transposable Elements, TEs)和其他重复序列进行鉴定和注释。
2.3 比较基因组学与进化分析
将长角豆的预测蛋白质组与其他24种植物的蛋白质组(包括18种豆科植物和6种非豆科植物)进行比较,使用OrthoFinder进行同源基因簇(orthogroup)分析和物种树构建。
2.4 种群历史推断
利用成对顺序马尔可夫合并模型(Pairwise Sequentially Markovian Coalescent, PSMC),基于本研究的长角豆个体和一个已发表的摩洛哥长角豆个体的基因组数据,推断其历史上的有效种群大小(Ne)波动。
2.5 共生固氮相关基因分析
从已发表的文献中获取与共生固氮相关的植物基因序列,通过tBLASTn搜索长角豆基因组,并对关键基因(如NODULE INCEPTION (NIN)和RHIZOBIUM-DIRECTED POLAR GROWTH (RPG))的基因模型进行手动检查和注释,评估其完整性与功能状态。
3 结果与讨论
3.1 长角豆高质量基因组组装与注释
最终的长角豆基因组组装大小为501.39 Mb,包含116个重叠群(contigs),scaffold N50达到39.58 Mb。组装被锚定到12条假染色体上,仅含有7个缺口。基因注释预测出30,295个蛋白质编码基因模型(包括异构体),对应26,547个独特基因。使用胚胎植物(Embryophyta)数据集进行BUSCO评估,完整性高达99.5%。该基因组的GC含量为33.33%,并在24条染色体末端中的18条上鉴定到了端粒重复序列CCCTAAA。
3.2 转座元件景观与重复序列组成
长角豆基因组中约有52.23%(约257.6 Mb)被重复序列占据。其中,长末端重复序列(Long Terminal Repeat, LTR)反转座子最为丰富,占基因组的27.09%,主要由Gypsy和Copia超家族组成。其他重复序列类别如DNA转座子、LINEs、SINEs等所占比例较低。
3.3 跨25种植物的同源性与基因家族进化
同源性分析显示,长角豆的基因内容与其他被分析的植物物种高度保守。值得注意的是,长角豆、小麦(Triticum aestivum)和豌豆(Pisum sativum)拥有相对较大比例的物种特异性基因,这可能与它们各自的谱系特异性适应有关。
3.4 基于PSMC分析的长角豆种群历史推断
PSMC分析揭示了克里特长角豆与摩洛哥长角豆不同的种群历史。摩洛哥种群在历史上维持了更大的有效种群大小,但大约在5万年前,两个种群的Ne轨迹趋于一致,表明它们在更近的演化时期可能经历了共同或相似的种群历史事件。
3.5 共生固氮相关基因分析
基因组分析为长角豆共生固氮能力的丧失提供了关键分子证据。在长角豆基因组中,结瘤起始的关键调控基因NIN无法被识别出完整的基因模型,仅能找到一些碎片化的同源序列,表明其很可能已经丢失或高度分化。另一个关键基因RPG虽然存在,但相对于其他结瘤豆科植物,其编码的蛋白质序列存在显著的结构变异,包括一个长达300个氨基酸的大片段插入,以及由于无义突变导致最后一个外显子被分割而产生的C端约34个氨基酸的缺失(最初被忽略,因为它位于由无义突变产生的最后一个内含子内)。这些结构异常表明,RPG在长角豆中很可能已经假基因化。由于NIN和RPG是建立共生根瘤所必需的基因,它们在长角豆中的功能丧失,从基因组角度支持了该物种不具备形成功能性固氮根瘤能力的假设。这一推论与早期的生态学观察(在野外未能检测到根瘤和固氮活性)以及自然丰度15N研究结果(在田间条件下未检测到来源于生物固氮的氮素)相一致。长角豆更倾向于形成丛枝菌根(Arbuscular Mycorrhizal)共生关系以协助营养获取。RPG基因尚未完全假基因化的状态提示,长角豆可能正处于共生固氮能力丢失的进化过渡阶段。这一现象与固氮结瘤进化研究中“单次起源,多次丢失”的主流观点相符,即长角豆共生固氮能力的缺失是祖先性状的二次丢失。
4 结论
本研究成功构建了首个染色体级别的长角豆高质量参考基因组,填补了该重要物种的基因组学资源空白。通过深入的比较基因组学和进化分析,揭示了其基因组结构、重复序列组成和种群历史动态。尤为重要的是,研究通过基因组证据(NIN缺失和RPG假基因化)结合生态学观察,有力地支持了长角豆的共生固氮能力已发生二次丢失的假说。这一发现不仅增进了我们对豆科植物关键性状(如共生固氮)进化可塑性的理解,也为进一步研究地中海地区豆科植物对环境适应的分子机制、共生关系的建立与丢失,以及长角豆作为耐旱作物的遗传改良提供了坚实的基因组基础和新的研究方向。