《Genomics》:Haplotype-resolved genome assembly of
Musella lasiocarpa reveals the critical role of structural variations in chromosomal and genome evolution
编辑推荐:
本研究针对濒危物种地涌金莲(Musella lasiocarpa, MLA)的基因组进化与抗寒机制展开,通过PacBio HiFi、ONT长读长测序与Hi-C技术,首次完成其单倍型分辨、端粒到端粒的高质量基因组组装(基因组大小约503.6 Mb,重复序列占比52.8%)。研究鉴定出134 bp的着丝粒重复序列Mlcen、45S/5S rDNA分布及冷胁迫响应基因,并通过比较基因组学揭示MLA与Ensete、Musa的进化关系(分化时间约42–57 Mya)。该组装为揭示结构变异(SV)、重复序列动态及其在香蕉、象腿蕉等作物抗逆育种中的价值提供了关键资源。
地涌金莲(Musella lasiocarpa)是分布于中国云南、四川等西南高海拔地区的珍稀观赏兼饲用植物,也是芭蕉科(Musaceae)中耐寒性突出的物种。然而,其基因组信息长期缺失,限制了对其染色体进化、抗逆机制及物种多样性的深入解析。为解决这一问题,研究人员利用PacBio HiFi、牛津纳米孔(ONT)长读长测序结合Hi-C技术,首次完成了地涌金莲的单倍型分辨、端粒到端粒基因组组装,获得大小分别为500.05 Mb(MLAh1)和498.37 Mb(MLAh2)的两套单倍型基因组,覆盖度超过99%,BUSCO完整性评估达98%以上。该成果发表于《Genomics》,为芭蕉科植物基因组进化、抗寒基因挖掘及作物改良提供了高精度参考基因组。
关键技术方法包括:基于PacBio HiFi和ONT长读长测序(测序深度62–204×)进行初步组装,辅以Hi-C数据构建染色体级别支架;利用RepeatMasker、EDTA等软件注释重复序列;采用RNA-seq辅助与同源比对策略完成基因结构预测;通过OrthoFinder、MCScanX等工具开展比较基因组与共线性分析;结合荧光原位杂交(FISH)验证着丝粒、端粒及rDNA位点分布;对低温处理(15°C,48 h)样本进行转录组测序,筛选差异表达基因。
2.1. De novo单倍型分辨基因组组装
研究成功构建了MLA的两套单倍型基因组(MLAh1和MLAh2),各包含9条伪染色体,长度在40.91–59.46 Mb之间。通过同源比对确定染色体身份与方向,并以contig N50更优的MLAh1作为参考基因组。
2.2. 基因组组装质量评估
组装完整性高,着丝粒区域鉴定出134 bp串联重复序列Mlcen(与Ensete glaucum的Egcen同源性达98%),36个染色体末端中30个检测到端粒序列。Hi-C互作图谱显示清晰的对角线信号,证实组装准确性。
2.3. 基因注释与表达分析
2.3.1. 基因预测与功能注释
在MLAh1和MLAh2中分别注释到35,387和35,237个蛋白编码基因,其中约94%的功能获得注释。基因密度在着丝粒附近较低,向染色体末端递增。
2.3.2. 基因家族扩张与收缩
与13种单子叶植物比较发现,MLA中154个基因家族(涉及1618个基因)显著扩张,162个家族(346个基因)收缩。扩张基因富集于“光合作用/光反应”通路。
2.3.3. 冷处理下的差异基因表达
低温胁迫下,地涌金莲两个变种(黄苞和红苞)分别鉴定出3151和3726个差异表达基因(DEG),其中88个基因共同上调,1470个共同下调。上调基因富集于环境适应与DNA修复通路,下调基因主要参与光合作用等基础代谢过程。鉴定出48个差异表达转录因子(如CBF、ERF、WRKY等),构成冷应答核心调控模块。
2.4. 单倍型间共线性与结构变异
染色体末端区域共线性高,而近着丝粒区域因重复序列积累存在大量结构变异(倒位、易位、重复)。45S rDNA位点位于MLA06和MLA08末端,与MuTR串联重复共定位。
2.5. 重复序列分析
2.5.1. 反转座子
LTR反转座子占比34.40%,其中Copia(14.5%)和Gypsy(11.9%)为主。插入时间分析显示近期(0.46 Mya)和古老(3 Mya)两次爆发。
2.5.2. 端粒
30个染色体末端检测到端粒序列(TTTAGGG)n,但rDNA相邻末端在组装中部分缺失,FISH证实其存在。
2.5.3. 着丝粒
Mlcen为GC含量46.6%的134 bp单体,占基因组2.33%,其阵列在部分染色体被基因或反转座子打断。
2.5.4. rDNA
5S rDNA位于MLA05右臂,呈两段分离阵列;45S rDNA位于MLA06和MLA08末端,单体长8347 bp,含退化MuTR重复。
2.6. 共线性与核型进化
MLA与Ensete glaucum(EGL)共线性高,但与Musa acuminata(MAC, x=11)存在大量重排。系统发育分析表明,MLA与Ensete约在42 Mya分化,二者共同在57 Mya前与Musa分离。
研究结论强调,地涌金莲单倍型基因组揭示了结构变异(SV)和重复序列动态在驱动染色体进化、抑制重组及促进物种分化中的关键作用。其抗寒相关基因(如CBF途径转录因子)为香蕉、象腿蕉等作物的抗逆育种提供了候选靶点。该高质量基因组资源不仅深化了对芭蕉科植物基因组结构的认识,也为利用野生种质改良栽培品种的耐寒性、抗病性奠定了理论基础。