《Plants》:A Genome-Wide Pseudogene Map Reveals the Asymmetric Evolution of the A, B, and D Subgenomes in Common Wheat
Haifeng Zhu,
Hao Tang,
Yang Li,
Ning Yang,
Qin Wang,
Fan Yang,
Hongshen Wan,
Wuyun Yang,
Jun Li and
Zehou Liu
编辑推荐:
本研究基于IWGSC RefSeq v2.1参考基因组,首次对六倍体普通小麦(Triticum aestivum L.)进行了全基因组假基因的鉴定、分类与系统性分析。研究发现,B亚基因组在假基因丰度、进化动态等方面与A、D亚基因组存在显著不对称性,且假基因形成与转座子(TE)活动密切相关。这项工作不仅为理解多倍体基因组进化提供了直接证据,也为其他复杂多倍体作物的研究提供了方法论框架。
1. 引言
普通小麦是保障全球粮食安全的关键作物,其基因组为异源六倍体(AABBDD)。多倍体化后的亚基因组分化和协同进化是理解其环境适应性的核心。假基因,即因失活突变而丧失蛋白编码功能的基因拷贝,可作为追溯长期进化动态的独特遗传记录。然而,先前对小麦假基因的研究多局限于单个基因家族,阻碍了我们对A、B、D亚基因组间长期进化动态的理解。
2. 结果
2.1. 假基因的全基因组鉴定与分类
研究利用IWGSC RefSeq v2.1参考基因组,共鉴定出79,285个假基因。其中,单位假基因和片段化假基因是主要类型,分别占36.88%和29.51%。这表明小麦中假基因的形成主要由基因退化和片段化驱动。
2.2. 假基因的全基因组分布特征
假基因的分布在亚基因组、染色体和基因组区域层面表现出差异。
- •
亚基因组水平:B亚基因组的假基因总数最高,但D亚基因组在长度校正后的假基因密度最高。
- •
基因组区域:超过90.7%的假基因集中在基因间区,而位于内含子和外显子区的均少于1%。
- •
染色体水平:多数假基因(尤其是DUP和FRAG类型)的分布与功能基因一致,集中在基因密集的端粒区域。而逆转录假基因的分布则与富含转座子的区域高度重叠。
2.3. 假基因的进化动态
同线性分析揭示了亚基因组间的显著不对称性。B亚基因组的基因丢失或假基因化事件比例最高,表明其具有相对较高的遗传不稳定性。选择压力分析显示,所有亚基因组假基因的Ka/Ks比值均小于0.5,且亚基因组间存在显著差异,表明假基因并非严格中性进化,而是受到净化选择(纯化选择)的约束。
假基因形成的时间分布曲线在三个亚基因组中均呈现出三个峰值(约3.24–3.68、18.78–20.18和32.31–32.91百万年前),这与小麦已知的近期多倍体化事件(0.8-1.5百万年前和8000-10000年前)并不一致,表明大规模的假基因积累是延迟的、选择性的长期过程,而非近期多倍体化的直接后果。
2.4. 假基因与其亲本基因的比较特征
不同假基因类型与亲本基因的序列一致性存在显著差异。全长重复假基因在高一致性区间占比过高,而片段化假基因在0.7–0.8一致性范围内富集显著。
序列覆盖度分析也显示,全长类型假基因覆盖度最高,而片段化假基因覆盖度最低。重复来源的假基因比逆转录假基因具有更高的覆盖度和序列一致性,这与“一经产生即失效”的假说相符。
2.5. 不同假基因类型亲本基因的功能分化
基因本体和KEGG通路富集分析揭示了不同假基因类型亲本基因潜在功能的特异性。
- •
重复假基因的亲本基因在植物-病原体互作通路中显著富集。
- •
逆转录假基因和片段化假基因的亲本基因则显著富集于剪接体通路,表明它们起源于参与转录后调控过程的亲本基因。
- •
单位假基因的亲本基因在氧化磷酸化通路中显著富集。
2.6. 假基因中保守结构域的特征及亲本基因的功能偏好
对假基因序列推导蛋白的保守结构域注释发现,高频出现的结构域主要与三大功能类别相关:移动遗传元件相关蛋白、疾病抗性与免疫信号相关蛋白、以及转录与发育调控蛋白。值得注意的是,这些假基因的种内亲本基因普遍表现出显著的组织特异性表达模式,表明普通小麦的假基因化过程主要影响了在特定时空条件下发挥功能的“非核心”功能基因。
3. 讨论
3.1. 优势假基因类型与转座驱动的起源机制
单位假基因和片段化假基因是小麦中的优势类型。保守结构域分析揭示,约62%的假基因序列含有与转座活动相关的结构域,表明转座元件是假基因化的核心驱动力。这直接解释了为何基因组中间源定位的假基因比例极低。
3.2. 亚基因组假基因的进化不对称性
B亚基因组拥有最多的假基因数量,其基因丢失和假基因化事件频率也显著高于D亚基因组。其独特的进化模式可能与其供体物种更早的分化历史有关。这些历史因素促进了B亚基因组中基因复制事件的发生,积累了更多功能冗余的基因拷贝,为假基因化提供了“原料”。
3.3. 假基因形成的时间动态及其与古代基因组事件的关联
假基因形成的三个古老峰值可能记录了祖先谱系在地质时期经历的基因组剧变,而非近期多倍体化的直接结果。最早的峰值可能与禾本科早期进化中的古老多倍体化事件及其漫长的二倍体化过程有关。
3.4. 哪些基因更容易发生假基因化?
假基因化具有明确的功能选择性。假基因的亲本基因显著富集于与环境适应相关的功能类别,如防御反应、细胞壁修饰、次级代谢和蛋白质降解等。这与在拟南芥、水稻等其他植物中的发现一致,反映了整个植物界的一条保守规则:核心看家基因受到强烈的净化选择约束,而与环境相关的基因进化更快,对功能丢失的耐受性更高,因此是假基因化的主要目标。
4. 材料与方法
(此部分为方法学概述,具体步骤从略)研究以中国春小麦的IWGSC RefSeq v2.1参考基因组为核心数据集,通过多步骤策略鉴定假基因,并进行了多维分布分析、功能富集分析、假基因-亲本基因关联分析及系统进化分析。
5. 结论
本研究首次对普通小麦A、B、D亚基因组的假基因进行了系统性全基因组鉴定与分类。研究发现,单位假基因和片段化假基因是小麦中的优势类型,转座元件是假基因化的核心驱动力。假基因的进化在三个亚基因组间表现出显著的不对称性,B亚基因组表现出更高的遗传不稳定性。小麦假基因并未严格中性进化,而是受到净化选择的约束。假基因的形成呈现出三个古老峰值,可能与祖先谱系经历的基因组剧变相关。假基因化过程具有明确的功能选择性,其亲本基因显著富集于环境适应相关的功能通路。这项工作为解析小麦多倍体基因组的进化机制提供了重要的实证依据,并为相关复杂多倍体作物的研究提供了方法论框架和理论参考。