《Ecological Genetics and Genomics》:GC-Biased Codon Usage and Dinucleotide Signatures Reveal Selection on
Pi-ta Blast Resistance Gene Alleles in
Oryza spp.
编辑推荐:
本研究分析68个验证的Pi-ta基因编码序列,揭示Oryza属中Pi-ta基因的密码子偏好、GC含量分布及二核苷酸特征,发现其密码子使用非随机且受选择压力调控,为抗性基因优化和进化研究提供框架。
Bhaskar Dowarah | Rafiul Amin Laskar | Anurag Kashyap | Bijoy Neog
印度阿萨姆邦迪布鲁加尔大学生命科学系 - 786004
摘要
Pi-ta抗稻瘟病基因是Oryza育种计划中最广泛应用的核苷酸结合亮氨酸富集重复(NLR)位点之一,但其同义变异和组成演化机制仍知之甚少。在本研究中,我们分析了从256个GenBank记录中整理出的68个经过完整性验证的Pi-ta编码序列(CDS),以探讨整个Oryza属中的密码子使用偏好(CUB)和二核苷酸组成。该基因表现出中等的GC含量(49.36 ± 3.57%),对以G/C结尾的密码子有强烈偏好,并且第三位密码子存在一致的不对称性(U > A 和 G > C)。中性性分析显示GC12–GC3的回归斜率为0.351,表明该位点的密码子使用主要受选择压力而非中性突变压力的影响。二核苷酸分析进一步发现TA和GT基序普遍减少,而CA和TG基序增加,形成了一个稳定的位点特异性组成特征。这些结果表明Pi-ta中的同义密码子使用并非随机,而是受到进化限制的,反映了选择和核苷酸组成的共同作用。通过建立Pi-ta的属内位点特异性同义密码子使用模式,本研究为水稻抗性基因的密码子优化、等位基因验证和精准工程提供了新的框架。
引言
由丝状真菌Magnaporthe oryzae引起的稻瘟病是水稻生产面临的最持久的生物威胁之一。由于疫情可能迅速蔓延至大面积区域,即使少量的损失也会导致严重的粮食安全和经济影响。化学控制方法效果不稳定且对环境有害,而单纯的农艺措施往往不足以单独应对这一问题。在这种情况下,遗传抗性成为最实用、持久且可扩展的策略(Ning等人,2020年)。植物育种者可以在多种农业生态系统中应用这一策略,农民也可以无需额外投入即可采用(McDonald和Linde,2002年)。这一策略的核心是一组称为核苷酸结合亮氨酸富集重复(NLR)蛋白的细胞内免疫受体,它们能够检测病原体效应子并触发防御反应(Zhiqi等人,2025年)。在所有这些受体中,Pi-ta长期以来一直是抗稻瘟病育种的基石(He等人,2022年;Lee等人,2011年)。它能够识别AVR-Pita类型的效应子,在功能正常时可以保护原本易感的种质(Xiao等人,2024年)。随着育种工作向结合多个NLR的方向发展,以及功能基因组学越来越多地依赖转基因和异源测定方法,了解这些位点的蛋白质水平多样性和调节其表达和功能的核苷酸水平特征变得至关重要。
这涉及到同义密码子的选择和更广泛的核苷酸组成。尽管同义变化不会改变氨基酸序列,但它们可以影响mRNA的丰度和稳定性、翻译效率和准确性、共翻译过程中的折叠方式,甚至下游蛋白质的水平,这些影响虽然微妙但在生物学上具有重要意义。数十年的研究表明,同义密码子的非随机使用源于突变、选择和遗传漂变的平衡;在许多生物体中,高表达基因倾向于使用与tRNA池相匹配的密码子,反映了对高效和准确翻译的选择(Bahiri-Elitzur和Tuller,2021年;Rocha,2004年;Zhou等人,2025年)。不同的方法从不同角度探讨了同一个问题。相对同义密码子使用(RSCU)量化了在等概率使用情况下哪些密码子的使用频率高于或低于预期,从而捕捉到细微的偏好(Sharp和Li,1986年)。奇偶性规则2(PR2)专门检查第三位密码子处的A与U(T)和G与C的平衡;系统性的偏离中性表明存在非简单的突变平衡(Sueoka,1995年)。中性性分析将第一和第二位(GC12)的GC含量与第三位(GC3)的GC含量进行关联;较平的斜率表明第一和第二位受到更强的选择压力,而接近1的斜率则表明突变压力占主导(Sueoka,1988年)。二核苷酸相对丰度谱提供了更广泛的组成特征,揭示了富集或减少的两种碱基基序,这些基序可以进一步影响密码子选择和mRNA的行为(Karlin和Burge,1995年)。这些工具共同帮助研究人员确定基因的编码序列主要受突变还是选择的影响。
现在以这种方式研究Pi-ta有三个主要原因。首先,Pi-ta仍在育种和研究中得到广泛应用。位点特异性的密码子使用模式为同义密码子设计提供了指导,有助于转基因或异源表达系统的密码子优化,并允许进行沉默编辑以调整表达而不改变蛋白质。其次,免疫受体功能通常对剂量敏感。表达过低可能导致检测结果假阴性或田间抗性较弱;表达过高则可能引发自身免疫或生长抑制。如果同义密码子模式与表达控制或mRNA特征相关,那么有意调整这些模式将成为可靠表型和应用的可操作手段。第三,Pi-ta等位基因通过驯化、引入和选择在Oryza属内传播。从属范围内观察密码子水平可以补充氨基酸比较,揭示Pi-ta是否具有共同的密码子使用模式(例如,对以G/C结尾的密码子的稳定偏好),以及偏离该模式的情况是否表明存在异常的进化历史或注释错误,需要进一步审查。
尽管Pi-ta起着核心作用,但文献主要集中在蛋白质水平的多样性、效应子识别和共同进化动态上,而对同义方面的关注较少。尽管在植物和其他分类群中已有大量的全基因组密码子使用研究,但对NLRs的位点特异性分析相对较少,而且当存在时通常嵌入在大型转录组调查中,而不是针对单个抗性基因进行定制。对于Pi-ta,研究人员缺乏明确的等位基因水平的同义偏好、第三位密码子不对称性和二核苷酸特征的描述,这些信息可以直接用于构建设计、等位基因工程和检测解释。本研究通过为不同Oryza品种建立明确的位点特异性Pi-ta密码子使用模式,填补了这一空白,以便未来的研究和应用能够更好地理解该基因的编码方式。
本分析基于一些成熟的指标。RSCU识别每个氨基酸家族中哪些密码子的使用频率更高或更低,从而指导同义密码子设计(Sharp和Li,1986年,1987年)。PR2检查第三位密码子是否遵循链对称性(A ≈ T,G ≈ C)或存在不平衡,这可能表明在摆动位点存在选择或复制相关偏差(Sueoka,1995年)。中性性图(GC12 vs GC3)比较了不同密码子位置的突变和选择效应。斜率远低于1表明第一和第二位受到比单纯突变更强的选择压力(Sueoka,1988年)。二核苷酸分析通过检测碱基对来发现一致的富集或减少,这些变化可能影响mRNA结构、甲基化或稳定性(Karlin和Burge,1995年)。这些方法单独使用时各有局限性,但结合起来可以提供基因密码子使用的全面而互补的视图。在这种情况下,Pi-ta是一个有用的基因。作为NLR,它需要在正确的组织和适当的时间表达,以提供抗性而不增加适应成本。同义密码子使用可以影响这种表达,有时以微妙但重要的方式影响等位基因的比较或在瞬态检测中获得可靠的结果。例如,如果Pi-ta始终偏好以G/C结尾的密码子,那么遵循这种偏好的密码子优化可能会改善某些宿主的翻译效果,而忽略这一偏好可能会影响mRNA的稳定性或翻译速度。同样,如果TA二核苷酸通常被抑制而CA/TG基序增加,避免不稳定的基序可以提高合成构建物的设计效果。如果中性性分析显示前两个密码子位置受到比第三个位置更强的选择压力,则应在摆动位置进行同义变化,以最小化对调控或翻译功能的影响。总体而言,Pi-ta的位点特异性密码子使用模式对于育种(如标记开发和等位基因选择)、分子遗传学(如检测设计和构建物合成)和进化研究(如区分真实等位基因和旁系基因)具有价值。尽管对Pi-ta在蛋白质和等位基因水平上有广泛的表征,但其同义密码子使用和二核苷酸组成在整个Oryza属中尚未系统地进行过研究。与全基因组密码子使用调查不同,位点特异性分析提供了关于进化约束如何塑造关键抗性基因核苷酸结构的可操作见解。通过整合密码子使用指标、中性性分析和第二核苷酸特征,本研究为理解植物NLRs中的同义演化提供了一个新的、以基因为中心的框架。这种方法可以直接应用于密码子优化、等位基因验证和抗性基因的功能工程。我们假设Pi-ta抗稻瘟病基因作为一个保守且功能受限制的NLR位点,在整个Oryza属中表现出一致的GC偏向性同义密码子使用模式。具体来说,我们预计G/C结尾的密码子会被优先使用,第三位密码子存在系统性的偏离,第一和第二位密码子的中性斜率低于1,表明存在选择压力,以及稳定的二核苷酸富集和减少模式。基于这一假设,本研究的目标是:(a) 汇总经过验证的Oryza中Pi-ta编码序列,以便进行准确的等位基因水平分析;(b) 描述核苷酸组成、GC分布和同义密码子使用模式,包括多变量结构、第三位密码子的奇偶性和中性关系,以确定突变和选择的相对作用;(c) 定义二核苷酸相对丰度作为位点特异性的组成特征,以支持下游应用中的密码子优化和质量控制。本研究的核心假设是Pi-ta作为一个保守且功能受限制的NLR基因,在整个Oryza属中表现出一致的GC偏向性同义密码子使用模式。
部分内容
检索Pi-ta编码序列、去重和质量控制
Pi-ta编码序列(CDS)是从NCBI核苷酸数据库中检索的,用于在整个Oryza属中进行调查,查询条件为Oryza [ORGN] AND "Pi-ta" AND "complete cds" NOT "Pi-ta-like",以捕获同一位点的等位基因并排除“Pi-ta-like”旁系基因。这次搜索返回了256条记录,这些记录以FASTA格式下载并列在补充表S1中。明确标注为部分CDS或缺少CDS特征的记录在筛选过程中被优先级降低。
核苷酸组成和GC分布
在经过完整性过滤的Pi-ta CDS数据集(n = 68;来自256条下载记录,去重后减少到69条,经过质量检查后减少到68条)中,碱基组成显示总体GC含量为49.36% ± 3.57%。按密码子位置划分显示,第一位(GC1)的GC含量较高(GC1 = 55.66% ± 2.63%),第二位(GC2)的GC含量较低(GC2 = 39.42% ± 1.81%),第三位(GC3)的GC含量介于两者之间(GC3 = 52.98% ± 6.30%)。前两位的平均GC含量为GC12 = 47.54% ±
讨论
Pi-ta位点在整个Oryza属中的密码子使用分析表明,Pi-ta表现出明显的GC偏向性密码子使用模式、方向性的第三位密码子不对称性和独特的二核苷酸特征,这些都表明其核苷酸组成受到选择而非纯中性过程的影响。
CRediT作者贡献声明
Bhaskar Dowarah:撰写——原始草稿、方法论、研究、正式分析、数据管理、概念化。
Rafiul Amin Laskar:撰写——审阅与编辑、撰写——原始草稿、资源获取、研究、数据管理。
Anurag Kashyap:撰写——审阅与编辑、验证、项目管理、概念化。
Bijoy Neog:撰写——审阅与编辑、监督、概念化。
数据声明
本研究中使用的所有序列均可在NCBI GenBank中找到,其访问编号在补充材料(表S1)中提供。
资金来源
本研究未获得公共、商业或非营利部门的任何特定资助。
利益冲突声明
作者声明没有已知的可能会影响本文所述工作的财务利益或个人关系。
致谢
作者衷心感谢印度阿萨姆邦迪布鲁加尔大学生命科学系提供的必要实验室设施、基础设施和学术支持,使本研究得以完成。