PlantRG:一个全面且用户友好的植物抗性基因类似物(RGA)数据库

《Plant Biotechnology Journal》:PlantRG: A Comprehensive and User-Friendly Database for Plant Resistance Gene Analogs (RGAs)

【字体: 时间:2026年05月31日 来源:Plant Biotechnology Journal 10.5

编辑推荐:

  抗性基因(resistance genes, R genes)对植物抵御生物胁迫至关重要,构建一个全面、整合的抗性基因数据资源平台对植物研究和农业生产具有重大意义。本研究开发了PlantRG(http://plantrg.bio2db.com),一个用户友好的

  
抗性基因(resistance genes, R genes)对植物抵御生物胁迫至关重要,构建一个全面、整合的抗性基因数据资源平台对植物研究和农业生产具有重大意义。本研究开发了PlantRG(http://plantrg.bio2db.com),一个用户友好的植物抗性基因数据库,该数据库基于从1062种植物中鉴定的2 163 397个抗性基因构建。这些基因挖掘自所有可获取的植物基因组资源——系统整理自794篇同行评审文献和107个公共数据库——以确保数据的广度和可靠性。PlantRG中的所有抗性基因进一步通过五个主要参考数据库进行功能注释,以增强其用于靶向研究的实用性。此外,研究还检测到与这些抗性基因相关的207 353个简单序列重复(Simple Sequence Repeat, SSR)标记和141 582个微小RNA(microRNA, miRNA),为理解其调控网络和遗传标记提供了依据。关键的生物信息学结果,包括基因重复模式、蛋白质-蛋白质相互作用(Protein-Protein Interaction, PPI)预测和CRISPR向导序列,也已在数据库中生成并存储。PlantRG允许免费浏览和下载所有抗性基因序列、注释和生物信息学数据。该数据库还提供实用工具,如Blast(用于同源搜索)、CasViewer(用于CRISPR向导可视化)、Circos(用于基因组景观分析)、HmmerSearch(基于结构域的鉴定)和引物设计,以促进用户友好的比较基因组分析。值得注意的是,PlantRG是完成植物抗性基因大规模收集和生物信息学分析的综合平台。它将支持抗性基因结构、功能和进化模式的深入研究,从而促进农业发展——例如,培育抗逆作物品种。未来,PlantRG将持续更新以纳入新数据和功能,保持其对全球植物研究社区的价值。
植物病害是影响全球粮食安全的重要因素,可导致小麦、水稻、玉米、马铃薯和大豆等主要作物产量损失达10%–40%以上。为应对这一挑战,深入研究植物抗病分子机制、开发有效的病害防控策略成为迫切需求。抗性基因(R基因)在植物防御反应中发挥核心作用,自1992年首次通过转座子标签技术鉴定玉米抗禾生刺盘孢(Helminthosporium carbonum)的抗性基因以来,R基因研究已成为植物病理学领域的重要方向。植物进化出两套主要防御策略:由病原体相关分子模式触发的免疫反应(PAMP-Triggered Immunity, PTI)和由效应子触发的免疫反应(Effector-Triggered Immunity, ETI)。在PTI中,模式识别受体(Pattern Recognition Receptors, PRRs)中的类受体激酶(Receptor-Like Kinases, RLKs)和类受体蛋白(Receptor-Like Proteins, RLPs)是主要功能组分;在ETI中,核苷酸结合位点-富含亮氨酸重复序列(Nucleotide-Binding Site-Leucine-Rich Repeat, NBS-LRR)蛋白起关键作用,包括CC-NBS-LRR(CNL)、TIR-NBS-LRR(TNL)和RPW8-NBS-LRR(RNL)等亚类。此外,通过结构域重排形成的融合基因也在免疫识别和信号转导中发挥重要作用。

随着测序技术的发展,已有超过300个R基因被鉴定克隆,但现有数据库存在物种覆盖范围窄、缺乏综合数据整合和分析支持等不足。为此,研究人员构建了PlantRG平台,旨在为研究者提供更丰富的抗性基因数据资源,促进比较基因组学和功能基因组学的发展。

该研究采用的关键技术方法主要包括:数据来源涵盖自794篇文献和107个数据库的1062种植物基因组资源;使用DRAGO3工具进行抗性基因类似物(Resistance Gene Analogs, RGAs)的大规模鉴定;基于MCScanX软件的duplicate_gene_classifier程序分析基因重复类型;利用MISA工具检测SSR标记;整合miRBase和sRNAanno数据库资源,通过ViennaRNA包和TargetFinder程序进行miRNA鉴定及靶基因预测;采用CasFinder流程设计CRISPR-Cas9向导序列;基于STRING数据库(E-value < 1e-10)预测蛋白质-蛋白质相互作用;以Django框架和MySQL数据库管理系统构建数据库平台,结合HTML、CSS、JavaScript和Python实现交互式网页功能。

**2.1 植物基因组中抗病基因的大规模分析**

研究人员从1062种植物中鉴定出总计2 163 397个抗病基因类似物,包括33 267个TNL基因(1.5%)、50 157个CNL基因(2.3%)、296 017个RLP基因(13.7%)、269 806个RLK基因(12.5%)以及1 414 150个其他家族类似物(65.4%)。结构域分析显示,跨膜(Transmembrane, TM)结构域最为丰富(6 003 886个),而TIR结构域最为稀少(205 235个)。在分析的目级分类单元中,禾本目(Poales)含有最多的抗病基因,其中甘蔗品种Saccharum spp. R570因具有高倍体复杂基因组结构(~2C=10 Gb, 2n=6x=114),鉴定的RGAs数量最多(11 801个)。值得注意的是,RLK和RLP家族的RGA数量高于CNL和TNL家族,这与其介导植物免疫、调控生长发育及实现广谱病原识别等多功能特性相关。

**2.2 禾本目植物抗病基因的收缩与扩张分析**

NLR基因在禾本目中整体呈显著收缩趋势,但不同物种间存在明显差异,Saccharum spp. R570(2 407个)、小麦(2 330个)和勃氏甜龙竹(2 194个)的NLK基因数量位居前三,反映了不同选择压力下的生态适应性进化。结构域统计分析显示,NBS、LRR和CC结构域丰度呈协同增加趋势(NBS>CC>LRR),而TIR结构域在禾本目中严重缺失或耗尽;尽管融合结构域(Integrated Domains, IDs)总量远低于典型结构域,但显著高于TIR结构域,提示融合基因可能功能补偿TIR介导的免疫信号通路。NLR-IDs在禾本目中呈现多样化分布模式:Pkinase结构域融合基因在小麦及其近缘种中显著富集,WRKY型融合基因在禾本科中高度普遍,而AP2、PP2C、HMA、bZIP_2和B_lectin等融合事件水平较低。小麦具有最多样化的整合结构域组合,这与其 allohexaploid基因组经历多轮多倍化和频繁基因组重排密切相关。WRKY和PP2C结构域表现出对N型(缺乏典型CC和TIR结构域)抗性基因的强整合偏好性,暗示这些整合结构域可能直接参与NBS介导的免疫信号激活。

**2.3 PlantRG数据库的构建**

该数据库涵盖1062种植物,整合了基因组、病虫害、物种图像、分类学和参考文献等基础数据集。核心数据集包括:去除可变剪接序列后通过DRAGO工具鉴定的抗病基因;基于Nr、Pfam、TrEMBL和Swiss-Prot数据库的功能注释;miRNA鉴定、基因重复类型分析、SSR分子标记开发和CRISPR靶点设计等分析结果。数据库采用Linux环境下的Python和Perl进行批量数据处理,MySQL构建关系型数据库,Django后端框架结合HTML、CSS和JavaScript开发前端界面。

数据库包含九大核心模块:浏览(Browse)模块支持树状和列表视图探索物种;抗病基因(Resistant Gene)模块作为核心,整合基因位置、家族分类、重复类型、功能注释(Nr、Pfam、Swiss-Prot、TrEMBL)、蛋白互作数据、相关文献和系统发育树;病虫害(Pest)模块提供109种疾病的基本信息,源自104篇文献的系统整理;PPI网络模块展示RLK、RLP、CNL和TNL基因家族的预测互作结果;miRNA和SSR模块分别呈现预测结果;工具(Tools)模块整合BLAST、CrisprViewer、Circos、HMMER和Primer3等分析工具;下载(Download)和帮组(Help)模块支持数据获取和使用指导。

在抗病基因详情界面,基因重复类型分析鉴定出五种重复类型:单基因(singleton)、近端重复(proximal)、串联重复(tandem)、散在重复(dispersed)和全基因组重复/片段重复(WGD/segmental)。其中WGD/segmental重复在多个植物目中占主导,如十字花目(Crossosomatales, 68%)和菖蒲目(Acorales, 65%),这与这些谱系经历的古代全基因组三倍化(Whole-Genome Triplication, WGT)和近期WGD事件相关。日本山萮菜(Eutrema japonicum)的WGD衍生抗性基因比例最高(98.5%),归因于其与 Brassicaceae 家族成员共享的WGD事件。

功能注释方面,所有2 163 397个抗性基因基于五大蛋白数据库完成注释,注释率范围为63.34%–100%。SSR标记鉴定出207 353个,其中三核苷酸(p3)重复基序在所有植物目中占比最高。miRNA分析从1062种植物中鉴定出141 582个miRNA,茄目(Solanales)的miRNA数量(19 269个)及其靶基因数量(15 269个)均为最高。

PPI网络模块基于STRING数据库预测潜在R蛋白互作,以E-value < 1e-10为 cutoff,节点大小和颜色反映介数中心性。研究人员建议将STRING预测与AlphaFold结构建模结合以提高预测可靠性。

工具模块中,Circos工具基于D3.js构建,用于Ks(同义替换率)分析结果可视化,帮助探究R基因是否受多倍化事件或其他重复类型影响;Blast和HmmerSearch工具支持CDS或蛋白质序列比对,是R基因同源分析和功能注释的核心步骤;CasViewer专门用于CRISPR向导序列文件的可视化;Primer Design专为R基因扩增引物设计。

**讨论**

与现有数据库相比,PlantRG在四个方面具有优势:覆盖1062种植物,远超PRGdb的233种,适用于大规模跨物种比较基因组分析;整合典型和非典型抗病基因,支持非典型R基因挖掘;提供miRNA调控、SSR标记、CRISPR向导序列和基因重复类型注释等多样化下游分析输出,实现多组学数据整合;聚焦非模式植物,填补传统数据库对模式物种偏重不足的空白。然而,PlantRG目前缺乏充分的实验验证基因信息,更适合作为宏观进化分析和多组学整合研究的补充资源,而非直接的育种应用平台。

PlantRG以其广泛的物种覆盖、整合的分析数据集、全面的R基因注释和内置分析工具而突出。通过填补现有R基因数据库的关键空白,该平台将有力推进植物R基因研究——为植物病理学研究和作物抗性育种提供 robust 的数据支持和实用的分析解决方案,最终促进对R基因功能和进化的深入理解,加速抗病作物品种的培育以应对农业挑战。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号