《The Innovation》:CassavaDB: An integrated multi-omics resource for functional genomics and molecular breeding of cassava
编辑推荐:
本刊推荐研究人员针对木薯研究领域缺乏深度整合多组学数据平台的问题,开展了CassavaDB数据库的构建工作。该平台整合了50个木薯品种的基因组、转录组、代谢组数据及在线分析工具,实现了从基因到表型的多组学关联挖掘,为木薯功能基因鉴定和分子育种提供了关键资源。
木薯作为热带地区数亿人口的主粮和经济作物,其产量和品质的提升对全球粮食安全至关重要。然而,尽管已有CassavaBase、TCOD等数据库,木薯研究仍缺乏像大豆SoyOmics那样深度整合多组学数据和在线分析工具的平台。这种缺失严重限制了木薯功能基因的挖掘和分子育种效率。
为解决这一瓶颈,研究团队开发了CassavaDB(
https://nature.hainanu.edu.cn/CassavaDB/),这是首个面向木薯的多组学整合数据库。该平台遵循“多组学整合-功能挖掘-育种支持”的理念,汇集了50个木薯品种的237万多个基因、1.3万个miRNA(涵盖34个家族)及5000万以上遗传变异,同时整合了1538个转录组样本和包含58,116个细胞的单细胞转录组数据,覆盖24种细胞类型。此外,平台还收录了299个栽培种涉及2980个代谢性状的代谢组数据,并提供SLCMV感染下的差异代谢物分析。
研究采用基因组组装、重测序变异检测、RNA-seq(包括单细胞RNA测序)、代谢组定量等技术,结合BLAST、DESeq2、WGCNA、mGWAS等生物信息学工具,构建了多维度数据分析管道。样本涵盖栽培种KU50、TME3等及野生材料,部分数据来源于前期已发表研究。
基因组模块
提供50个高质量基因组组装(含1个T2T和49个染色体级别组装),集成基因搜索、miRNA家族分类、蛋白家族注释功能,支持BLAST、引物设计、GO/KEGG富集分析及JBrowse2基因组可视化。
变异模块
通过重测序数据识别SNP/InDel,提供变异密度热图、GWAS曼哈顿图等工具,支持基因区间变异分布可视化(如SNP在基因上下游的注释)。
转录组模块
包含组织特异性表达图谱(eFP-Gene)、差异表达分析(DESeq2火山图)、基因共表达网络(WGCNA)及单细胞转录组UMAP聚类,可解析基因在细胞类型中的表达模式。
代谢组模块
支持品种间代谢物丰度比较、代谢物QTL热点定位、mGWAS关联分析,并提供野生与栽培种代谢物驯化差异分析,揭示品质性状(如氰苷含量)的遗传基础。
种质资源模块
通过地理信息系统(GIS)展示全球种质分布,提供种质编号、采集地等元数据,支撑群体遗传学研究。
研究以干旱胁迫相关基因MeGRXC3(Manes.01G215000)为例,演示了平台的一站式分析能力:GeneCard界面展示其蛋白功能注释、Orthologs及GO富集网络;共表达分析提示其与谷胱甘肽代谢相关基因共表达;转录组数据证实该基因在干旱胁迫下于储藏根中显著上调(log2FC≈2.3,-log10p>5);eFP图谱进一步定位其在幼叶和胁迫下储藏根的高表达。
CassavaDB通过多层次数据整合与可视化工具,实现了木薯基因功能、表达调控和代谢网络的系统性解析。未来将通过纳入表型组、表观基因组等数据,结合人工智能(AI)挖掘方法,进一步强化基因-性状关联预测能力。作为木薯领域首个多组学平台,CassavaDB为加速基因挖掘和育种设计提供了核心资源,有望推动热带作物研究的范式创新。