《Frontiers in Plant Science》:Comprehensive analysis of alternative splicing and transcriptome diversity in apple using long-read sequencing
编辑推荐:
引言:可变剪接(AS)是植物转录组多样性的主要来源,但短读长RNA测序(RNA-seq)在解析全长转录本和复杂的AS模式方面能力有限,尤其对于多年生作物。
方法:研究人员整合了牛津纳米孔技术(ONT)长读长cDNA测序与Illumina RNA-seq,以表征
引言:可变剪接(AS)是植物转录组多样性的主要来源,但短读长RNA测序(RNA-seq)在解析全长转录本和复杂的AS模式方面能力有限,尤其对于多年生作物。
方法:研究人员整合了牛津纳米孔技术(ONT)长读长cDNA测序与Illumina RNA-seq,以表征跨越七个苹果(Malus domestica)组织(包括营养器官和三个果实发育阶段)的全长转录组。对基因和转录本水平的表达进行了定量,并使用内含子保留百分比(PSI)和差异剪接分析评估了AS变异。
结果:研究人员鉴定出56,809个基因和100,911个转录本异构体,并构建了一个包含29,842个事件的AS图谱,涵盖七种AS类型,涉及17,659个基因和73,067个转录本异构体。这些分析揭示了广泛的组织相关转录和转录后调控,包括大量组织特异性基因、转录本异构体和AS事件,以及组织对之间普遍存在的差异剪接。
讨论:总之,本研究结果表明,整合ONT长读长用于异构体发现,以及Illumina短读长用于定量支持,可改进苹果转录组注释,并实现对组织解析的转录本和AS变异的系统性表征。由此产生的全长转录组、统一转录本注释和AS图谱,为苹果转录后调控、性状相关转录本变异和遗传改良研究提供了宝贵资源。
研究背景、问题与目的
在真核生物中,可变剪接(AS)是一种普遍存在的转录后调控机制,单个前体信使核糖核酸(pre-mRNA)能够产生多种转录本异构体,显著增加了转录物和蛋白质的多样性。在植物中,超过60%的含内含子基因会发生AS。高通量测序技术的发展极大地扩展了对基因调控的转录组水平研究。早期的转录组分析主要依赖于短读长下一代测序(NGS)。尽管NGS具有高通量、低单碱基错误率和成本效益等优点,但其较短的读长限制了对转录本结构的解析能力。短读长在重复或高度相似的基因组区域中可能无法进行唯一比对,全长异构体通常需要从片段化的读长中重建,这限制了对完整转录本结构和复杂AS事件的准确表征。
第三代长读长测序技术通过产生可延伸至数十千碱基对(kb)并常覆盖全长转录本的读长,克服了上述许多限制。牛津纳米孔技术(ONT)和PacBio等长读长平台能够直接表征转录本异构体和AS模式,减少了对短读长重建转录本的依赖。全长转录本覆盖提高了对复杂AS事件(如外显子跳跃、内含子保留、可变5'/3'剪接位点使用)的检测和解读,并增强了对低丰度或结构复杂的、仅用短读长测序难以解析的异构体的识别。尽管如此,长读长转录组学常与短读长RNA-seq互补,后者为稳健的表达定量提供了更高的单碱基准确性和更大的测序深度。因此,整合长读长和短读长的策略正日益被用于将全面的异构体发现与可靠的转录组定量相结合。
苹果作为一种重要的多年生果树,其基因组经历了相对较近的全基因组复制,导致旁系同源位点间序列相似性增加,这使仅从片段化读长推断异构体水平信息变得更加复杂。为了更精确地解析苹果的转录组景观,特别是其AS模式,本研究整合了ONT全长转录组测序与Illumina RNA-seq,旨在跨越七个苹果组织(包括根、茎、叶、花以及三个果实发育阶段:幼果期、膨大期和成熟期)构建一个组织解析的全长转录组框架。这项研究不仅是为了技术上的进步,更是为了在生物学意义上扩展苹果转录组的分辨率,为理解苹果的转录后调控、性状相关变异和遗传改良提供基础。
关键技术与方法
研究人员使用了十年生‘金冠’苹果树作为实验材料,样品采集自位于中国辽宁兴城的国家苹果种质资源圃。采集的组织包括根、茎、叶、花以及花后45天(DAB,幼果期)、95 DAB(膨大期)和145 DAB(成熟期)的果实。对于ONT全长转录组测序,每个组织采集一个样本构建cDNA文库。对于Illumina RNA-seq,每个组织采集三个生物学重复构建文库,共21个文库。ONT测序在MinION Mk1B测序仪上进行,使用FLO-MIN109流通池。Illumina测序在HiSeq X-ten平台上进行,采用150-bp双端测序策略。在数据分析方面,对原始测序数据进行质量控制后,将ONT长读长和Illumina短读长分别比对到参考基因组。利用StringTie软件的“混合”模式,整合每个组织水平的Illumina短读长比对结果和对应的ONT长读长比对结果,构建组织水平的转录本模型,最终合并生成一个统一的非冗余转录本注释(All.gtf)。基于此统一注释,使用DESeq2进行差异表达基因(DEG)分析,使用Salmon和Ballgown进行转录本表达量化和差异表达转录本(DET)分析。使用SUPPA2识别七种类型的AS事件,并基于短读长数据进行PSI值计算和差异可变剪接(DAS)分析。对基因、转录本及与AS事件相关的基因进行了基因本体(GO)和京都基因与基因组百科全书(KEGG)富集分析。
研究结果
3.1 ONT和Illumina RNA-seq数据概览
ONT测序为每个组织生成约5.52-7.29 Gb的clean bases,平均读长1244.3-1346.3 bp,中位读长1056-1188 bp,N50为1393-1511 bp,平均质量为Q8。全长读长占85.84%-87.86%,比对率高达97.16%-99.37%。Illumina测序每个文库产出23.2-38.8百万条clean reads,Q30在93.59%-95.42%之间,总体比对率88.73%-94.95%。数据质量足以支持后续分析。
3.2 ONT RNA-seq数据分析
基于全长转录组数据,共鉴定出56,809个基因,包括31,189个已知基因和25,620个新基因。其中15,612个基因具有两个或更多转录本异构体。共检测到100,911个转录本,包括33,031个已知转录本、31,570个新型编目内(NIC)转录本和36,310个新型非编目内(NNIC)转录本。长读长支持的转录组重建显著扩展了苹果转录本和异构体的分辨率。
3.3 基因表达水平分析与组织特异性基因鉴定
在56,809个基因中,55,906个在至少一个组织中表达。每个组织表达的基因数量在44,664到51,001之间。低表达基因(0 < TPM ≤ 1)在所有组织中占比最大。组织特异性基因(TSG)的数量在不同组织间从148到2,175个不等。这些TSG的功能谱具有强烈的组织依赖性:根中富集了与防御、次生代谢相关的功能;叶中富集了表皮和角质层发育相关功能;花中富集了生殖生长相关功能;果实发育不同阶段则富集了阶段依赖性的调控功能,例如95 DAB果实富集RNA修饰和核酸相关过程,145 DAB果实富集油菜素类固醇或类固醇相关过程。KEGG分析进一步关联了根系中的细胞色素P450和苯丙烷类途径、95 DAB果实中的DNA修复/重组和氮代谢、145 DAB果实中的角质/木栓质/蜡质和谷胱甘肽代谢,以及叶和花中的植物-病原互作和MAPK信号通路等信号相关途径。在21对组织比较中,差异表达基因(DEG)的数量从8,333个到20,487个不等,主要富集于外部刺激响应、质体和叶绿体相关功能、光合作用、碳水化合物代谢、次生代谢和DNA修复/重组等过程。
3.4 转录本表达水平分析与组织特异性转录本鉴定
在100,911个注释转录本中,97,644个在至少一个组织中表达。每个组织表达的转录本数量在76,097到86,318之间。低表达转录本同样占比最大。组织特异性转录本(TST)的数量从370到3,090个不等。与TSG类似,TST的功能谱也具有组织依赖性,但在转录本水平,主导信号更紧密地与发育极性和根系相关生长、胁迫和激素响应、RNA/核苷酸代谢以及膜或转运蛋白相关功能相关。具体表现为:根中富集转录因子和细胞色素P450,茎中富集戊糖和葡萄糖醛酸相互转化,花中富集植物-病原互作和MAPK信号,45 DAB果实富集油菜素类固醇生物合成,95 DAB果实富集转移RNA生物合成、mRNA监控、同源重组和膜运输等途径。转录本水平的差异表达分析也强调了与发育、RNA加工、信号传导、运输和基因组维护相关的功能。
3.5 AS分析与组织特异性AS事件
使用SUPPA2识别了七类AS事件,包括:可变3'剪接位点(A3)、可变5'剪接位点(A5)、可变起始外显子(AF)、可变末端外显子(AL)、互斥外显子(MX)、内含子保留(RI)和外显子跳跃(SE)。总共检测到29,842个AS事件,涉及17,659个基因和73,067个AS相关转录本异构体。A3是最普遍的类别(9,326; 31.2%),MX是最罕见的类别(515; 1.7%)。重要的是,AS的总体组成在七个组织间高度相似,A3始终是主导类别,而MX始终是最罕见的类别,A5、RI和SE合计在所有组织中占AS景观的相当大比例。这表明AS事件类型的全局库存在组织间广泛稳定,而组织特异性更多体现在事件使用和剪接调控水平。共鉴定出2,366个组织特异性AS(TSAS)事件,其中根中最多(591个)。TSAS相关基因集的功能也显示出清晰的组织依赖性,突出了花中的花发育和生殖过程、果实组织中的刺激响应功能,以及组织依赖性富集的剪接体、转录和翻译相关通路。差异可变剪接(DAS)分析也表现出强烈的组织依赖性模式,在21对组织对比中,共检测到5,088个独特的DAS事件,其中95 DAB果实贡献了最大的组织特异性DAS事件集(1,337个),表明虽然AS事件的整体组成是保守的,但局部剪接选择的调控在不同组织间,尤其是在果实发育过程中,存在显著差异。
3.6 跨基因、转录本和AS层的整合候选基因优先级排序
为了探究组织相关调控是否在多个转录组层面协调,研究人员比较了组织特异性基因(TSG)、与组织特异性转录本相关的基因(TST-associated genes)和与组织特异性AS事件相关的基因(TSAS-associated genes)。在5,474个TSG、8,030个TST相关基因和1,610个TSAS相关基因中,有169个基因被三个集合共享,定义了一个在基因表达、转录本使用和组织特异性剪接证据上同时得到支持的高置信度核心。代表性基因座进一步说明了这种多层协调是如何在特定组织中体现的。例如,在基因水平,STRG.17188和 STRG.43452在根中富集表达,STRG.21536在叶中富集表达,STRG.43976在花中富集表达。在转录本水平,STRG.17188.2和 STRG.43452.1在根中富集,而 STRG.54777.1和 STRG.7075.3在花中富集。在剪接水平,来自 STRG.54507的三个代表性事件(SE、A3、A5)和来自 STRG.54777的一个SE事件显示出花偏向的PSI模式。这些例子表明,苹果中的组织相关调控可以通过基因表达、转录本异构体使用和局部剪接行为的协调变化来实现,尤其是在与根和花相关的调控程序中。在注释水平,长读长支持的转录本模型进一步细化了STRG.40053和STRG.43976基因座,揭示了STRG.40053的可变起始外显子和外显子跳跃特征,以及STRG.43976的修正异构体结构和相关的外显子跳跃事件。
讨论与总结
讨论
本研究通过整合ONT长读长与Illumina RNA-seq,为栽培苹果构建了一个组织解析的全长转录组框架。这不仅是一项技术进步,更在生物学意义上扩展了苹果转录组的分辨率,使其与柑橘、猕猴桃等通过长读长转录组学显著改进异构体发现和注释的果树作物并列。改进的注释不仅带来了更大的转录本数量,更重要的是在特定基因座提供了更清晰的结构解读,例如对STRG.40053和STRG.43976基因座的细化,这对于性状相关基因座可能通过微妙异构体差异而非单纯有无来调控的多年生果树尤为有价值。
AS分析结果表明,苹果转录组结合了全局组成稳定性和强烈的组织依赖性局部调控。在整个转录组水平,A3是主导的AS类别,MX最罕见,且整体类别组成在各组织间大体相似,这与柑橘中A3富集的模式更接近。与此同时,TSAS和DAS分析表明,保守的全局比例并不意味着均匀的剪接行为:局部剪接选择具有强烈的组织依赖性,在果实发育阶段间的变异尤为显著。这与猕猴桃、桃、木瓜等肉质果实发育和成熟过程中AS动态变化的研究结果一致,支持了苹果果实转录组不仅通过基因表达变化,也通过转录本使用和局部剪接决定的渐进重编程来调控的模型。
苹果和梨等果树中的证据表明,AS可以直接影响农艺性状。例如,苹果中ALMT9/Ma1转运蛋白的可变剪接已被证明可调节液泡苹果酸转运和果实酸度。因此,本研究中检测到的果实阶段TSAS和DAS信号应被视为与苹果发育和品质相关调控潜在相关。
多层分析为从图谱构建到候选基因优先级排序提供了实用桥梁。大多数组织相关信号仍然是层特异性的或仅被两层共享,但169个基因的直接三方重叠定义了一个更严格的核心。这一核心与更广泛的优先级排序框架(如补充表16所示)应予以区分,后者更具包容性,旨在用于后续功能研究。代表性基因座,如根中的STRG.17188、花中的STRG.43976以及STRG.54507的花偏向剪接事件,说明了组织相关调控如何通过多个转录组层面的协调变化而产生,是未来功能研究(特别是在根生理、花调控和果实发育生物学领域)的高置信度切入点。
结论
ONT RNA-seq实现了对苹果七个组织转录组的全面表征。通过整合统一的转录本注释和更新的下游分析,研究人员扩展了苹果基因和异构体注释,定义了组织解析的基因、转录本和AS图谱,并表征了跨越21个组织对比的差异表达和差异剪接。整合的多层分析进一步确定了169个基因的直接三方重叠,这些基因在组织特异性基因表达、组织特异性转录本使用和组织特异性AS证据上同时得到支持,而补充表16为未来的功能研究提供了一个更广泛的优先级排序候选基因框架。