《RNA Biology》:5PSeq explorer: interactive analysis of Co-translational mRNA decay and ribosome dynamics
编辑推荐:
本文介绍了一个基于网络的交互式平台——5PSeq Explorer,它整合了773个经过统一处理的5PSeq(5′P降解组测序)数据集,涵盖23个物种(细菌与子囊菌门)。该平台通过标准化计数、结构化元数据和可扩展的可视化工具,为研究mRNA降解与核糖体动态之间的串扰提供了一个系统框架。其核心优势在于能够揭示体内核糖体停滞、碰撞等事件,弥补了传统核糖体图谱在捕获共翻译降解相关动态方面的不足。平台提供公开网络界面和Docker本地版本,确保研究的可重复性和可及性。
背景
信使RNA(mRNA)的翻译是基因表达的核心步骤,但mRNA分子的存在并不保证活跃的蛋白质合成。细胞对mRNA的转录、翻译和降解进行严格调控。翻译后调控对于细胞快速(例如几分钟内)适应环境扰动至关重要。重要的是,翻译和mRNA稳定性并非独立过程,而是直接相互关联的。
核糖体动态的改变,例如密码子特异性核糖体停滞、核糖体碰撞、移码和密码子最优性,可以直接调节mRNA寿命和蛋白质合成。全基因组范围的核糖体动态研究通常依赖于核糖体图谱技术,该技术通过体外RNA消化后捕获核糖体保护片段(RPFs)并进行高通量测序。尽管已有多个数据库(如Riboseq.org、TranslatomeDB和RPFdb)和可视化工具(如Trips-Viz、GWIPS-viz)促进了大量核糖体图谱数据的访问和分析,但由于核糖体图谱主要关注可溶性核糖体主体,有时可能掩盖导致RNA降解的核糖体行为。
5PSeq技术与平台需求
另一种方法,5′P降解组测序(5PSeq),利用了mRNA降解是共翻译发生的这一事实。具体而言,5′→3′外切酶可以追踪最后一个延伸中的核糖体,生成反映体内核糖体位置的降解中间体。因此,5′单磷酸化mRNA降解中间体的存在可以提供体内核糖体位置的信息。定位这些片段可以在核苷酸分辨率上洞察酵母(子囊菌门)、植物和具有5’-3’ RNA外切酶(RNase J)的细菌中的核糖体停滞和碰撞。虽然5PSeq不适用于估算全局翻译速率,但其技术简单性以及捕获与mRNA降解相关的共翻译事件的能力,使其成为研究不同条件下核糖体动态的有力工具。
尽管潜力巨大,用于系统探索5PSeq数据的资源仍然有限。本研究团队先前开发了计算分析流程FivePseq以促进降解组数据集的可重复分析,但其范围仅限于小批量数据。
5PSeq Explorer 平台介绍
为此,本研究推出了5PSeq Explorer,这是一个专用于可视化和比较跨物种及扰动下5PSeq衍生的核糖体动态的网络平台。该资源汇集了涵盖23个物种的773个经过统一处理的5PSeq数据集。通过整合结构化元数据、标准化计数和可扩展的可视化工具,5PSeq Explorer为研究mRNA降解与翻译动态之间的相互作用提供了一个综合性框架。平台提供公开网络界面和一个基于Docker容器的本地版本,以确保研究社区的可重复性和可及性。
数据收集与处理
研究团队从18项已发表的研究中收集了773个5PSeq数据集,这些研究探讨了mRNA降解与翻译界面生物学的各个方面,包括遗传和环境扰动。对于真核生物,该集合包含376个酵母样本(子囊菌门),其中酿酒酵母(Saccharomyces cerevisiae)占比过高(n=338)。对于细菌,提供了397个样本,覆盖放线菌门、芽孢杆菌门等多个门,其中以枯草芽孢杆菌(Bacillus subtilis, n=67)和放线菌聚集杆菌(Aggregatibacter actinomycetemcomitans, n=59)为代表。
为确保跨条件可比性并促进跨物种分析,所有数据均经过统一处理。生成的数据库已存放于瑞典国家数据服务中心(SND DORIS),包含:(1)元数据,(2)原始处理计数文件(涵盖氨基酸、密码子、阅读框偏好性、起始和终止位点周围的metagene计数),以及(3)RNA组成信息。
为了方便数据的可视化探索,团队创建了5PSeq Explorer,这是一个基于Shiny框架构建的网络应用程序,旨在促进跨生物条件的比较。样本详情可在5PSeq Explorer的“元数据”选项卡中找到,包括相关出版物、GEO和SRA ID。元数据中标记了生物学重复,允许用户合并重复以便跨条件比较。原始计数按文库大小标准化(每百万计数)以进行公平比较。测序深度和RNA组成信息可在“Mapping stats”选项卡中获取。用户可以直接从5PSeq Explorer的“Download”选项卡下载单个样本。
为增强可用性,还提供了软件的本地版本,可作为Docker容器用于探索本地的5PSeq原始计数数据。
元数据管理与生物条件系统探索
为实现生物条件的系统探索,平台采用了受先前工作启发的分层自上而下元数据结构。这种方法旨在系统地捕获从样本到测序技术细节的数据生产的每一步,粒度逐渐细化。元数据描述符包括样本信息(生物体、门、物种、基因型)、文库制备、测序技术细节(仪器)和数据处理(软件包版本)。每个数据条目代表一个与GEO/SRA ID关联的生物学重复。重要的是,生物学重复在元数据中被标记,允许用户合并属于每个实验条件的生物学重复。用户可以在“Metadata”选项卡中浏览样本,并交互式地选择/取消选择测序样本进行比较。
为便于在所有可用样本中搜索生物条件,平台创建了多个过滤器。生物描述符如“Keyword”(例如,YPD氨基酸剥夺、YPD对照等)和“Treatment”(例如,热激、海藻糖)可用于筛选元数据。其他用于搜索元数据的过滤器包括“Publication”、“Lab PI”、“First author”和“Year”。这种结构化方法使用户能够识别条件特异性的核糖体行为,例如应激诱导的停滞,而无需手动解析数据。
使用5PSeq Explorer可视化核糖体动态
在“Metadata”选项卡中选择数据集后,用户可以研究共翻译相关的核糖体动态。这包括基因组水平的全局信息、基因和密码子水平的聚合metagene信息,以及单个基因的数据。在所有情况下,用户都可以通过将鼠标悬停在图形上来交互式查看绘图值,并通过点击由plotly包支持的位于右上角的“保存”图标来下载高分辨率PDF图形。
在全基因组水平,平台提供关于保护阅读框偏好性的信息(“Frame stats”选项卡)。对每个阅读框(F0、F1和F2)的5′P计数进行求和并显示其相对分布。例如,添加放线菌酮(CHX)会导致广泛的核糖体停滞,减缓核糖体速度,使5’-3’外切酶Xrn1p更有效地修剪RNA。结果,3-nt周期性增加,并且F1处的5PSeq保护相对上升。平台还提供观察到的周期性的快速傅里叶变换图(FFT periodicity选项卡),以使用户能更稳健地解读阅读框优势。
在metagene水平,可以研究编码基因翻译起始和终止位置周围5P计数的相对分布(Metagene START和STOP选项卡)。5PSeq Explorer为选定的样本实时计算metagene每百万计数(CPM)覆盖度,从而能够比较不同运行。然而,为促进严格的下游分析,平台支持下载:(1)原始计数,(2)按文库大小标准化的计数(每百万计数),以及(3)转录本水平的基因阅读框原始计数。Metagene 5PSeq图谱是条件和物种特异性的,但一次成功的酿酒酵母实验通常会显示典型的3-nt尖峰模式。这反映了核糖体如何一次移动一个密码子,而5’-3’外切酶修剪暴露的mRNA。当用放线菌酮处理时,酿酒酵母通常还会在起始密码子上游-14个核苷酸(起始核糖体)和终止密码子上游-17个核苷酸(与翻译终止相关)处显示出清晰的峰。其他位置的峰可能代表核糖体停滞甚至核糖体碰撞。例如,相对于终止密码子的-47和-50处的双峰代表碰撞事件(二聚体),其中后续的核糖体停滞在另一个在终止水平暂停的核糖体后面。
在氨基酸和密码子水平,可以在“Amino Acid Protection”和“Codon protection”选项卡中探索5PSeq数据。数据可以可视化为折线图、热图或散点图。折线图允许用户关注跨样本的单个密码子或氨基酸。或者,热图可视化将每个样本的多个折线图结合在一起。这提供了条件特异性模式的快速概览,对于识别应激特征或与抗生素治疗相关的上下文特异性核糖体停滞特别有用。例如,放线菌酮处理诱导全局延伸停滞,导致3-nt周期性的全局增加。而用利奈唑胺处理粪肠球菌会导致与丙氨酸相关的明确上下文特异性核糖体停滞,从而导致5PSeq读数在丙氨酸上游-8个核苷酸处积累。为促进特定特征的定量比较,散点图选项卡提取每个氨基酸的CPM覆盖度,并有助于视觉识别异常值和应激特异性偏差。
最后,在“Gene Frame Preferences”选项卡下,用户可以检查所有具有足够覆盖度的基因的所有阅读框中5PSeq的相对分布。此功能对于检测与反映正常核糖体进程的预期3-核苷酸周期性的偏差特别有用。例如,在酿酒酵母中,诸如F1/Fsum等指标提供了阅读框偏好的全局度量,而F1/F0等比率可以突出潜在的移码事件。为最大限度地减少噪音并确保稳健的解释,这些图仅限于计数至少为50的基因。平台还提供了一个基因阅读框三元图,用于全局概览实验条件之间基因阅读框偏好的变化。
密码子特异性核糖体停顿揭示生物应激
为了强调比较多个5PSeq数据集的价值,研究团队分析了来自四个独立实验中八个扰动的43个样本,并检查了密码子特异性的核糖体停顿。正如预期,组氨酸剥夺在两个组氨酸密码子(CAC和CAT)处产生了明显的核糖体停滞,这可能反映了氨酰化tRNA可用性降低和解码受损。为了提供更广泛的翻译视角,还考虑了密码子最优性。密码子最优性指的是带电tRNA的供应与其翻译需求之间的平衡,通常用作衡量密码子在体内解码效率的指标。最优密码子由丰富的tRNA支持,翻译迅速,而具有稀有tRNA的非最优密码子会减缓延伸并促进核糖体停滞。与此一致,非最优密码子在各种条件下表现出较慢的翻译延伸(更强的停滞),最明显的是精氨酸(CGA和CGG)和脯氨酸(CCG)。相比之下,放线菌酮处理在所有密码子中诱导了广泛的停滞,与其阻断翻译延伸的作用一致。在分析反映观察到的3-nt周期性强度的全局阅读框保护指数时也可以观察到这种效应。总之,这些分析表明密码子特异性停滞模式和全局阅读框偏移如何作为营养应激和药物诱导的翻译停滞的分子特征。
结论与平台价值
本研究介绍的5PSeq Explorer是一个基于网络的平台,用于交互式探索源自5P mRNA降解组测序(5PSeq)数据的核糖体动态。通过汇总跨23个物种的773个统一处理的数据集,旨在解决共翻译mRNA降解系统分析中的关键缺口。5PSeq Explorer专注于与mRNA降解相关的核糖体动态变化,这些变化在传统核糖体图谱数据中有时可能被掩盖。
5PSeq Explorer旨在提供对降解组数据的访问,从而提供对与mRNA降解偶联的核糖体动态的见解。然而,由于并非所有翻译都与mRNA降解偶联,5PSeq Explorer的范围有限。该平台补充了现有的核糖体图谱数据库,如Riboseq.org、TranslatomeDB和RPFdb,后者提供了全局翻译的视图。
5PSeq的一个重要限制是,它报告体内5′P mRNA降解中间体的存在,而与其起源无关。在5’-3’外切酶(例如,真核生物中的Xrn1或某些细菌中的Rnase J)共翻译修剪mRNA的情况下,它可以报告体内核糖体保护模式。然而,由于它只研究正在降解的mRNA子集,因此不应用于研究全局翻译速率(因为完整且正在翻译的mRNA无法通过5PSeq定量)。5′P mRNA降解已被证明可用于研究酵母和植物中的核糖体动态。然而,来自实验室的初步数据表明,在其他真核生物(人类、小鼠或果蝇)中,体内5′P位点与核糖体保护之间的关系更为复杂。
该平台提供多层分析,从全局阅读框使用和metagene图谱到密码子和氨基酸特异性停滞模式。这些功能使研究人员能够在各种条件下(如营养应激或抗生素治疗)研究翻译动态,并识别翻译控制的分子特征。除了可视化之外,5PSeq Explorer还通过公开网络界面和基于Docker的本地版本(设计用于用户提供的5PSeq计数文件)促进了可重复性和可及性。这使得交互式探索和高级下游分析成为可能。伴随的数据冻结确保了原始计数和元数据用于计算研究的长期可用性。总之,这些资源为翻译和mRNA降解的整合研究奠定了基础。
未来的发展将集中于用额外的数据集和功能扩展平台。计划的功能包括自动检测核糖体碰撞特征,以及整合密码子最优性度量和核糖体图谱数据,从而进一步增强5PSeq Explorer对研究社区的实用性。