基于片段层次化分析的RNA假结结构预测新方法:计算效率与折叠机制的突破

《PLOS Computational Biology》:Hierarchical analysis of RNA secondary structures with pseudoknots based on sections

【字体: 时间:2026年01月30日 来源:PLOS Computational Biology 3.6

编辑推荐:

  这篇综述提出了一种创新的RNA假结结构层次化预测方法。通过将RNA序列划分为未配对片段(sections),该方法将计算复杂度从传统方法的O(N62l4),实现了对726个tmRNA和454个RNase P RNA序列的高效分析。研究发现超过90%的生物相关假结集中在能量增益最大的前3%片段对中,为理解RNA共转录折叠(co-transcriptional folding)机制提供了重要线索。

  
引言
RNA分子在生命活动中承担着遗传信息传递、基因表达调控和催化功能等重要角色。非编码RNA(non-coding RNA)虽然不翻译成蛋白质,却在多种催化性和调控性细胞过程中发挥关键作用。RNA的生物学功能与其分子结构密切相关,特别是假结(pseudoknots)这种复杂结构。然而,预测包含假结的RNA结构一直面临计算复杂度和处理成本高的挑战。传统假结预测方法需要O(N6)的时间复杂度,而本文提出的层次化方法显著降低了计算成本,同时保持了预测准确性。
方法
本研究采用基于片段的层次化分析框架,对RNA假结结构进行系统研究。首先明确定义了RNA一级结构(primary structure)、二级结构(secondary structure)、假结(pseudoknots)和假结碱基对(pseudoknot base pair)等核心概念。片段(section)被定义为RNA序列中不参与碱基配对的连续碱基子集,这些片段代表了可能与其他片段形成假结相互作用的单链区域。
能量模型采用最近邻能量模型(nearest-neighbor energy model),该模型基于RNA链的化学和热力学性质,通过为RNA二级结构中的每个闭合环分配自由能贡献值来计算结构的总自由能。参数和详细规则基于mfold 3.6版本,虽然这些参数来源于无盐条件下的实验,但本研究将其作为假结预测的近似值。
算法核心通过动态规划确定片段对之间的最小自由能(MFE)结构。该算法考虑所有可能的结构,其中碱基对可以与二级结构形成假结,但约束同一片段对内的假结碱基对不能相互交叉。对于包含n个片段、典型长度为l的RNA分子,算法计算复杂度为O(n2l4)。实际运行分析显示,在包含1,180条序列(长度102-1,331 nt)的完整数据集上,总执行时间仅为7.54秒,平均每条序列运行时间6.39毫秒,表现出适合大规模RNA数据库分析的一致性能。
结果与讨论
研究分析了RNAstrand数据库中的726条tmRNA序列和454条RNase P RNA序列。这些RNA家族代表了具有充分文献记录的假结的全面且多样的生物相关结构数据集。基本特性分析显示,tmRNA平均序列长度为368 nt,平均每个序列约30个片段,平均片段长度8 nt;RNase P RNA平均序列长度333 nt,平均每个序列约30个片段,平均片段长度5 nt。
基于MFE的连接片段对预测显示,MFE增益(MFE绝对值)的分布呈指数衰减。这种指数衰减源于两个假设:一是两个片段之间形成每个额外碱基对的概率与现有结构无关;二是每个碱基对平均贡献约1.0 kcal/mol的自由能。曲线拟合分析显示,tmRNA的碱基配对概率为0.608,RNase P RNA为0.632,与理论预期值高度一致。
研究发现,连接片段对高度集中在具有大MFE增益的片段对中。对于tmRNA,超过90%的连接片段对包含在具有最大自由能增益的前104个片段对(占总可能的3%)中;对于RNase P RNA,超过90%的连接片段对位于按MFE增益排名前1%的片段对中。这一发现意味着,要预测包含假结的RNA结构,只需考虑一小部分具有大MFE增益的片段对即可。平均而言,每条tmRNA序列只需考虑约14个片段对,每条RNase P RNA序列只需考虑约3个片段对,就能覆盖90%的假结。
2-簇和3-簇结构的比较分析揭示了重要规律。连接片段对专门形成2-簇或3-簇,没有观察到更大簇形成的实例。假结序数为1的结构(2-簇:tmRNA中2337个,RNase P RNA中543个)数量显著超过假结序数为2的结构(3-簇:tmRNA中110个,RNase P RNA中1个)。这种分布与层次化折叠一致,其中低序数假结先于高序数结构形成。
对连接2-簇片段对的MFE预测与实际结构比较显示,该方法实现了高预测精度,灵敏度超过0.9,阳性预测值高于0.8,显著优于传统的全局预测方法。然而,3-簇结构表现出明显不同的行为。在tmRNA的110个1型3-簇中,前片段对(former pairs)约50%的真实结构与预测的MFE结构相同,超过80%的自由能贡献低于0.8×MFE,与2-簇预测精度相似。相比之下,后片段对(latter pairs)表现显著不同,只有一小部分的自由能贡献接近其MFE。
这种不对称性表明,前片段对独立形成,而后片段对的形成受到预先存在的碱基对连接的强烈影响。这种模式与RNA合成的方向性(从5'到3')一致,支持了共转录折叠动力学的先前研究。前片段对可能在后者段完全合成之前就建立了它们的相互作用,这表明RNA细胞中的结构形成不仅仅通过全局自由能最小化,而是RNA合成/折叠的动态和顺序性质在决定最终结构配置中起着关键作用。
结论
本研究提出的基于片段的RNA假结分析方法,采用mfold最近邻能量模型与动态规划相结合,在计算效率和预测准确性方面均优于传统方法。关键发现是生物相关假结在具有大MFE增益的片段对中高度集中,通过关注按MFE增益排名前3%的片段对,可以捕获约90%的所有连接片段对,从而实现结构预测搜索空间的实质性减少。
该方法对假结序数为1的结构(2-簇)预测表现出色,灵敏度超过0.90,阳性预测值超过0.80,显著优于尝试一步预测全局假结结构的传统方法。然而,对假结序数为2的结构(3-簇)存在显著局限性。虽然该方法可以以前者段对的精度预测3-簇中的前者段对,但对后者段对的预测效果较差。局部能量模型对后者段对的不足表明,这些假结受到局部相互作用以外因素的显著影响,如RNA折叠的动态过程和全局3D RNA构象。这些发现突出了纯热力学方法在复杂RNA结构预测中的局限性,表明准确建模3-簇可能需要结合动力学折叠路径和长程结构约束。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号