基于图神经网络的RNA三叉连接体分支间角度预测模型R3J-AGNN及其在RNA三维结构建模中的应用

【字体: 时间:2026年03月13日 来源:Biology 3.5

编辑推荐:

  本研究针对RNA三维结构中多分支连接体(特别是三叉连接体3WJ)的精准建模难题,提出了一种新型双分辨率层级图神经网络R3J-AGNN。该模型仅依据二级结构信息,便可有效整合碱基水平(nucleotide-level)的精细相互作用与拓扑结构(topology-level)的粗粒度表征,从而精确预测3WJ的分支间角度(inter-branch angles)。通过为RNA三级结构建模与优化提供可靠的几何约束,R3J-AGNN为解决这一计算生物学领域的瓶颈问题提供了有力的新工具。

  
文章内容归纳总结
1. 引言
RNA在生命系统中扮演着基因表达、蛋白质合成、表观遗传调控等核心调节角色,其功能高度依赖于精确折叠的三维(3D)结构。其中,多分支连接体(multi-way junctions)是决定RNA整体拓扑构象的关键结构枢纽。在各类连接体中,三叉连接体(Three-Way Junctions, 3WJ)最为常见,其由三个螺旋茎汇聚于一个中心连接点构成。连接体各螺旋茎之间的相对取向,即分支间角度(inter-branch angles),在很大程度上决定了3WJ的整体三维构象及其功能。
尽管RNA结构至关重要,但通过实验手段(如晶体学、溶液态核磁共振、冷冻电镜)获取复杂RNA结构(特别是多分支连接体)的高分辨率信息仍充满挑战。计算建模是缓解数据稀缺的有效途径,然而即使已知二级结构,准确预测多分支连接体的全局拓扑结构依然存在困难。这是因为其拓扑结构对连接点处螺旋茎的相对方向极为敏感。传统二级结构预测方法无法解析螺旋间的取向,而基于物理的模拟框架则常常受限于复杂的能量景观,导致预测的拓扑结构不准确。近年来,以AlphaFold为代表的数据驱动深度学习方法在蛋白质结构预测领域取得了巨大成功,但针对RNA,特别是多分支连接体的建模仍面临挑战。包括DeepFoldRNA、trRosettaRNA在内的先进RNA结构预测器以及基于进化信息的RNA语言模型,在捕捉多分支连接体天然构象方面也存在局限。这一限制源于连接区域构象不仅取决于局部序列特征,还受到碱基水平精细相互作用与RNA整体粗粒度拓扑结构之间复杂耦合关系的影响。
为了应对这些挑战,本文研究团队开发了一种双分辨率层级图神经网络(Graph Neural Network, GNN)模型,命名为R3J-AGNN,旨在直接从RNA二级结构信息出发,预测RNA 3WJ的分支间角度。
2. 材料与方法
2.1. 树图表示与分支间角度定义
为捕获RNA三维结构的全局拓扑信息,研究采用了平面树图(planar tree-graph)的表示方法。具体而言,将RNA的无假结二级结构(pseudoknot-free secondary structure)进行抽象:将所有环区域(包括多分支连接体)映射为节点,而连接这些节点的螺旋茎则表示为边。生成的平面树图提供了RNA拓扑结构的紧凑表示。
为量化三叉连接体中的分支间角度,首先为树图中的每个节点分配空间坐标。对于三叉连接体节点,其坐标被定义为由三个锚点形成的三角形的几何内心。每个锚点是相邻茎区闭合碱基对(closing base pair)C4‘原子间连线的中点。通过这种方式,可以稳健地提取全局螺旋轨迹,避免因连接界面处闭合碱基对的结构松散或非标准几何形状引入的位置噪声。利用分配的节点坐标,计算每个三叉连接体的三个分支间角度(记为θ1、θ2、θ3),每个角度被几何约束小于180°,从而构成模型的几何真值。
2.2. 训练与测试数据集
研究的数据集基于RNA 3D Hub非冗余列表(Release 4.21, 2026年1月7日)建立。初始检索了3120个分辨率在4.0 ?以内的代表性RNA结构,随后利用DSSR(2.3.2版)解析结构,筛选出包含实验解析的三叉连接体、不包含多于三分支的连接体且长度短于500个核苷酸的RNA链。经过滤和利用CD-HIT(4.8.6版)以90%序列同一性阈值进行聚类以减少冗余,最终得到一个包含139条非冗余RNA链的数据集。该数据集以8:2的比例随机划分为训练集(111条链)和内部测试集(28条链),分别用于模型优化和性能评估。如果一条RNA链包含多个3WJ,则将其视为独立的训练或测试样本。
2.3. 输入特征
模型以只包含三叉连接体的RNA一级序列和二级结构(点括号表示法)作为输入。为了在两个层次上表征结构,研究构建了两种互补的图表示:嵌入残基水平特征的细粒度核苷酸图,以及嵌入拓扑水平特征的粗粒度树图。
2.3.1. 核苷酸水平特征
在细粒度核苷酸图中,每个核苷酸表示为一个节点,边则连接序列上相邻的核苷酸或参与碱基配对的核苷酸。节点的特征向量是单热编码的核苷酸碱基身份(A、U、G、C)和其结构基元标签的拼接。其中,结构基元包括茎(S)、发夹环(H)、凸环(B)、内环(I)、多分支环(M)、外部环(E)或未分类的单链(X),这捕获了局部结构环境,并作为与树图粗粒度拓扑特征连接的桥梁。边特征则定义了三种边类型,通过单热编码分配类型特异性特征,包括连接序列相邻核苷酸的骨架边、嵌套碱基配对边(包含规范和非规范碱基对)以及捕获非嵌套长程相互作用的假结边。尽管当前研究针对无假结数据集,但保留假结边作为独立的边通道确保了模型架构在处理更复杂RNA时的拓扑完备性。
2.3.2. 拓扑水平特征
树图按照2.1节的形式捕获RNA连接体的全局拓扑信息,其中环区域建模为节点,螺旋茎建模为边。树图中的节点(对应于RNA环基元)由环片段长度衍生特征和序列衍生特征构成的特征向量编码,这些特征(包括每个环片段的长度、成对环片段长度的最小值、排序后的环片段长度、成对环片段长度的差值、长度比值以及相对于总环长度的归一化环片段分数等)部分借鉴了之前的树图方法。为了确保特征维度统一,将环基元的最大片段容量设定为3,对于片段数少于3的基元进行填充。
2.4. 模型架构
R3J-AGNN是一个双分辨率层级GNN,其架构旨在通过整合细粒度和粗粒度表示,学习核苷酸水平相互作用与全局拓扑之间的关系。模型的核心流程如下:
  1. 1.
    特征嵌入:为核苷酸图和树图中的节点和边初始化特征嵌入。
  2. 2.
    特征传递与聚合
    • 在核苷酸图内,通过多层消息传递(Message Passing)机制,使信息沿着骨架边、碱基配对边和假结边传播,以捕获局部核苷酸相互作用。
    • 在树图内,通过类似的机制在环节点和茎边之间传递信息,学习全局拓扑模式。
  3. 3.
    层级特征融合:这是模型的关键创新。在树图的消息传递过程中,模型会动态地从对应的核苷酸图中“读取”(Readout)子结构信息,并与树图节点的特征进行融合。这种融合机制使得模型能够将微观的碱基配对细节与宏观的几何形状联系起来。
  4. 4.
    角度回归:处理后的树图特征,特别是代表目标3WJ节点的特征,被输入到一个多层感知机(Multilayer Perceptron, MLP)中,最终回归预测出三个分支间角度(θ1、θ2、θ3)。
    模型的损失函数是预测角度与真实实验测量角度之间的均方误差。
3. 结果与讨论
3.1. 预测性能评估
在内部独立测试集上的评估表明,R3J-AGNN在预测RNA 3WJ分支间角度方面表现出稳健且一致的性能。模型预测的角度的平均绝对误差较小,且与实验测得的几何真值高度相关。为了进一步验证模型的泛化能力,研究团队在额外的基准数据集上进行了测试,包括从RNA-Puzzles竞赛中选取的结构,结果表明R3J-AGNN的预测精度优于或与现有方法相当。特别是,模型展现了对不同结构特征的3WJ的良好适应性,表明其学到的表示具有普遍性。
3.2. 模型可解释性与特征重要性分析
通过分析模型中不同特征通道的贡献以及注意力机制(如果模型中包含)的权重,研究探索了影响分支间角度的关键因素。分析发现,除了连接体本身环区的序列和长度信息外,连接体周围环区域(如发夹环、内环)的大小和位置,以及连接体所连接的螺旋茎的长度,都对最终的角度有显著影响。这表明R3J-AGNN成功地学习了核苷酸水平细节与整体拓扑约束之间的复杂耦合关系,而非简单地记忆特定模式。
3.3. 应用:指导RNA三级结构建模
预测得到的分支间角度可以作为强几何约束,用于改进RNA三级结构的从头建模或对预测模型进行优化。研究展示了如何利用R3J-AGNN预测的角度,通过几何重建或将其作为空间约束整合到现有的分子建模软件(如Rosetta)中,生成更接近天然状态的RNA 3D结构模型。与不施加此类约束的建模相比,使用R3J-AGNN提供约束的模型在整体拓扑准确性,特别是连接体区域的结构保真度上,有明显提升。
4. 结论与展望
本文提出的R3J-AGNN是一种新型的深度学习框架,专门用于从RNA二级结构预测三叉连接体的分支间几何。通过创新的双分辨率层级图神经网络设计,该模型整合了从碱基到拓扑的多尺度信息,实现了对RNA连接体三维几何的高精度、数据驱动式预测。这项工作为克服RNA三级结构建模中的一个关键瓶颈提供了有效工具,所预测的几何约束可直接用于改进现有建模流程,有望在RNA设计、功能注释和基于结构的药物发现等领域发挥重要作用。
未来工作可以沿着几个方向展开:将模型扩展至预测四叉乃至更多分支的连接体;整合进化协变信息或来自RNA语言模型的序列特征,以进一步提升预测能力;探索模型在包含假结的RNA结构上的适用性;最后,开发一个集成的计算流程,将角度预测与全原子结构重建无缝结合,实现从序列到三维结构的端到端预测。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号