通过监督分子动力学研究结构无序现象：揭示精氨酸-甘氨酸-甘氨酸介导的核糖核酸内在无序区域的识别机制

《Journal of Chemical Information and Modeling》：Structuring Disorder via Supervised Molecular Dynamics: Uncovering Arginine-Glycine-Glycine-Mediated Ribonucleic Acid-Intrinsically Disordered Region Recognition Mechanisms

【字体：大中小】 时间：2026年05月11日 来源：Journal of Chemical Information and Modeling 5.3

编辑推荐：

　　高分辨率图像下载 MS PowerPoint 幻灯片近年来，RNA 在基因调控和细胞稳态中发挥了核心作用，其功能远远超出了作为 DNA 和蛋白质之间中介的传统角色。此外，RNA 结合蛋白不仅通过其折叠结构域，还通过内在无序区域（IDRs）来协调许多这些过程。特别需要注意的是富

　　高分辨率图像下载 MS PowerPoint 幻灯片

近年来，RNA 在基因调控和细胞稳态中发挥了核心作用，其功能远远超出了作为 DNA 和蛋白质之间中介的传统角色。此外，RNA 结合蛋白不仅通过其折叠结构域，还通过内在无序区域（IDRs）来协调许多这些过程。特别需要注意的是富含精氨酸-甘氨酸的基序，这些基序赋予这些区域显著的多功能性、灵活性和相互作用适应性。然而，这些区域的动态性质对它们的结构表征和与 RNA 的相互作用计算建模构成了重大挑战。在这项研究中，我们探讨了监督分子动力学（SuMD）在原子分辨率下重建 RNA 与无序蛋白区域之间识别机制的适用性，同时捕捉结合过程的多步骤性质。通过关注两个实验确定的系统 SF3A1-UBL/U1-SL4 和 FUS RRM/U1-SL3，我们展示了 SuMD 可以再现涉及无序区域和结构化区域的结合路径，捕捉到瞬态接触和相互作用层次结构。我们将这种方法扩展到一个缺乏实验确定复杂结构的潜在系统，得到了与实验突变数据一致的模型。这种方法为理解 IDRs 如何识别和调节 RNA 提供了新的视角，并为这类复合物的结构假设生成提供了依据，为未来在 RNA-蛋白质靶向治疗中的应用铺平了道路。

**特别问题**
作为《化学信息与建模杂志》特别问题“通过计算编辑 DNA 和 RNA”的一部分发布。

**引言**
核糖核酸（RNA）的作用远远超出了其作为 DNA 和蛋白质之间的中介的传统功能，它参与基因调控、催化生化反应并维持基因组的完整性。(1) 尽管只有少量转录组编码蛋白质，但相当一部分生成了非编码 RNA（ncRNAs），其失调与许多疾病相关，包括癌症和神经退行性疾病。(2,3) 随着 RNA 生物学的最新进展，人们对开发基于 RNA 的治疗方法产生了浓厚的兴趣，旨在调节 RNA 功能或基因表达以治疗疾病。(4) 在这一背景下，理解 RNA 结合蛋白（RBPs）如何与 RNA 相互作用至关重要，这些蛋白质形成了参与广泛细胞过程的核糖核蛋白复合物，包括转录和转录后调控，以及无膜细胞器（如应激颗粒和核仁）的形成。(5?7) 尽管早期的结构研究主要集中在折叠的 RNA 结合结构域上，但现在已知许多 RBPs 含有广泛的内在无序区域（IDRs).(8) 这些区域缺乏稳定的三级结构，并通过动态的多重接触与 RNA 相互作用，这对传统的结构-功能范式提出了挑战。(9) 在 IDRs 中发现的最显著的基序是精氨酸-甘氨酸（RG）和精氨酸-甘氨酸-甘氨酸（RGG）重复序列。RG/RGG 结构域是人类蛋白质组中第二常见的 RNA 结合结构域，在至少有两个紧密间隔重复序列的 1,800 多种蛋白质中出现。(10,11) 由于它们独特的分子特征，含有 RGG 基序的蛋白质参与了广泛的细胞过程，包括 DNA 修复、转录、RNA 剪接和翻译。(12) 精氨酸中的平面、带正电的胍基团与带负电的 RNA 主链发生静电相互作用，以及氢键和阳离子-π 相互作用，而相邻的甘氨酸残基赋予了主链高度的灵活性。(12?14) 这些属性共同赋予了特异性和适应性，使含有 RGG 的蛋白质能够与多种伴侣和 RNA 目标相互作用。(11) 尽管它们在生物学上很重要，但 RG/RGG-RNA 复合物的高分辨率结构仍然很少。到目前为止，只有少数蛋白质数据库（PDB）条目(15?18) 描述了人类 RG/RGG 基序与 RNA 之间的直接接触，这反映了这些高度灵活和无序区域的实验挑战。进一步的结构表征对于理解这些基序如何参与 RNA 处理和运输以及改变的相互作用如何损害生理功能并促进疾病发展至关重要。从这个角度来看，计算建模可以作为研究这些过程中涉及的分子机制的关键工具。

**方法**
已经应用了多种基于计算的方法来模拟 RNA-蛋白质复合物，从分子对接和分子动力学 (MD) 模拟到最近基于人工智能 (AI) 的结构预测技术，但在处理 IDRs 时仍存在局限性。(19) 基于 AI 的预测器在生物分子建模方面显示出巨大的潜力，(20,21) 但它们在模拟内在无序区域 (IDRs) 和蛋白质-RNA 复合物方面存在固有的局限性，(22,23) 这可能是因为训练集中缺乏 RNA 和 RNA-蛋白质复合结构。(24) 特别是，基于 AI 的预测器通常将 IDRs 模拟为低置信度的静态螺旋结构，忽略了它们的动态结合模式和序列特异性接触。(24) 另一方面，分子对接仍然是模拟分子识别的最常用的计算策略之一。(25,26) 它最初是为研究小分子-蛋白质相互作用而开发的，(27) 之后扩展到蛋白质-蛋白质(28) 和蛋白质-肽(29) 系统，以及更近期的核酸-蛋白质复合物。(30,31) 尽管标准对接工具已经发展出更高的准确性来处理结构化的蛋白质和 RNA，但它们应用于无序蛋白区域仍然很困难。确实，RNA 和许多 RNA 结合蛋白的内在灵活性仍然是现有对接框架面临的主要障碍。(32) 内在无序蛋白质 (IDPs) 或区域 (IDRs) 的存在，它们缺乏稳定的三级结构并参与动态的多价相互作用，(33) 进一步增加了复杂性，使得这些相互作用的准确预测成为一个未解决的问题。在对接之前或之后整合分子动力学 (MD) 或其他基于 MD 的技术对于采样现实的 IDR-RNA 构象是不可或缺的。(34) 实际上，MD 提供了更详细的结合过程视图，明确模拟了溶剂和离子，并考虑了受体和配体的灵活性。在过去的几年中，无论是经典的全原子分子动力学模拟(35,36) 还是粗粒化 MD(37) 都被用来研究 RG/RGG 和其他 IDRs-RNA 相互作用。尽管这些研究证明了 MD 在研究这些复合物方面的实用性，但它们都有一个关键的限制：模拟通常从已形成的结合状态开始，忽略了无序区域在初始目标识别过程中的作用。此外，捕捉这种罕见结合事件所需的高计算成本通常将 MD 限制在细化对接上，而不是模拟整个结合路径。(38) 为了克服这些限制，开发了多种增强采样技术来加速生物分子识别过程的探索。(39) 许多方法，如元动力学、伞形采样和引导分子动力学，依赖于沿选定的集体变量应用能量偏置来增强采样。(40) 其他策略，包括复制交换和高斯加速 MD，旨在改进构象探索，而无需预定义反应坐标。(41,42) 尽管这些方法在表征构象景观和结合能量学方面被证明非常有价值，但将它们应用于 RNA-IDR 系统仍然具有挑战性，因为存在映射非物理状态的风险以及定义集体变量和重新加权能量表面的难度。为了应对这些计算限制，监督分子动力学 (SuMD) 是一种有效的替代方案。这种方法通过从配体-受体（受监督）距离减小的状态开始运行简短的经典 MD 模拟来加速配体-受体识别事件的模拟，而不引入系统能量偏置。因此，SuMD 允许在比传统 MD 可达到的时间尺度短得多的时间内高效重建原子分辨率的结合机制，(43) 并捕捉整个系统的固有灵活性，包括多种配体类型（小分子、(44?49) 大环、(50) 肽(51)）和目标（可溶性蛋白质、(52,53) 膜受体、(54?56) 和核酸(57?59)），使其特别适合研究 IDPs 对 RNA 的结合。与增强采样方法不同，SuMD 不修改底层的势能表面，而是通过在配体-受体距离缩短时运行简短的无偏模拟来调整采样，否则停止并重复。

**应用 SuMD 的多功能性**
我们通过调整模拟协议来研究 SuMD 在识别 RNA 和富含精氨酸-甘氨酸 (RGG) 基序方面的适用性。我们检查了两个实验确定的复合物：SF3A1 的泛素样 (UBL) 结构域与 U1 snRNA 主链环 4 (SL4) 的结合，(15) 以及 FUS 的 RNA 识别基序 (RRM) 与 U1 snRNA 主链环 3 (SL3) 的结合。(16) 具体来说，我们关注的是 RGG 基序与结构化结构域相邻的复合物，而不是完全无序的仅含 RGG 的系统，以便在定义的结构背景下表征 RGG 基序对 RNA 识别的贡献。此外，在评估 SuMD 重现实验结构的能力后，我们还前瞻性地研究了一个没有高分辨率复合结构可用的系统，涉及内在无序蛋白 SERF2 和端粒 G-四链 RNA (TERRA12)。这使得能够测试 SuMD 是否能够生成与实验数据一致的 RNA-IDP 复合物的结构假设，从而为 SuMD 在预测场景中的应用铺平了道路。

**材料与方法**
**硬件概述**
结构制备、MD 模拟的设置以及随后的分析是在一台装有 24 核心 Intel Core i9–14900K 6.0 GHz 处理器的 Linux 工作站上完成的。分子动力学模拟是在由 30 个 NVIDIA GPU (GTX 980-RTX4090) 组成的集群上进行的。

**结构制备**
RNA-蛋白质复合物的实验确定的三维坐标是从蛋白质数据库 (PDB) 中检索的 (60) (PDB ID: 7P0V, (15) 6SNJ, (16) 2KBP, (61) 和 9DT0 (62))。对于 NMR 结构 (6SNJ, 2KBP, 和 9DT0)，根据沉积的选择标准选择了第一个构象。结构制备使用了 Molecular Operating Environment (MOE) 2024.06 中的几个工具。(63) 具体来说，使用了“结构制备”工具来识别和纠正初始结构中的差异。去除水分子和非蛋白质或非核苷酸残基后，将蛋白质从结合位点移动至少 30 ? 的距离，并远离最近的受体原子。然后应用“Protonate3D”工具根据原型和互变异构状态 (pH 7.4, T 310 K, i.f. = 0.154) 替换缺失的氢原子。随后，使用 AMBER14:ETH 力场为氢原子分配部分电荷并最小化能量。

**MD 模拟的系统设置和平衡协议**
用于分子动力学 (MD) 模拟的 RNA-蛋白质复合物是使用 Visual Molecular Dynamics (VMD) (64) 1.9.3 和 AmberTools22 (65) 准备的。使用 ff14SB 力场对每个蛋白质或核苷酸原子进行参数化，并对 RNA 进行了 χ 修改 (χOL3)。(66?68) 系统在立方体盒子中溶解，复合物与盒子边界之间有 20 ? 的垫片，使用 TIP3P 水模型。(69) 为了中和系统并达到 0.154 M 的生理盐浓度，添加了钠 (Na+) 和氯 (Cl–) 离子。最后，进行了 500 步的能量最小化过程，使用共轭梯度技术消除碰撞和不利接触。

**平衡过程**
在开始生产阶段之前，使用了两步平衡过程。在第一步中，每个蛋白质和 RNA 原子在标准系综 (NVT) 中经过 1 ns 的模拟，受到 5 kcal mol–1 ?–2 的谐波位置约束。在第二步平衡过程中，相同的约束仅应用于核苷酸和蛋白质主链，在等温-等压系综 (NPT) 中进行等长的模拟。使用蒙特卡洛压力恒温器 (70) 在 NPT 模拟阶段保持压力为 1 atm，(70) 并在所有平衡阶段使用朗之万恒温器 (71) 将温度调节为 310 K。(71) 所有的 MD 模拟都使用基于开源 Python 包 OpenMM 的 ACEMD 3.7.6 (72) 引擎。(73) 采用了 2 fs 的积分时间步长，并使用 M-SHAKE 方法约束涉及氢原子的键。(74) 使用粒子网格 Ewald 方法计算长程静电相互作用，(75) Lennard-Jones 相互作用的切换距离为 7.5 ?，Lennard–Jones 和实空间静电相互作用的截止距离为 9.0 ?。**监督分子动力学（SuMD）模拟**
监督分子动力学（SuMD）是一种成熟的改进型分子动力学技术，用于在纳秒时间尺度上以原子分辨率研究分子识别机制。（43）与传统分子动力学不同，后者可能需要微秒才能捕捉到如配体结合等罕见事件，SuMD通过选择性地保留配体接近目标的过程来加速这些现象的观察。该方法通过一系列短时间、无偏见的分子动力学模拟（称为SuMD步骤）来实现，这些模拟在310 K下采用正则系综（NVT）进行，每次模拟持续300皮秒。每个步骤结束后，会计算配体与用户定义的结合区域之间的质心距离。然后对这些随时间变化的距离拟合一条直线，并计算该直线的斜率。如果斜率为负，表明配体正在接近结合位点，则认为该步骤是有成效的并被保留；反之，如果斜率为正，则表示配体没有接近结合位点，该步骤会被丢弃。有成效步骤的最终坐标将作为下一步的起点，并通过朗之万恒温器生成随机化速度。在当前的实现中，SuMD代码是用Python编写的，并利用Numpy和ProDy（76）模块在整个模拟过程中进行几何监督。在本研究中开发的具体应用中，整个轨迹被划分为两个不同的监督步骤：首先监督位于蛋白质无序区域的残基；当这些无序片段接近并稳定地与RNA部分接触后，监督重点转移到蛋白质折叠区域内的关键残基上。

**RNA-蛋白质复合物的经典分子动力学模拟**
进行了多次经典分子动力学（MD）模拟，以研究选定RNA-蛋白质复合物的构象动态。每个系统都是使用AmberTools22和VMD 1.9.2准备的，遵循之前为SuMD模拟描述的相同平衡程序。随后，参考复合物及其对应的SuMD轨迹的最终帧被分别进行100或500纳秒的经典MD模拟。

**SuMD和经典MD轨迹分析**
SuMD和经典MD轨迹的分析是使用一个自定义的Python 3工具进行的，该工具扩展了Salmaso等人（51）描述的原始软件的功能，允许分析和整个轨迹的结构和能量特性。通过使用MDAnalysis Python库（77,78）和Matplotlib（79）生成RMSD图和SuMD质心距离曲线来评估模拟过程中的结构几何形态。能量分析包括使用基于NAMD引擎（80）和AMBER14力场的NAMD Energy插件来估计整个轨迹中的配体-受体相互作用能。相互作用能计算为范德华相互作用和静电相互作用的总和。此外，通过同一插件还生成了每 residue 的相互作用能量分解，其中包含了蛋白质氨基酸和核酸配体的时间分辨能量贡献。仅考虑了每个组分中接触最频繁的25个残基，接触定义为距离在4.5 ?以内的原子对。除了轨迹分析外，这个Python工具还利用VMD生成了包含结构和能量指标动态叠加的视频表示。为了保持一致性，图表和视频中显示的所有残基编号均遵循相应受体的UniProt（81）FASTA序列（Splicing factor 3A亚基1的Isoform 2 Q15459、RNA结合蛋白FUS P35637、Small EDRK-rich Factor 2 SERF2的UniProt P84101）。本研究中使用的所有构建体的序列在支持信息中的表S1中报告。

**SuMD在模拟核酸与内在无序区域（IDRs）之间识别过程中的适用性**
通过测试该协议重现实验确定的含精氨酸-甘氨酸重复序列（RGG）IDRs蛋白与RNA之间结合模式的能力来评估监督分子动力学（SuMD）的适用性。此外，该方法还被前瞻性地应用于一个尚未通过实验解析结构的案例：一种不含RGG的无序蛋白，它通过带正电的残基与RNA相互作用。对于这两个回顾性案例，从实验解析的蛋白质-RNA复合物开始，将蛋白质链从RNA大分子上移开，然后使用SuMD来模拟完整的结合路径。对于第三个前瞻性案例，蛋白质和RNA的单个PDB结构在相同条件下随机放置，相距30 ?。在先前发表的经典SuMD工作流程中（43,57,58），会运行一系列连续的短时间模拟（SuMD步骤），并监测两个相互作用伙伴的质心之间的距离。每个SuMD步骤结束后，收集的距离会被拟合为一条直线，其斜率被用作决策标准。如果斜率为负，则模拟进入下一个SuMD步骤；否则，通过重新分配原子速度来重新模拟当前步骤。最终通过合并连续SuMD步骤的结果得到完整轨迹。值得注意的是，SuMD代码允许用户定义相互作用分子，从而也可以选择用于距离监测的分子子结构。这在处理大型且灵活的分子配体时非常有用，因为这些配体的质心可能不与其参与目标识别的部分重合。这在含有IDRs的蛋白质和RNA的背景下尤为重要，因为IDRs的部分和蛋白质的结构化域可以与RNA的不同区域相互作用。

**评估SuMD再现RNA和含IDRs蛋白识别能力**
最初，SuMD是通过经典工作流程应用的，即监测整个RNA与整个含IDRs蛋白之间的质心距离。但这些尝试并未取得成功（数据未显示）。因此，在这项工作中引入了一个两阶段监督协议，称为监督步骤1和步骤2：首先监测RNA与蛋白质无序区域之间的距离，然后监测与蛋白质结构化区域之间的距离。更具体地说，在步骤1中，监测蛋白质内在无序区域向RNA的接近过程；而在步骤2中，重点监测位于蛋白质结构化区域内的关键残基。监督顺序基于初步模拟，这些模拟观察到首个RNA-蛋白质接触点位于蛋白质的无序区域，如下所述。对于每个测试案例，从相同的初始配置开始进行了三次独立重复实验。

**回顾性验证**
使用了两个实验解析的复合物作为回顾性验证系统，以评估两阶段SuMD方法再现复杂实验结构的能力：SF3A1的UBL（类泛素）结构域与U1 snRNA茎环4（SL4）（PDB 7P0V，X射线）的结合，以及FUS的RNA识别基序（RRM）与U1 snRNA茎环3（SL3）（PDB ID: 6SNJ，NMR）的结合。作为前瞻性测试案例，研究了SERF2（Small EDRK-rich Factor 2；PDB ID: 9DT0，NMR）与G四链RNA TERRA12（PDB ID: 2KBP，NMR）之间的相互作用，这些复合物的个别结构是已知的，但没有实验解析的复合物数据。

**前瞻性案例分析**
对于回顾性系统，通过评估该方法再现实验确定的结合几何形态及相应的相互作用能指纹的能力来评估SuMD的性能，从而不仅评估结构一致性，还评估相互作用网络的保持情况。对于前瞻性案例，同样应用了这些分析来表征预测结合模式的相互作用特征及其与实验每 residue 结合数据（NMR-HSQC数据）的一致性，尽管没有结构参考。以下按结构复杂度递增顺序呈现了这三个案例研究：第一个案例涉及一种含有单个RGG重复序列的蛋白质与相对较小的RNA片段的结合；第二个案例涉及具有多个RGG重复序列、结构化的RRM结构域和较大的RNA茎环的蛋白质；第三个案例研究了内在无序的非RGG蛋白SERF2与结构化的G四链RNA TERRA12之间的相互作用。

**U1 snRNA茎环4与人类SF3A1类泛素结构域复合物**
人类SF3A1蛋白是异源三聚体SF3A复合体的一个亚基，该复合体与SF3B复合体一起在剪接过程的早期阶段起关键作用。（82,83）这种初始相互作用涉及SF3A1的UBL（类泛素）结构域直接与U1 snRNA的茎环4（SL4）区域结合。（84）2022年，首次解析出了该复合体的高分辨率结构，突显了SF3A1 UBL结构域C端无序区域的关键贡献，该区域具有带正电的RGGR基序。（15）解析的结构包括UBL结构域（残基704–791），包含一个富含β-折叠片的核芯和一个带有RGGR基序的未折叠C末端尾部。这个C末端片段插入到U1-SL4 RNA的主沟槽中（残基139–162），与UBL结构域的球状部分建立形状和序列特异性相互作用。参与RNA识别的主要残基包括C末端尾部的Arg788和Arg791，它们与RNA建立强烈的静电和氢键相互作用；同样位于该区域的Gly789和Gly790通过增强局部灵活性并促进插入RNA沟槽来发挥作用。此外，球状结构域中的几个残基（Lys717、Lys754、Lys756、Lys765和Lys786）也与RNA相互作用，补充了无序尾部的作用。

**初步稳定性评估**
为了初步评估沉积复合物的稳定性并表征其天然构象中的相互作用网络，进行了500纳秒的经典分子动力学模拟。分析结果显示，在模拟过程中，复合物的RNA和蛋白质组分总体保持稳定（见图1A,B）。图1C,D中的每 residue 相互作用能量剖面提供了重要见解。所有先前被确定为复合物形成关键残基的蛋白质残基在整个模拟过程中都表现出有利的、稳定的能量贡献（见图1D），证实了它们在介导与G140、G141、C144、U145、G146、G148、U149、U150、C151、G154和C155等接触核苷酸的结合中的核心作用。

**基于分析的选择**
基于这些分析，选择了关键的蛋白质残基和RNA核苷酸，以确定SuMD在两个监督阶段中监测的距离。首次尝试是将监督步骤1应用于位于蛋白质折叠区域内的残基；特别是选择Lys756的质心作为折叠区域的代表，并在RNA对应物上选择U149（在结合状态下与Lys756相互作用）。所得轨迹导致的最终状态与实验X射线结构差异显著（见表S2），并且无结构区域未能有效进入RNA的主沟槽。另一方面，这些轨迹一致表明，最初的蛋白质-RNA接触主要由内在无序的带电片段介导。如图S2A（支持信息）所示，对于SF3A1-U1-SL4系统，在Run2和Run3中，最早的接触是通过无序尾部发生的，而在Run1中，无序和折叠区域几乎同时接近RNA。这些观察结果表明，尽管最初对结构化区域进行了监督，但内在无序片段在启动识别过程中起主导作用。因此，重新设计了监督协议，在监督步骤1中监测无序区域向RNA的接近过程。这一修订后的策略使得早期的相互作用模式更加清晰和一致，如图S3A所示，直接对无序区域进行监督能够使两个系统的初始接触阶段在重复实验中都得到明确的定义。这些初步分析共同支持采用两步监督方案：首先由无序区域驱动初始识别（监督步骤1），然后是结构化区域的监督（监督步骤2），以捕捉随后的稳定事件，具体细节如下。在监督步骤1中，重点关注内在无序的RGGR基序（Arg788、Gly789、Gly790和Arg791），并将其导向由核苷酸G141、U145和G154定义的质心。这些核苷酸在上面描述的经典MD模拟和参考结构中都被确定为RGGR尾部的相互作用热点。在监督步骤2中，选择重点转移到了Lys756和核苷酸U149，后者也是在经典MD轨迹中观察到的一个关键接触点，并在图1C中突出显示。第二阶段监督的目的是在无序尾部首次接触后促进折叠球状结构的正确取向。

从相同的初始配置开始，在相同的监督步骤1和步骤2条件下进行了三次独立的SuMD模拟。特别是进行了三次独立的监督步骤1，使得非结构化区域接近其实验确定的结合构象（表S2）。第二次SuMD模拟从这三次独立实验的最后一个帧开始，在监督步骤2的条件下进行。值得注意的是，尽管从相同的初始配置开始并应用相同的监督标准，但三次实验结果显示出RNA相对于蛋白质的不同相对取向（图2B-D），探索了主要和次要的沟槽。

图2
(A) 参考复合物的结构表示以及用于SuMD模拟的蛋白质（绿色）和RNA（橙色）的示意性分离。
(B, D) 在监督步骤1和步骤2期间，Run1（B）、Run2（C）和Run3（D）的受监督质心距离随时间的演变。对于每个重复实验，距离曲线展示了步骤1期间受监控的质心距离的逐渐减小，随后是引导最终接近的第二阶段监督。圆圈点表示每个监督步骤的最后一个帧，而相应的结构快照突出了每个阶段结束时蛋白质和RNA的相对取向。

最终的2步SuMD模拟结果通过与实验X射线结构对齐核酸主链并计算蛋白质主链的RMSD进行了比较。这些结果汇总在表1中，其中Run1显示出与参考PDB结构相对位置最接近的轨迹。

表1. SuMD模拟（步骤2）末帧与X射线结构（基于RNA主链对齐后的蛋白质主链）之间的RMSD值汇总
RMSD last_S2 VS X-ray SF3A1FUS
Run1 4.2 ? 38.25 ?
Run2 33.64 ? 14.31 ?
Run3 27.61 ? 12.41 ?

4.2 ?的RMSD表明了两步SuMD方法能够生成接近天然的SF3A1-RNA复合物构象。随后，评估了区分Run1与诱饵（Run2和Run3）的可能性，以探讨该方法预测RNA-IDR复合物结构的前景应用性。在这方面，通过将不同重复实验的最后一个帧送到经典MD模拟中，比较了所得复合物的稳定性。目的是验证在全识别过程（SuMD步骤2）结束时获得的接近天然构象在MD模拟中是否在几何和能量上比诱饵更稳定。此外，还评估了SuMD步骤1之后获得的识别过程中间状态的稳定性，旨在确定是否可以优先考虑通向接近天然结合状态的识别路径，考虑到结合时非结构化区域的稳定化，从而建议在未来的场景中将哪些SuMD步骤1扩展到SuMD步骤2。

从每个监督阶段的最后一个帧开始，进行了额外的100纳秒经典MD模拟，评估了几何稳定性和相互作用能量。具体来说，由于在监督步骤1期间监测了蛋白质无序区域向RNA的接近过程，因此理想情况下最终的有效状态应呈现其类似天然的构象，因此从初始状态评估了无序尾部的RMSD和相互作用能量。在监督步骤2之后，达到复合体的完全结合状态时，评估了整个蛋白质的几何和能量稳定性。这三个运行的分析结果分别在表S3和图S4和S5（支持信息）中报告。在结构稳定性和相互作用强度方面，Run1在两个监督步骤结束时都表现最佳。步骤1之后，Run1显示出最低的平均RMSD（3.35 ± 0.61 ?）和最有利的蛋白质-RNA相互作用能量（?452.9 ± 31.4 kcal/mol），相比之下，Run2的RMSD为6.61 ± 1.87 ?；能量为?336.9 ± 80.0 kcal/mol，Run3的RMSD为15.78 ± 4.69 ?；能量为?358.5 ± 71.8 kcal/mol。步骤2之后也观察到了类似的趋势。Run1保持了较低的RMSD（1.93 ± 0.89 ?），同时实现了最有利的相互作用能量（?904.5 ± 52.2 kcal/mol）。相比之下，Run2的RMSD相当（3.98 ± 1.22 ?），但相互作用能量明显较低（?651.3 ± 71.3 kcal/mol），而Run3表现出显著的结构不稳定性（RMSD：23.57 ± 10.42 ?），以及较高的相互作用能量变异性（?677.1 ± 138.0 kcal/mol）。因此，在这种情况下，从最后一个SuMD帧开始的延长MD模拟的RMSD和能量分析似乎能够区分复合物的X射线样构象和诱饵。

Run1的两个监督阶段的完整轨迹显示在视频S1（支持信息）中。在这个模拟中，蛋白质和RNA之间的完整识别过程在大约10纳秒的模拟时间内完成。图3展示了结合过程的示意图总结。参与第一阶段监督的残基从相互作用的最早阶段开始就可见，并在整个模拟过程中保持稳定（图3C,D）。相比之下，参与第二阶段的残基较晚参与，这与顺序结合机制一致。在最后的SuMD帧中，蛋白质主链的RMSD相对于参考结构为4.2 ?。相比之下，对结合至关重要的RGGR无序尾部的RMSD显著较低，为1.3 ?。

图3
(A) SF3A1-U1-SL4 RNA-蛋白质复合物在结合过程中的示意图。蛋白质用绿色表示，轨迹用橙色表示，核酸用橙色表示。
(B) 在受监督的分子动力学过程中，蛋白质相对于晶体参考结构的RMSD，显示出向类似天然结合状态的构象收敛。
(C-D) 结合过程中核酸（C）和蛋白质（D）的每个残基的相互作用能量热图。相互作用能量以白色（中性）到深蓝色（非常有利）进行颜色编码，负值表示残基级对结合的更强贡献。

为了评估从选定的Run1生成的SuMD复合物的稳定性，之前分析的100纳秒经典MD轨迹被延长到500纳秒，并对实验参考结构进行了相同的分析。如图4B所示，系统保持了稳定的几何结构，蛋白质和RNA主链的RMSD值在1到3 ?之间，与参考晶体动力学（图4E）非常吻合。随着时间的推移，相互作用曲线也观察到了类似的趋势（图3C,F）。RNA和蛋白质的能量贡献与从实验复合物模拟中获得的结果相当。总体而言，这些结果证实了SuMD在结构对齐和相互作用能量方面复制天然结合模式的能力，为其应用于更复杂的含RGG系统提供了可靠的基础。

图4
(A) 通过SuMD获得的SF3A1-U1-SL4复合物的结构表示：蛋白质用绿色表示，RNA用橙色表示。
(B) 从SuMD生成的复合物开始，经过500纳秒经典MD模拟后，蛋白质（绿色）和RNA（橙色）主链的RMSD。
(C) 在SuMD衍生的复合物模拟过程中，核酸（上）和蛋白质（下）的每个残基的相互作用能量曲线。蓝色阴影表示更有利的相互作用能量。
(D) 晶体参考复合物的结构表示：蛋白质用蓝色表示，RNA用橙色表示。
(E) 在参考结构的500纳秒经典MD模拟中，蛋白质（蓝色）和RNA（橙色）主链的RMSD。
(F) 在晶体复合物模拟过程中，核酸（上）和蛋白质（下）的每个残基的相互作用能量曲线。

U1 snRNA茎-Loop 3与FUS/TLS RNA识别基序（PDB ID: 6SNJ）的复合物
人类FUS（在肉瘤中融合）蛋白是一种多功能DNA/RNA结合蛋白，属于FET家族，包括FUS、EWSR1和TAF15。(85) 也被称为TLS（在脂肪肉瘤中转移），FUS参与多种细胞过程，包括转录调节、前mRNA剪接、RNA运输、DNA损伤响应和同源重组。(86) 它包含两个主要的功能域：一个N端低复杂性区域，富含QGSY和甘氨酸残基，介导液体-液体相分离（LLPS）和蛋白质-蛋白质相互作用，(87) 以及一个C端核酸结合区域，含有RNA识别基序（RRM）和锌指（ZnF），两侧都富含RGG序列。(88) 其中，RRM域最近被证明是RNA结合的关键介导因子。2019年，首次发表了FUS RRM与23个核苷酸的RNA茎环结合的NMR结构。(88) 2020年，又发表了第二个NMR结构，显示RRM与U1 snRNA的SL3结合，后者是剪接体中的生理相关RNA靶标（图1A）。(16) 重要的是，该结构还包含三个插入RNA次要沟槽的RGG重复序列，提供了关于它们通过无序、带正电的相互作用调节RNA识别的直接见解。这个结构揭示了无序RGG重复序列如何塑造RNA识别的关键机制。NMR模型显示，3′ YNY基序（U105、G106和U107）与RRM β-折叠层表面建立了稳定的接触。此外，扩展的α1-β2环包含带电残基如Lys312、Lys315和Lys316，通过主要沟槽的相互作用增强了结合。重要的是，RGG重复序列插入RNA的次要沟槽，形成了一个灵活的带正电接触网络，似乎调节了特异性并稳定了复合物。这种独特的相互作用模式扩展了RRM-RNA识别的传统观点，表明无序区域可以作为RNA结合的可适应调节因子。

为了评估从NMR衍生的FUS-SL3参考结构的构象稳定性和相互作用动态，我们进行了500纳秒的经典MD模拟。与较小且更刚性的SF3A1测试案例相比，这个系统更大且结构更复杂，包括一个含有三个RGG重复序列的14个残基的内在无序区域。尽管具有固有的灵活性，这个复合物在整个轨迹中仍然保持稳定，蛋白质和RNA的主链RMSD值在5 ?左右波动，偶尔会有略高于6 ?的峰值（图5A）。

图5
(A) 分子动力学模拟过程中蛋白质FUS（蓝色）和RNA U1-SL3（橙色）主链的均方根偏差（RMSD），表明复合物的总体结构稳定性。
(B) 在选定时间点提取的代表性构象，说明了整个轨迹中蛋白质（蓝色）和RNA（橙色）的相对取向和构象稳定性。
(C, D) 在模拟过程中计算的核酸（C）和蛋白质（D）成分的每个残基的相互作用能量曲线，突出了在晶体模型中对复合物稳定性有贡献的关键残基。

与这些观察结果一致，参考复合物的经典MD模拟进一步突出了带正电蛋白质残基的能量优势。无序区域内的所有精氨酸都表现出明显有利的相互作用能量，而蛋白质的结构化部分通过几个赖氨酸提供了额外的稳定接触。这些残基在整个模拟过程中也被发现是相互作用的关键决定因素，与参考研究中报告的发现一致。在RNA方面也观察到了类似的趋势：核苷酸A104到G110形成了一个持久且能量上有利的簇，代表了与蛋白质在主要和次要沟槽中相互作用的RNA核心部分。基于这种轨迹分析，选择了关键的RNA相互作用残基来定义两步SuMD监督协议。与之前的案例研究类似，在首次尝试监督RNA的结构化域方法但没有成功之后（表S2显示了RMSD值），设计了监督策略，首先促进无序区域的相互作用，然后稳定蛋白质的结构化部分。在监督步骤1中，监测了RNA上的核苷酸U105、G106、U107、G108、G109和G110的质心与无序区域中的六个精氨酸（Arg371、Arg372、Arg377、Arg383、Arg386和Arg388）的质心之间的距离，RNA的次要沟槽迅速参与其中，IDR作为初始锚定界面。在监督步骤2中，监测了一个富含赖氨酸的环（Lys312、Lys315和Lys316）向RNA的主要沟槽（U105、G106、U107、G108、G109和G110）的接近过程。

从相同的初始配置开始，在相同的监督步骤1和步骤2条件下进行了三次独立的SuMD模拟，与之前案例中应用的协议一致。尽管起点和监督标准相同，但三次重复实验探索了不同的相互作用模式和相对的RNA取向，如表1中报告的实验NMR复合物的RMSD值所示，反映了广泛的构象景观而非收敛于单一的相同几何结构。这种行为表明，共同的初始配置并没有产生偏见，而是允许对能量上有利的识别路径进行广泛的采样。在三次重复实验中，Run3展示了与NMR最相似的姿态。与之前的案例研究一样，为了验证客观区分并高度排名Run3与其他实验的可能性，检查了通过SuMD获得的复合物的稳定性。将监督步骤1和步骤2的最后几个帧提交给额外的100纳秒的经典MD，以评估其稳定性。在步骤1结束时，评估了初始状态的RMSD和相互作用能量，重点关注无序段（残基376–390）；而在步骤2之后，分析扩展到整个蛋白质，以验证无序区域和结构化区域的稳定性。所有重复实验的初始状态和相互作用能量的相应RMSD数据在支持信息中报告（表S3和图S6及S7）。

在监督步骤1之后，Run3显示了无结构区域最低的平均RMSD（4.80 ± 0.60 ?），表明其结构稳定性相对较高，而Run1（7.30 ± 0.80 ?）和Run2（7.20 ± 0.60 ?）的RMSD值波动较大。从能量角度来看，Run3还展示了最有利的蛋白质-RNA相互作用能量（?590.00 ± 70.00 kcal/mol），其次是Run2（?520.00 ± 60.00 kcal/mol），而Run1的相互作用能量总体较低（?380.00 ± 40.00 kcal/mol）。在监督步骤2之后，Run3呈现出最低的RMSD值（6.00 ± 1.60 ?），与Run1（6.09 ± 1.69 ?）相当，且低于Run2（8.69 ± 3.04 ?），同时显示出三个重复实验中最有利的相互作用能量（?992.10 ± 110.30 kcal/mol），对比Run1（?835.20 ± 91.10 kcal/mol）和Run2（?660.80 ± 98.60 kcal/mol）。综合结构和能量指标表明，Run3提供了总体上最稳定和能量最有利的配置，支持其作为此案例研究中有生产力的轨迹。

在视频S2（支持信息）中，提供了选定的完整Run3。对该模拟的每个残基相互作用能量进行的分析，分别在核酸侧（图6C）和蛋白质侧（图6D）进行了评估，进一步支持了上述的机械图景。特别是在识别的早期阶段，可以观察到位于无序尾部的Arg377、Arg383和Arg388的明显初始参与。只有在后期阶段，位于球状结构环内的Lys312和Lys316的相互作用才变得明显，这与指导复合物逐步稳定的第二监督阶段一致。

图6
(A) FUS-U1-SL3 RNA-蛋白质复合体在结合过程中的示意图。蛋白质用绿色表示，轨迹用橙色表示，核酸用橙色表示。
(B) 在监督分子动力学过程中，蛋白质的骨架RMSD与晶体学参考结构相比较，显示了向天然结合状态的构象收敛。
(C, D) 结合过程中核酸（C）和蛋白质（D）的每个残基相互作用能量热图。相互作用能量从白色（中性）到深蓝色（非常有利）进行颜色编码，负值表示残基级对结合的更强贡献。

在最终的SuMD帧中，蛋白质骨架相对于参考结构的RMSD为12.4 ?，而含有RGG的无序尾部的RMSD较低，为6.3 ?。与SF3A1-U1-SL4测试案例相比，这些较高的RMSD值表明FUS具有内在的更大灵活性。在选定SuMD轨迹的早期识别阶段，在与RNA建立稳定接触之前，延长的无序尾部（残基376–390）表现出明显的构象可塑性。与之前研究中分析的较短无序段相比，这个更长区域探索了更广泛的构象空间。监测无序尾部相对于初始SuMD帧在第一次蛋白质-RNA接触之前的RMSD变化，平均RMSD为17.2 ?，最大偏差达到20.4 ?。这些波动反映了尾部的高内在灵活性，而蛋白质仍位于体相溶剂中，强调了识别过程的动态性质。一致地，对两个案例研究的参考实验结构的500纳秒经典MD模拟计算了Cα-RMSF，显示FUS的整体灵活性高于SF3A1，进一步支持了这种结合事件的动态本质。这一观察与FUS-U1-SL3复合物的实验NMR集合结果一致，其中含有RGG的尾部显示出显著的构象异质性（平均RMSD约为5.5 ?，沉积构象间的峰值高达约10.7 ?）。然而，关键几何相互作用区域附近的接近天然结合姿态（图7），以及RNA-蛋白质相互作用能量剖面的高度相似性，证实了SuMD在建模高度动态的RNA-蛋白质组装中的稳健性。

图7
(A) 代表FUS-U1-SL3相互作用的晶体学复合体（PDB ID：6SNJ）与SuMD模拟的最后帧的结构叠加。参考结构中的FUS蛋白质用蓝色表示，而SuMD模拟获得的FUS构象用绿色表示。RNA分子用橙色表示。
(B) 关注含有RGG重复序列的RNA在次要沟槽中的相互作用。
(C) 放大视图，突出显示RNA环与位于主要沟槽中的赖氨酸残基之间的相互作用。

与之前的案例一样，通过将之前分析的100纳秒经典MD轨迹延长到总共500纳秒，进一步模拟了由SuMD衍生的复合体，并将结果轨迹与从实验NMR结构开始的轨迹进行了比较。得到的RMSD和每个残基的相互作用能量剖面与参考模拟得到的结果非常相似（图8）。在两条轨迹中，核苷酸105–110始终表现出最强的有利相互作用能量，与β-折叠片、α1-β2环以及含有RGG的无序区域相互作用，它们与之前讨论的关键精氨酸和赖氨酸残基相互作用（图8C,F）。

图8
(A) 通过SuMD获得的FUS-U1-SL3复合体的结构表示：蛋白质用绿色表示，RNA用橙色表示。
(B) 从SuMD生成的复合物开始的500纳秒经典MD模拟中，蛋白质（绿色）和RNA（橙色）骨架的RMSD。
(C) SuMD衍生复合体模拟期间，核酸（上）和蛋白质（下）的每个残基相互作用能量剖面。较深的蓝色表示更有利的相互作用能量。
(D) 晶体学参考复合体的结构表示：蛋白质用蓝色表示，RNA用橙色表示。
(E) 参考结构的500纳秒经典MD模拟中，蛋白质（蓝色）和RNA（橙色）骨架的RMSD。
(F) 模拟期间，核酸（上）和蛋白质（下）的每个残基相互作用能量剖面。

含端粒重复序列的RNA 12（TERRA12，PDB ID：2KBP）与富含小EDRK因子2（SERF2，PDB ID：9DT0）的复合体
SERF相关蛋白质（富小EDRK因子）是小的（60-80个氨基酸）高电荷 polypeptides，其特征是一个保守的N端结构域，最初被鉴定为与年龄相关疾病相关的淀粉样蛋白形成的体内调节因子。在这个家族中，人类SERF2是一种内在无序的蛋白质，最近被发现是一种特定的RNA G-四聚体（rG4s）结合剂，rG4s是由富含鸟嘌呤的序列通过Hoogsteen碱基配对形成的非典型四螺旋RNA结构。rG4s越来越多地被认为是诸如端粒维护、应激响应和翻译控制等过程中的功能性调节元件。最近的生物物理和结构研究表明，SERF2以低微摩尔亲和力结合端粒rG4s（包括TERRA衍生的序列），并在拥挤条件下形成能够促进相分离的动态复合体，突出了其在核糖核蛋白凝集体形成中的潜在作用。在那项最近的研究中，详细描述了SERF2与不同长度的端粒rG4s（TERRA10、TERRA12和TERRA23）之间的相互作用，揭示了选择性结合、多聚体复合体的形成以及液-液相分离行为。尽管采用的方法无法确定复合体的实验3D结构，但通过NMR-HSQC技术鉴定了参与相互作用的关键核苷酸，特别是TERRA10和TERRA12系统中的G4、G5、G9和G10，以及SERF2中最相关的残基，从而区分了主要和次要的结合决定因素。由于缺乏实验解析的复合体结构，以及单独组分的可用性，SERF2（PDB ID：9DT0）和TERRA12（PDB ID：2KBP），使得这个系统特别适合应用两步SuMD方法进行探索性研究，遵循上述两个回顾性案例中采用的策略。尽管SERF2不是含有RGG/RG的蛋白质，但它高度无序，其N端（残基1–32）和C端（残基48–56）区域带正电荷，并由一个短的螺旋核心（残基37–47）分隔。实验证据表明，N端区域代表主要的RNA结合界面，而C端区域有助于复合体的后续稳定。这些结构和功能见解指导了两步SuMD协议。初始模拟条件如之前的案例研究中所描述。在监督步骤1中，通过监测N端区域的质心与RNA核苷酸G4、G5、G9和G10的质心之间的距离来进行监督。完成这一阶段后，启动了监督步骤2，监测C端区域向RNA的接近过程。在这种情况下，监督基于整个核酸的质心，与实验观察到的该区域不太具体的相互作用一致。在这些监督条件下，进行了三次重复的SuMD模拟。对于每次重复实验，将监督步骤1和步骤2的最后几个帧延长了100纳秒的经典MD，并使用之前描述的相同协议评估了平均蛋白质骨架RMSD值和蛋白质-RNA相互作用能量剖面。所有三次运行的结果在支持信息中报告（图S8和S9，表S3）。在监督步骤1之后，Run3显示了N端区域最低的平均RMSD（5.07 ± 1.11 ?）以及最有利的相互作用能量（?538.20 ± 77.40 kcal/mol），相比之下Run1（RMSD：5.86 ± 1.11 ?；能量：?494.80 ± 86.00 kcal/mol）和Run2（RMSD：6.55 ± 0.93 ?；能量：?489.80 ± 88.70 kcal/mol），表明在识别过程的这个阶段稳定性略有提高。然而，在第二步监督之后，Run1显示出最低的RMSD（5.20 ± 1.18 ?）和最有利的相互作用能量（?569.60 ± 74.30 kcal/mol），而Run2则表现出更高的结构波动（8.09 ± 2.49 ?）和不太有利的相互作用能量（?528.50 ± 76.50 kcal/mol）。Run3显示出最高的RMSD（11.96 ± 3.53 ?）以及最不利的相互作用能量（?430.20 ± 64.00 kcal/mol），表明在第二步监督之后稳定性降低。综合结构体和能量指标来看，Run1提供了最一致和最稳定的结合配置，这支持其作为最佳描述本案例研究中结合过程的轨迹的候选者。该模拟的轨迹在视频S3中提供。SuMD模拟的总长度约为18 ns，与之前案例研究中观察到的时间尺度一致。图9展示了整个结合过程的示意图。图9：(A) SERF2-TERRA12 RNA–protein复合体在结合过程中的示意图。蛋白质用绿色表示，核酸用橙色表示。(B) 完整SuMD结合过程的概述，显示了第一步和第二步监督期间的受监控的质心距离变化。(C, D) 结合过程中核酸（C）和蛋白质（D）的每个残基的相互作用能量热图。相互作用能量按颜色编码，从白色（中性）到深蓝色（强烈有利），负值越小表示残基层面对接合的贡献越大。高分辨率图像下载MS PowerPoint幻灯片。

正如先前系统所观察到的，每个残基的相互作用能量剖面（图9C，核酸；图9D，蛋白质）清楚地反映了两步监督策略。最初的能量贡献来自N端区域（残基1-16，图9D中突出显示）的带正电荷的残基，这些残基在参考研究中也被认为是化学位移分析中受扰动最显著的。只有在后期阶段，C端区域（Gln46、Lys47、Lys49和Lys54）的残基才显示出有利的能量贡献，这与第二步监督阶段引导复合体逐步稳定相一致。特别值得注意的是RNA的每个残基的相互作用能量剖面（图9C）。参与相互作用最强烈的核苷酸高度集中在G4–G11区域内，其中包括之前通过NMR-HSQC化学位移扰动确定为rG4识别关键决定因素的残基（G4、G5、G9和G10）。因此，作为SuMD Run1的最后一帧获得的姿态，在所有采样状态中被选为最稳定的，紧密反映了从实验数据推断出的相互作用模式，从而得到了SERF2-TERRA12 RNA–protein复合体的假想结构模型。

遵循之前案例研究中的相同协议，SuMD Run2的最后一帧进行了500 ns的经典分子动力学（MD）模拟，扩展了之前描述的100 ns模拟，以评估蛋白质和RNA的长期几何稳定性以及通过每个残基的相互作用能量分析来评估关键蛋白质-RNA相互作用的持续性。对SuMD衍生结构的视觉检查（图10A）显示，带正电荷的N端残基（以棍状表示）采取了朝向核苷酸G4、G5、G9和G10（也以棍状表示）的有利取向，这与预测的初级结合界面一致，这一点通过每个残基的静电相互作用分析得到了确认（图10B）。几何分析（图10D）表明，RNA在整个模拟过程中保持结构稳定，这反映在稳定的RMSD值上。尽管蛋白质几乎完全是无序的并且富含带正电荷的残基，但其RMSD在500 ns模拟期间的约350 ns内保持在约4 ?以下，短暂上升至约5 ?，然后再次降至4 ?以下。只有在最后的50 ns内，蛋白质的RMSD才上升到约7 ?；然而，考虑到其完全无序的性质和缺乏球状结构域，这种行为仍可以认为与稳定的结合集合体相容。图10：(A) 通过SuMD获得的SERF2-TERRA12复合体的结构表示。蛋白质用绿色表示，RNA用橙色表示。SERF2 N端的键合残基以棍状表示突出显示，而RNA的核苷酸G4、G5、G9和G10也以棍状显示以强调初级接触区域。(B) 从SuMD生成的复合体开始，蛋白质（绿色）和RNA（橙色）在500 ns经典MD模拟期间的RMSD。(C) 在SuMD衍生复合体模拟过程中，核酸（上）和蛋白质（下）的每个残基的相互作用能量剖面。较深的蓝色表示更有力的相互作用能量。高分辨率图像下载MS PowerPoint幻灯片。

重要的是，RNA（图10B）和蛋白质（图10C）的每个残基的相互作用能量剖面在整个模拟过程中保持一致，证实了选定的SuMD衍生最后一帧不仅在几何上稳定，而且在其关键分子相互作用方面也是稳定的。

讨论与结论

在这项研究中，我们首次应用了监督分子动力学（SuMD）来研究核酸与内在无序蛋白质（IDPs）之间的识别过程，特别关注含有RGG结构域或带正电荷的内在无序区域（IDRs）的蛋白质。尽管之前的技术应用主要集中在折叠良好的蛋白质-配体或蛋白质-RNA复合体上，但在这里，我们将它扩展到两个具有显著构象塑性的回顾性RNA-蛋白质系统：SF3A1-UBL结构域与U1 snRNA茎环4（SL4）的结合，以及FUS RRM结构域与U1 snRNA茎环3（SL3）的结合。选择这些系统不仅是因为它们在剪接调控中的结构和功能重要性，还因为它们所面临的固有挑战，即正电荷和灵活的区域主导了它们的结合界面，通常通过短暂的多步骤机制来介导识别。两步SuMD方法能够捕捉这些复杂的识别过程，重建出与实验确定的结构一致的结合姿态，尽管存在扩展的无序元素。每个系统都进行了三次实验，以评估识别过程的变异性：如表S3所报告的，独立运行产生了不同的结合姿态，反映了RNA-IDR界面的内在构象塑性和SuMD等技术的非确定性。虽然增加副本数量原则上可以提高采样覆盖率，但采用的三次运行在准确性和计算成本之间达到了一个实际的平衡，因为对于这两个回顾性系统，至少有一个副本的姿态与实验参考值在结构上非常接近，这支持了该协议的可行性。基于客观标准选择了有效的轨迹，这些标准结合了从SuMD轨迹的最后一帧的100 ns经典MD扩展计算出的蛋白质骨架的平均RMSD值和蛋白质-RNA相互作用能量剖面。这种基于稳定性的选择策略有助于识别出最一致地保留了有利几何和能量特征的轨迹，而不是仅仅依赖于与参考复合体的结构接近性。

在SF3A1-U1-SL4的情况下，该技术迅速再现了含有RGGR的尾部的天然排列以及相关的赖氨酸接触网络，大约在10 ns后。另一方面，结构更为复杂的FUS-U1-SL3组装需要大约35 ns的更长时间来实现稳定的结合姿态。基于这种回顾性验证，同样的SuMD协议随后被应用于一个缺乏实验确定复合体结构的前瞻性RNA-IDR系统，即SERF2与端粒rG4 RNA之间的相互作用，提供了一个与实验结合数据一致的复合体假想模型。该协议包括一个初始的SuMD姿态制定阶段，随后是经典MD的精细调整，从而识别出参与结合过程的残基，并再现了SF3A1-U1-SL4的实验确定的复合体，而FUS-U1-SL3的偏差较大，这与该系统的更大动态行为和结构复杂性一致。重要的是，在没有实验复合体结构的前瞻性SERF2-rG4案例中，同样的工作流程得出了与残基水平实验观察结果一致的结合模式，包括通过化学位移扰动分析识别的核苷酸上的相互作用富集。这种组合的几何和能量分析对于高度动态的系统特别相关，在这些系统中，构象灵活性和瞬态结合模式在模拟和实验结构中都很明显。在这种情况下，单独静态再现原子坐标不足以完全描述识别机制。因此，生成了残基级别的相互作用指纹，以监测关键能量贡献的时间演变，并将其与实验确定的复合体（回顾性系统）或独立的实验信息（如NMR衍生的结合决定因素（前瞻性系统）进行比较。

SuMD生成的复合体的稳定性在500 ns的经典分子动力学（MD）模拟中进行了评估，进一步突出了稳定复合体的残基，得出了与回顾性案例的参考MD模拟结果非常匹配的骨架RMSD值和每个残基的相互作用能量剖面。这些结果强调了该协议在生成合理的结合模式和研究这些区域对复合体形成和稳定的能量贡献方面的实用性。本工作强调了在SuMD监督过程中引导带正电荷的残基（精氨酸和赖氨酸）朝向带负电荷的RNA凹槽的关键策略。这种方法在捕捉多步骤结合路径方面非常有效，并可作为类似系统的一般指导原则，特别是当结构或生化证据表明静电引导起主导作用时。这些结果表明SuMD在研究RNA识别中的广泛应用潜力，尤其是在涉及无序区域的RNA识别中。所提出的方法仍有一些局限性：监督坐标的定义仍然依赖于先前的生化或结构知识。因此，与实验证据的仔细整合是必不可少的。鉴于解析RNA-IDR复合体所面临的实验挑战，尤其是那些具有高灵活性和瞬态相互作用的复合体，SuMD可以作为一个互补的计算工具，能够弥合残基级别的实验数据和三维结构假设之间的差距。前瞻性的SERF2-rG4应用展示了该方法如何通过提供一个与实验得出的相互作用模式一致的结构上连贯的模型来支持实验发现，即使在没有解决复合体结构的情况下。由于“退化特异性”，IDRs可以与广泛的核酸目标相互作用，并形成涉及剪接失调、RNA颗粒异常调节和与富含RGG的蛋白质（如FUS和TAF15）相关的神经退行性疾病的RNA-IDP复合体。鉴于探测这些相关复合体的实验挑战，SuMD可以作为一种可靠的工具，能够在与蛋白质-小分子研究中相当的计算时间内高效地研究这些相互作用。此外，与增强的采样技术（如热滴定MD（TTMD）（83）相结合，可以实现结合热力学、稳定性和瞬态接触的能量贡献的系统性探索。识别关键残基和结合基序是指导基于小分子或寡核苷酸的抑制剂合理设计的重要步骤。在这种情境下，SuMD作为基于结构的药物发现管道中的有价值工具，对于靶向RNA-IDR相互作用非常有用。

此外，与互补的增强采样技术（如热滴定MD（TTMD）（83）的结合，可以实现结合热力学、稳定性和瞬态接触的能量贡献的系统性探索。

热点排行