PRISM:一种基于结构的计算方法,通过整合三维构象和化学信息来识别靶向RNA的小分子

《European Journal of Medicinal Chemistry》:PRISM: A Structure-Guided Computational Approach for Identifying RNA-Targeting Small Molecules by Integrating 3D Conformational and Chemical Information

【字体: 时间:2026年03月26日 来源:European Journal of Medicinal Chemistry 5.9

编辑推荐:

  结构导向的计算框架PRISM通过整合RNA三维原子结构、序列、配体拓扑图和化学组成,动态调整结构或序列信息权重,有效预测RNA-小分子结合活性,在HTS数据集中展现强泛化能力,支持基于结构的RNA药物设计。

  
刘星宇|李云峰|刘一佳|袁俊|刘天浩|周茂园|李家兴|张志伟|王晓青|马天天|纳斯罗拉·莫加达姆|侯赛因·甘吉杜斯特|郭建金
中国北京石油化工技术研究院人工智能学院,北京102617

摘要

目标

利用小分子靶向RNA代表了治疗干预的一个有前景的前沿领域,为“难成药”靶点提供了新的机会。然而,准确预测小分子与RNA之间的相互作用仍然具有挑战性,这主要是由于RNA的高度动态三维构象,而仅依赖线性序列的方法往往忽略了这一点。尽管最近的进展表明,可以使用二级结构来预测RNA小分子相互作用(RSI),从而规避三维折叠的不准确性,但需要注意的是,这些模型仍然是基于蛋白质数据库(PDB)中实验得到的三维结构标签进行训练的。在这里,我们提出了PRISM,这是一个结构引导的计算框架,旨在通过整合四种互补的化学和生物学表示方法来预测RNA-小分子结合:RNA的预测三维原子结构、其核苷酸序列、配体的二维拓扑图及其化学组成(SMILES)。为了捕捉RNA结合口袋的复杂空间排列,PRISM采用了一种考虑几何特性的建模方法,该方法尊重原子的三维空间取向。这些结构信息通过动态加权机制与配体的化学拓扑和序列数据相结合。该机制通过自动确定三维结构约束或序列基序对特定相互作用的重要性来模拟合理的药物设计过程。在多种基准测试和大规模高通量筛选数据集上的广泛评估证明了PRISM的稳健性。值得注意的是,即使依赖预测的三维结构,PRISM也能保持高预测性能,在现实且不平衡的筛选场景中有效区分罕见的活性化合物和大量的非结合假阳性化合物。通过有效利用预测的三维构象数据和化学拓扑,PRISM为新型RNA治疗药物的结构基础发现(SBDD)提供了一个可解释且强大的工具。

引言

小分子对核糖核酸(RNA)的靶向调控是现代药理学的一个重要进展,将药物发现的范围扩展到了传统的以蛋白质为中心的领域之外[1]、[2]。由于非编码RNA调节着从基因表达到病毒复制等多种生物过程,转录组为以前被认为无法治疗的疾病提供了大量的治疗靶点[3]、[4]。然而,与通常具有深且疏水结合口袋的蛋白质不同,RNA靶点具有高度动态的构象集合和多阴离子表面[5]、[6]。这些结构特性给配体发现带来了重大挑战,需要开发能够准确预测RNA-小分子结合亲和力的计算方法,以优先选择先导化合物并加速基于结构的药物发现(SBDD)[7]。 在计算药物化学领域,人工智能已成为分析分子相互作用的宝贵工具。早期的方法主要将生物靶点和配体视为线性文本序列,并应用模式识别算法来提取特征[8]。认识到一维序列表示无法明确捕捉分子拓扑(如环系统和分支结构),后续框架通过将分子建模为二维图来保持原子-键的连通性,从而提高了性能[9]、[10]。然而,最近的理论分析表明,仅依赖二维拓扑连通性的方法可能难以区分对结合至关重要的细微立体化学差异[11]、[12]。此外,许多现有的“黑箱”模型缺乏解释特定相互作用原因的透明度——例如识别关键氢键或空间冲突——这限制了它们在理性药物设计中的实用性,而在理性药物设计中可解释性至关重要[11]。 特别是在RNA领域,计算方法已经发展到能够解决RNA-配体识别的复杂性,超越了简单的序列基序[13]、[14]。一类方法专注于评估结合姿态和结构兼容性。已经开发了诸如RNAPosers[15]、SPRank[16]、LigandRNA[17]和AnnapuRNA[18]等工具和评分函数,用于根据结构特征评估相互作用的可能性或对对接构象进行排名。与这些以评分为中心的方法并行的是,专门用于结合活性预测的深度学习架构也应运而生。例如,RSAPred[19]和RLaffinity[20]使用神经网络从RNA序列或结构网格中提取特征,直接预测结合亲和力值。为了解决传统通用模型的“黑箱”性质,最近的努力还强调了可解释性。值得注意的例子包括利用基于配体的化学空间映射(Yazdani等人[21])或结构相互作用指纹(Szulc等人[22])的可解释评分函数,以提供对结合事件的机制洞察。 在这个领域的一个显著进展是SMRTNet[23],它创新性地利用大型语言模型处理RNA二级结构以进行相互作用(RSI)预测。然而,对其方法的仔细审查揭示了一个悖论:即使是为处理二维数据而设计的模型,也依赖于PDB中1,061个高质量三维结构的训练标签。这种依赖性凸显了一个悖论:即使是为二维数据设计的模型,也依赖于嵌入在三级排列中的真实物理相互作用。虽然上述方法代表了重要的方法论进步,但它们通常面临一个困境:它们要么在二维约束内操作,要么需要高质量的科学实验三维结构,而这些结构对于新靶点来说非常稀缺。结合亲和力本质上是一个热力学属性,受连续的三维(3D)原子接触和物理力(如范德华相互作用和静电作用)的支配,这些无法仅通过二维二级结构表示完全解决[24]。省略明确的三维信息限制了捕捉精确基于结构的药物发现(SBDD)所需的空间药效团特征和口袋级几何形状的能力。因此,忽视结合界面几何现实的模型往往无法泛化到具有复杂空间构象的新靶点[25]。 历史上,由于蛋白质数据库(PDB)中实验解析的RNA结构稀缺,三维结构数据的整合受到了阻碍[26]。此外,仅在精心策划的、平衡的数据库上训练的预测模型往往难以泛化到现实的高通量筛选(HTS)场景。在这些现实世界环境中,新靶点的实验结构通常不可用,数据的特点是严重的类别不平衡——这是一个“大海捞针”的挑战,其中活性结合剂极为罕见。然而,随着高精度结构预测工具的出现,如RhoFold+[27],现在可以从序列生成可靠的三维构象,这种情况正在发生变化。要解决这些双重挑战,需要一个能够协同利用PDB衍生的高置信度训练数据和预测结构的框架,以稳健地识别结合剂[28]。 为此,我们提出了PRISM,这是一个结构引导的计算框架,旨在通过整合三维构象和化学信息来识别靶向RNA的小分子。PRISM通过分析四个不同的分子方面来学习结合事件的全面表示:RNA的三维原子排列、其核苷酸序列、配体的拓扑结构及其化学组成。我们架构的核心是一种考虑几何特性的建模方法,它使用E(3)等变图神经网络(EGNN)来处理预测的RNA三维结构,确保学习到的特征尊重结合口袋内原子的空间取向[29]。为了验证模型在现实世界药物发现中的实用性,我们不仅在标准基准测试上评估PRISM,还在一个大规模的HTS数据集(Robin)[30]上进行了评估。这一压力测试证明了PRISM即使在依赖预测结构的情况下也能保持稳健性并抑制假阳性。此外,为了有效整合这些不同类型的数据,我们提出了一种动态加权机制,该机制能够适应性地确定三维结构约束与序列基序对特定相互作用的相对重要性。本文的主要贡献如下:
  • 多维化学和生物特征的整合:我们提出了一个全面的多模态框架,整合了四种不同的信息通道:RNA三维坐标(空间结构)、RNA序列、配体分子图(拓扑)和配体SMILES(化学序列)。这种方法捕捉了单一视图模型所忽略的互补特征。
  • 通过EGNN进行三维构象建模:我们创新性地结合了EGNN来处理预测的RNA三维结构。这使得模型能够捕捉结合口袋的空间几何形状和原子相互作用,同时保持旋转和平移等变性,显著提高了数据效率。
  • 上下文感知的特征优先级:我们设计了一个新颖的动态加权模块,该模块自动学习平衡每个输入对的结构信息和序列信息的重要性。这种机制不仅通过减少噪声提高了预测准确性,还提供了对相互作用分子基础的洞察。

部分摘录

问题定义

本研究的主要目标是确定给定的RNA分子和小分子配体是否形成稳定的结合相互作用。我们将这表述为一个二元分类任务。给定一个RNA-配体对,表示为,目标是学习一个预测函数,将这对映射到一个二元标签,其中表示结合事件,表示非结合事件。我们PRISM模型的一个关键创新是它对结构和序列数据输入的全面整合

数据集

为了严格评估PRISM的性能和稳健性,我们策划了一套全面的数据集,包括一个主要训练集和五个独立的基准测试集。如方法部分所述,我们集成框架的一个先决条件是拥有三维结构数据。主要训练数据集是根据SMRTnet基准[23]构建的。重要的是要注意,虽然SMRTnet最初是作为一种预测相互作用的方法提出的,但它并不依赖于...

结论

在这项工作中,我们介绍了PRISM,这是一个全面的计算框架,旨在解决识别稳定RNA-小分子结合相互作用的几何和语义挑战。通过协同整合RNA三维原子坐标、核苷酸序列、配体分子图和SMILES表示,我们的方法试图克服单一视图架构的局限性,这些架构往往忽略了RNA结合口袋的立体化学复杂性。

CRediT作者贡献声明

王晓青:可视化、软件。 刘天浩:写作——审稿与编辑。 周茂园:写作——审稿与编辑。 李家兴:可视化、软件。 张志伟:可视化、软件。 侯赛因·甘吉杜斯特:写作——审稿与编辑。 刘星宇:写作——审稿与编辑、撰写原始草稿、可视化、软件、方法论、数据管理、概念化。 郭建金:写作——审稿与编辑、监督、调查、资金获取。 李云峰:验证。

数据可用性

本研究中使用的所有数据集都是公开可用的基准数据集,原始来源在手稿中有所引用。PRISM的源代码以及用于重现实验的脚本在GitHub上公开可用:https://github.com/Xy-Liu68/PRISM-main.git

资金声明

这项工作得到了中国国家自然科学基金(编号:52361145714、21673252)和北京市教育委员会的资助,资助编号为2019821001,以及北京石油化工技术研究院的Climbing Program基金(项目编号:BIPTAAI-2021007)和北京石油化工技术研究院的ZhiYuan基金关键项目(项目编号:2024003)的支持。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号