基于RNA语言模型的化合物结合位点预测工具CoBRA的开发与评估

《Briefings in Bioinformatics》:CoBRA: compound binding site prediction using RNA language model

【字体: 时间:2026年01月12日 来源:Briefings in Bioinformatics 7.7

编辑推荐:

  本研究针对RNA-小分子结合位点预测问题,开发了基于RNA语言模型的轻量级深度学习程序CoBRA。该模型利用预训练RNA语言模型生成的残基级嵌入,不依赖结构信息即可实现核苷酸水平的二元分类。在四个独立基准集上的测试表明,CoBRA在马修斯相关系数上相对提升22.1%,灵敏度提高45.6%,性能优于现有基于结构信息的最新方法,为RNA靶向药物开发提供了新工具。

  
在生物医学研究领域,RNA作为细胞内的关键调控分子,不仅参与基因表达调控、翻译过程和结构组织,还与多种人类疾病密切相关,包括癌症、神经系统疾病、心血管功能障碍和发育异常。然而,人类基因组中仅有1%-3%编码蛋白质,其中约10%-14%的蛋白质被认为是可成药的,这意味着大多数(80%-90%)蛋白质靶点难以靶向治疗。这种局限性促使研究人员将目光转向靶向mRNA的新策略,特别是利用小分子药物靶向RNA的结构化区域,以实现高特异性结合。
尽管RNA-小分子相互作用为治疗干预提供了新途径,但精确预测配体结合位点 across 不同RNA类别仍面临挑战。现有预测方法大多依赖结构信息,如Rsite通过计算RNA三级结构中核苷酸间的欧几里得距离和二级结构间的汉明距离来预测结合位点;Rbind将RNA三级结构表示为网络,基于度数和紧度等网络中心性指标进行预测;RNAsite采用滑动窗口策略提取核苷酸的序列和结构特征,使用随机森林分类器进行预测;ZHmolReST-asite(ZeSTa)则利用RNA三级结构生成的溶剂可及表面点云,转换为归一化地形图像作为深度学习模型输入特征。这些结构基方法虽然表现出色,但对实验确定的RNA结构的依赖限制了其在缺乏可靠结构数据的RNA上的应用,也制约了大规模使用。
为解决这一瓶颈,韩国大学医学院生物医学信息学系的Wonkyeong Jang和Woong-Hee Shin研究人员在《Briefings in Bioinformatics》上发表了题为"CoBRA: compound binding site prediction using RNA language model"的研究论文,开发了一种轻量级深度学习模型CoBRA(化合物结合位点预测用于RNA)。该模型的创新之处在于完全依赖RNA语言模型生成的残基级嵌入,无需任何结构信息即可实现高精度预测。
研究人员采用系统化的实验设计,结合TR60和HARIBOSS数据集进行训练,在四个独立基准集(TE18、RB9、JL10和TL12)上评估模型性能。通过比较10种RNA语言模型和6种损失函数的60种组合,发现ERNIE-RNA结合TCL焦点损失函数的表现最佳,马修斯相关系数达到0.657。与现有最先进方法相比,CoBRA在马修斯相关系数上实现22.1%的相对提升,灵敏度提高45.6%,证明基于序列的语言模型嵌入能够匹配甚至超越结构基方法。
关键技术方法方面,研究团队首先从PDB数据库中收集了六组RNA-配体复合物结构数据集(HARIBOSS、TR60、RB9、TL12、JL10和TE18),按照4?距离标准定义结合位点。模型架构采用多层感知机分类器,输入为预训练RNA语言模型生成的残基级嵌入,通过五层全连接层进行处理,每层后接层归一化、ReLU激活和dropout正则化。训练使用AdamW优化器,采用余弦退火学习率调度,批量大小为4,训练100个周期。
研究结果部分展示了全面的性能评估和比较分析:
模型选择与性能比较
通过对60种模型配置的系统评估,研究发现基于非编码RNA预训练的语言模型(ERNIE-RNA、RNA-FM和RiNALMo)表现最佳,而基于mRNA-UTR区域预训练的模型性能相对较低。在损失函数方面,二元交叉熵和焦点损失函数表现稳定且优越,而骰子损失和Lovasz铰链损失则收敛不稳定。最佳模型配置为ERNIE-RNA结合TCL焦点损失函数,马修斯相关系数达0.657,AUROC为0.868,AUPRC为0.817。
结构基分割数据集评估
在RNABind结构基分割数据集上的评估显示,CoBRA的AUROC值在0.605-0.657之间,低于结合结构信息的方法(0.671-0.776),但在AUPRC指标上与RNABind相当。这表明在严格非冗余的数据分割下,纯序列方法在捕捉结构决定性特征方面存在局限。
基准集上的比较分析
在四个基准测试集上的比较表明,CoBRA在除TE18外的所有数据集上均优于现有方法。平均来看,CoBRA相比结构基方法ZeSTa在马修斯相关系数、AUROC和召回率上分别提升15.4%、9.2%和33.8%。特别是在结构复杂度高的JL10数据集上,CoBRA在所有指标上都表现最优。
案例研究显示,CoBRA在复杂RNA结构如pir-miRNA-300 apical loop与c-di-AMP复合物(6WTR)中表现出色,马修斯相关系数达0.923,而ZeSTa仅为0.121。然而,在TE18数据集上的性能分析揭示了模型的局限性:结合位点预测准确性与RNA二级结构类型相关,在茎区和连接区准确率较高(68%-92%),而在内部环区较低(47%)。拉普拉斯范数分析表明,实际结合位点倾向于位于结构凹面区域(平均LN值10.9),与非结合位点(平均LN值12.7)存在显著差异。
金属结合位点预测分析显示,CoBRA对金属离子的预测准确率(0.202-0.647)低于有机小分子(0.468-0.739),这反映了金属离子结合的特殊性——它们通常以扩散方式结合RNA表面,而非形成特异性结合口袋。
研究结论与讨论部分强调,CoBRA作为首个完全基于RNA语言模型的结合位点预测工具,在不依赖显式结构信息的情况下实现了与结构基方法相当甚至更优的性能。这一突破表明RNA序列嵌入能够有效捕获功能信号,为大规模RNA靶向药物筛选提供了可行方案。然而,研究也揭示了纯序列方法的局限性,特别是在处理链间结合界面和金属离子结合位点时表现不佳。未来研究方向包括整合结构信息和多链输入,以及引入物理化学特征来改进金属结合位点预测。
该研究的重要意义在于为RNA靶向药物开发提供了高效计算工具,克服了传统方法对结构数据的依赖,使得对缺乏可靠结构数据的RNA也能进行大规模结合位点预测。随着RNA治疗领域的快速发展,CoBRA这类轻量级、高精度的预测工具将在药物发现过程中发挥越来越重要的作用。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号