《SCIENCE ADVANCES》:Diverse database and machine learning model to narrow the generalization gap in RNA structure prediction
编辑推荐:
本研究针对RNA二级结构预测领域普遍存在的模型泛化能力不足问题,开展了系统性研究。研究人员通过化学探针(DMS-MaPseq)测定了大量初级microRNA(pri-miRNA)和人信使RNA(mRNA)区域的二级结构,构建了名为RNAndria的新数据库,并在此基础上开发了名为eFold的新型深度学习模型。结果表明,相比现有方法,eFold在长链和非编码RNA等复杂结构预测上表现更优。这项研究为理解RNA结构-功能关系提供了更精准的工具,数据库(https://rnandria.org/)和模型(https://github.com/rouskinlab/efold)已开源,推动了计算生物学的发展。
生命的蓝图不仅写在DNA的序列里,也蕴含在RNA分子千变万化的折叠结构中。RNA的二级结构,如同一种无声的语言,决定了它如何在细胞中执行功能、如何调控基因表达,甚至如何成为某些病毒的武器。然而,预测RNA如何折叠,一直是生物学和计算科学领域的一道难题。传统方法依赖于已知的热力学规则,对于标准碱基对或许有效,但面对复杂的长链RNA或非经典结构时往往力不从心。近年来,深度学习为这一领域带来了曙光,但一个根本性的瓶颈制约了其发展:训练数据的“偏食”。现有的数据库严重偏向于如转运RNA(tRNA)、核糖体RNA(rRNA)等短链非编码RNA(ncRNA),这使得训练出的模型像是一个只见过麻雀的学生,当面对天鹅(如长长的信使RNA或病毒基因组)时,预测准确性便一落千丈,这就是所谓的“泛化鸿沟”。
为了填补这一鸿沟,一项发表于《SCIENCE ADVANCES》的研究应运而生。研究团队没有停留在算法的小修小补上,而是双管齐下:一方面,他们亲手“创造”了一个更丰富、更多样化的RNA结构“教科书”——RNAndria数据库;另一方面,他们受蛋白质结构预测革命性工具AlphaFold的启发,设计了一个名为eFold的新型深度学习架构,并利用新数据库进行训练。最终,eFold模型在预测长链和复杂RNA结构方面展现出了超越现有方法的性能,为解决RNA结构预测的泛化难题提供了新的思路和工具。
为开展这项研究,作者主要应用了以下几项关键技术:首先是高通量化学探针技术DMS-MaPseq,用于大规模测定RNA分子中每个核苷酸的配对概率,这是构建高质量结构模型的基础。其次是严谨的生物信息学数据处理与数据库构建流程,包括对来自人类基因组(3‘端mRNA和pri-miRNA)及其他公共数据库(如bpRNA、Ribonanza、RNAcentral)的海量序列进行过滤、去冗余和质量控制(如AUROC>0.8)。最后是创新的深度学习模型设计与训练,开发了结合自注意力机制与卷积神经网络(CNN)的eFold架构,并采用了两阶段训练策略(大规模预训练与特定数据集微调)。
研究结果
1. 现有的二级结构预测算法无法跨不同RNA类型泛化
研究人员首先系统评估了四种广泛使用的算法(RNAstructure Fold、EternaFold、MXFold2和UFold)在四个测试集上的表现。结果显示,所有算法在富含短ncRNA的PDB测试集上表现优异(F1分数约0.9),但在更具挑战性的病毒mRNA和长链非编码RNA(lncRNA)测试集上性能显著下降,F1分数分别降至约0.7和0.45左右。其中,完全端到端的模型UFold在lncRNA上表现最差(F1=0.16)。这证实了现有算法和模型严重受限于其训练数据的组成,缺乏对新型、复杂RNA家族的预测能力。
2. 构建新的生物相关RNA数据库以弥合泛化鸿沟
为解决数据瓶颈,研究团队利用DMS-MaPseq技术探测了4550个人类mRNA 3‘端区域和1292个pri-miRNA(包括前体发夹及侧翼区域),经过严格的质量过滤(如读长深度>3000,AUROC>0.8),最终得到了包含1456个mRNA和1098个pri-miRNA高质量结构模型的RNAndria数据库。分析表明,对这些复杂序列,仅凭序列信息(无化学探针约束)的预测结果与加入DMS约束后的模型差异巨大(F1分数范围0.3-0.7),凸显了该数据库对训练模型、学习复杂结构模体的独特价值。该数据库已在线公开(
https://rnandria.org/),用户可浏览、筛选并可视化RNA二级结构及DMS信号。
3. 用于二级结构预测的机器学习架构
研究人员设计了eFold模型,其核心灵感来源于AlphaFold的Evoformer模块,并融合了传统卷积神经网络(CNN)。每个eFold块包含两条通路:一条通过自注意力层处理序列表征,另一条通过残差网络(ResNet)卷积层处理成对表征,两条通路之间有专门的连接进行信息交换。这种设计旨在结合CNN处理图像式配对矩阵的优势,以及自注意力层捕捉序列全局上下文和无范围限制依赖关系的能力。
4. eFold在预测长RNA结构方面性能增强
eFold模型经过两阶段训练:首先在超过30万条来自多个来源的序列上预训练,然后在RNAndria的mRNA和pri-miRNA数据上微调。 benchmark结果表明,最终eFold模型在两个最具挑战性的测试集上表现最佳:在病毒mRNA测试集上平均F1分数为0.73(优于UFold的0.58和SPOT-RNA的0.56),在lncRNA测试集上为0.44(优于UFold的0.16和SPOT-RNA的0.26)。即使在未微调仅预训练的情况下,eFold在lncRNA上的表现(F1=0.40)也超过了使用相同数据完全训练后的UFold(F1=0.35)。架构消融实验证明,同时包含自注意力和成对表征交流的完整eFold设计对维持跨家族性能至关重要。此外,尽管模型并非专门设计用于预测非经典碱基对或假结,深度学习模型展现出了学习这些特征的能力,只是由于训练数据中此类例子有限,准确性有所降低。
结论与讨论
本研究直面RNA二级结构预测中的两大核心挑战:现有算法的有限泛化能力,以及缺乏强大的端到端预测模型。通过创建涵盖多种人类mRNA和pri-miRNA结构的RNAndria数据库,显著拓宽了可用于研究的RNA结构图谱,为解决训练数据偏差问题提供了关键资源。在此基础上开发的eFold模型,巧妙融合了Evoformer的架构思想与传统CNN,在预测长链和复杂RNA结构方面实现了对现有先进方法的超越。
研究结果深刻揭示,单纯扩大数据库规模并不足以实现跨RNA家族的泛化,引入结构更多样、更复杂的数据才是提升模型性能的关键。目前,对于短ncRNA(如PDB中的结构),预测精度可达90%以上,但对于精心筛选的lncRNA,精度仍在40-50%区间。eFold模型和RNAndria数据库的发布,是弥合这一差距的重要一步。展望未来,随着更多样化、包含更多非经典相互作用和替代构象的数据被收集和整合,有望最终实现对所有类型RNA结构高精度、高泛化能力的预测,从而为深入理解RNA在生命活动和疾病中的复杂功能奠定坚实的计算基础。