利用多样数据库与机器学习模型提升RNA结构预测的泛化能力

《SCIENCE ADVANCES》：Diverse database and machine learning model to narrow the generalization gap in RNA structure prediction

【字体：大中小】 时间：2026年02月27日 来源：SCIENCE ADVANCES 12.5

编辑推荐：

　　本研究针对RNA二级结构预测领域普遍存在的模型泛化能力不足问题，开展了系统性研究。研究人员通过化学探针（DMS-MaPseq）测定了大量初级microRNA（pri-miRNA）和人信使RNA（mRNA）区域的二级结构，构建了名为RNAndria的新数据库，并在此基础上开发了名为eFold的新型深度学习模型。结果表明，相比现有方法，eFold在长链和非编码RNA等复杂结构预测上表现更优。这项研究为理解RNA结构-功能关系提供了更精准的工具，数据库（https://rnandria.org/）和模型（https://github.com/rouskinlab/efold）已开源，推动了计算生物学的发展。

生命的蓝图不仅写在DNA的序列里，也蕴含在RNA分子千变万化的折叠结构中。RNA的二级结构，如同一种无声的语言，决定了它如何在细胞中执行功能、如何调控基因表达，甚至如何成为某些病毒的武器。然而，预测RNA如何折叠，一直是生物学和计算科学领域的一道难题。传统方法依赖于已知的热力学规则，对于标准碱基对或许有效，但面对复杂的长链RNA或非经典结构时往往力不从心。近年来，深度学习为这一领域带来了曙光，但一个根本性的瓶颈制约了其发展：训练数据的“偏食”。现有的数据库严重偏向于如转运RNA（tRNA）、核糖体RNA（rRNA）等短链非编码RNA（ncRNA），这使得训练出的模型像是一个只见过麻雀的学生，当面对天鹅（如长长的信使RNA或病毒基因组）时，预测准确性便一落千丈，这就是所谓的“泛化鸿沟”。

为了填补这一鸿沟，一项发表于《SCIENCE ADVANCES》的研究应运而生。研究团队没有停留在算法的小修小补上，而是双管齐下：一方面，他们亲手“创造”了一个更丰富、更多样化的RNA结构“教科书”——RNAndria数据库；另一方面，他们受蛋白质结构预测革命性工具AlphaFold的启发，设计了一个名为eFold的新型深度学习架构，并利用新数据库进行训练。最终，eFold模型在预测长链和复杂RNA结构方面展现出了超越现有方法的性能，为解决RNA结构预测的泛化难题提供了新的思路和工具。

为开展这项研究，作者主要应用了以下几项关键技术：首先是高通量化学探针技术DMS-MaPseq，用于大规模测定RNA分子中每个核苷酸的配对概率，这是构建高质量结构模型的基础。其次是严谨的生物信息学数据处理与数据库构建流程，包括对来自人类基因组（3‘端mRNA和pri-miRNA）及其他公共数据库（如bpRNA、Ribonanza、RNAcentral）的海量序列进行过滤、去冗余和质量控制（如AUROC>0.8）。最后是创新的深度学习模型设计与训练，开发了结合自注意力机制与卷积神经网络（CNN）的eFold架构，并采用了两阶段训练策略（大规模预训练与特定数据集微调）。

研究结果

1. 现有的二级结构预测算法无法跨不同RNA类型泛化

研究人员首先系统评估了四种广泛使用的算法（RNAstructure Fold、EternaFold、MXFold2和UFold）在四个测试集上的表现。结果显示，所有算法在富含短ncRNA的PDB测试集上表现优异（F1分数约0.9），但在更具挑战性的病毒mRNA和长链非编码RNA（lncRNA）测试集上性能显著下降，F1分数分别降至约0.7和0.45左右。其中，完全端到端的模型UFold在lncRNA上表现最差（F1=0.16）。这证实了现有算法和模型严重受限于其训练数据的组成，缺乏对新型、复杂RNA家族的预测能力。

2. 构建新的生物相关RNA数据库以弥合泛化鸿沟

为解决数据瓶颈，研究团队利用DMS-MaPseq技术探测了4550个人类mRNA 3‘端区域和1292个pri-miRNA（包括前体发夹及侧翼区域），经过严格的质量过滤（如读长深度>3000，AUROC>0.8），最终得到了包含1456个mRNA和1098个pri-miRNA高质量结构模型的RNAndria数据库。分析表明，对这些复杂序列，仅凭序列信息（无化学探针约束）的预测结果与加入DMS约束后的模型差异巨大（F1分数范围0.3-0.7），凸显了该数据库对训练模型、学习复杂结构模体的独特价值。该数据库已在线公开（https://rnandria.org/），用户可浏览、筛选并可视化RNA二级结构及DMS信号。

3. 用于二级结构预测的机器学习架构

研究人员设计了eFold模型，其核心灵感来源于AlphaFold的Evoformer模块，并融合了传统卷积神经网络（CNN）。每个eFold块包含两条通路：一条通过自注意力层处理序列表征，另一条通过残差网络（ResNet）卷积层处理成对表征，两条通路之间有专门的连接进行信息交换。这种设计旨在结合CNN处理图像式配对矩阵的优势，以及自注意力层捕捉序列全局上下文和无范围限制依赖关系的能力。

4. eFold在预测长RNA结构方面性能增强

eFold模型经过两阶段训练：首先在超过30万条来自多个来源的序列上预训练，然后在RNAndria的mRNA和pri-miRNA数据上微调。 benchmark结果表明，最终eFold模型在两个最具挑战性的测试集上表现最佳：在病毒mRNA测试集上平均F1分数为0.73（优于UFold的0.58和SPOT-RNA的0.56），在lncRNA测试集上为0.44（优于UFold的0.16和SPOT-RNA的0.26）。即使在未微调仅预训练的情况下，eFold在lncRNA上的表现（F1=0.40）也超过了使用相同数据完全训练后的UFold（F1=0.35）。架构消融实验证明，同时包含自注意力和成对表征交流的完整eFold设计对维持跨家族性能至关重要。此外，尽管模型并非专门设计用于预测非经典碱基对或假结，深度学习模型展现出了学习这些特征的能力，只是由于训练数据中此类例子有限，准确性有所降低。

结论与讨论

本研究直面RNA二级结构预测中的两大核心挑战：现有算法的有限泛化能力，以及缺乏强大的端到端预测模型。通过创建涵盖多种人类mRNA和pri-miRNA结构的RNAndria数据库，显著拓宽了可用于研究的RNA结构图谱，为解决训练数据偏差问题提供了关键资源。在此基础上开发的eFold模型，巧妙融合了Evoformer的架构思想与传统CNN，在预测长链和复杂RNA结构方面实现了对现有先进方法的超越。

研究结果深刻揭示，单纯扩大数据库规模并不足以实现跨RNA家族的泛化，引入结构更多样、更复杂的数据才是提升模型性能的关键。目前，对于短ncRNA（如PDB中的结构），预测精度可达90%以上，但对于精心筛选的lncRNA，精度仍在40-50%区间。eFold模型和RNAndria数据库的发布，是弥合这一差距的重要一步。展望未来，随着更多样化、包含更多非经典相互作用和替代构象的数据被收集和整合，有望最终实现对所有类型RNA结构高精度、高泛化能力的预测，从而为深入理解RNA在生命活动和疾病中的复杂功能奠定坚实的计算基础。

热点排行

新闻专题