综述:AI基础模型在RNA生物学中的应用

《RNA Biology》:AI foundation models for RNA biology

【字体: 时间:2026年03月25日 来源:RNA Biology 3.4

编辑推荐:

  这篇综述系统性地阐述了人工智能(AI)基础模型如何革新RNA生物学研究。文章详述了其核心流程:利用海量、跨物种的RNA数据进行自监督预训练,学习RNA序列、结构与功能的复杂关系,生成通用表征;再通过针对特定下游任务(如翻译效率预测、RNA结合蛋白识别)的微调,将通用知识转化为专用模型。最后,借助可解释AI(XAI)方法,将这些“黑箱”模型转变为能够揭示关键顺式作用元件和结构基序的生物学发现工具。随着模型不断进化并整合多模态数据,其有望系统解码RNA中编码的更多调控规则与功能。

  
引言:从数据洪流到智能解码
过去几十年,人类生成和收集数据的能力急剧膨胀,但“大数据”内部日益复杂的关联也带来了新的挑战。为了从复杂的高维数据中学习模式、破译其编码的规则,人工智能(AI)不断发展,从经典的机器学习(ML)到深度学习(DL),再到如今的基础模型。基础模型通过从海量异构数据集中学习,提供了一种统一且高度通用的策略,其威力已在蛋白质领域(如ESM-2/ESM-3、AlphaFold 3)得到证明,彻底改变了蛋白质结构预测。
在RNA生物学领域,基于基础模型的方法方兴未艾,但正迅速重塑我们解码RNA序列-结构-功能关系的能力。RNA远不止是蛋白质的编码蓝图,它还蕴含丰富的转录后“调控语法”,控制着转录本的翻译、降解速度,以及与RNA结合蛋白和化学修饰(如RNA甲基化)的相互作用。更重要的是,RNA是一种固有的结构分子,通过反向互补片段之间的沃森-克里克和非经典碱基配对,折叠成二级和更高阶的构象,形成结合表面、催化口袋和调控开关,从而实现多样且复杂的功能。这些特性使RNA成为基础模型的理想目标,因为模型可以从大量未标记数据中学习序列和结构的联合表征,从而支持跨RNA家族和功能的通用预测。
基础模型的基石
基础模型是从海量、多样数据集中学习广泛、通用表征的大规模模型,并能高效适配各种下游任务。构建RNA基础模型通常分为两个阶段:预训练和微调。
在预训练阶段,模型接触来自多个物种的大量未标记RNA序列,通过“阅读”和“理解”它们来学习,这个过程称为自监督学习。此阶段后,模型获得了对RNA序列多样性和背景的通用理解。微调阶段则将这种通用知识聚焦于特定的生物学问题。研究者提供带标签的数据(例如,将翻译效率值视为连续变量的回归任务,或分为高/低两类的分类任务)。由于模型已通过大规模预训练学习了丰富的RNA表征,它能够快速适应,即使在数据量有限的情况下也能实现强大的预测性能。微调后的模型可作为计算机(in silico)实验伙伴:可以系统地改变RNA序列(如5‘UTR),观察预测功能(如翻译效率)如何变化,这种方法常被称为计算机诱变(in silicomutagenesis, ISM)。此外,可解释AI(XAI)方法可应用于微调后的模型,以提取影响功能的候选RNA序列或结构基序。
一个RNA基础模型可以适配许多不同的下游任务。从翻译效率转向RNA稳定性、RNA结合蛋白(RBP)结合或RNA修饰研究时,模型对RNA的通用理解提供了强大的起点,只需使用相关数据集进行微调即可。
驱动模型的多样数据集
预训练RNA基础模型通常始于跨物种和组织的海量转录组数据集。数据选择至关重要:如果研究目标是特定RNA类别(如植物RNA)或仅针对mRNA的编码区(CDS),那么收集的序列也应相应受限。在此类聚焦语料库上进行预训练,会产生专用于该RNA类型或区域的基础模型。
例如,通用RNA模型如Nucleotide Transformer在约3,202个人类基因组和另外850个其他物种的基因组上进行预训练,总计约1,740亿个核苷酸。Uni-RNA的规模更大,其预训练数据来源于RNAcentral、NCBI和GenomeWarehouse(GWH)数据库,总计约10亿条RNA序列。在植物RNA生物学中,PlantRNA-FM专为植物应用设计,仅使用植物转录组进行训练。对于非编码RNA(ncRNA)中心模型,预训练数据同样限于非编码转录本。RNA-FM从RNAcentral获取数据,得到约2,370万条非冗余ncRNA序列。RiNALMo使用来自多个公共数据库的3,600万条非编码RNA序列进行训练。AIDO.RNA进一步扩展了这一思路,在约4,200万条公共ncRNA序列上进行预训练。
还有一些模型将语料库限定在特定的mRNA区域。例如,UTR-LM仅对5‘UTR进行预训练,结合了来自多个物种的内源性5’UTR和一个随机5‘UTR的合成库。对于编码区专业化,CaLM在约900万个非冗余基因的密码子化蛋白质-cDNA序列上进行训练。CodonBERT也以CDS为目标,但分辨率达到密码子级别,并在超过1,000万条来自哺乳动物、细菌和人类病毒的CDS序列上进行预训练。其他特定区段语料库包括3’UTR模型(如3UTRBERT)和过程特异性前mRNA模型(如SpliceBERT)。最近,多模态生物基础模型(如Evo 2)已开始联合预训练DNA、RNA和蛋白质信息,实现了对中心法则的统一表征。
模型的架构演进
在模型架构方面,大多数RNA基础模型构建为Transformer塔,其中堆叠的自注意力层天然地捕获了RNA中常见的长程碱基-碱基依赖性。在经典Transformer设计中,这个塔可以组织成“编码器-解码器”对。“编码器”读取完整的输入序列以形成上下文表征,而“解码器”则根据这些表征逐步生成或重建序列。
仅编码器模型通过允许每个核苷酸位置同时关注所有其他位置(双向注意力机制)来处理完整的输入序列,非常适用于需要现有序列的丰富上下文表征的预测任务,如RNA结构预测或RBP结合位点识别。仅解码器模型以自回归方式生成序列,更适合RNA设计任务,其目标是产生具有所需功能特性的新序列。许多模型使用仅编码器Transformer来为每个核苷酸生成丰富的上下文嵌入(例如,PlantRNA-FM、ERNIE-RNA和RiNALMo),这非常适合下游预测任务。较小一部分模型使用仅解码器Transformer进行RNA生成(例如,GenerRNA和GARNET)。当目标是将序列映射到另一种表征(如结构或活性表征)时,一些框架探索了编码器-解码器Transformer(例如,OPED和ATOM-1)。
除了标准的Transformer塔,一些模型还调整了主干网络以更好地适应生物学先验。例如,RNA-MSM建立在MSA-Transformer之上,它接收多序列比对而非单序列,使模型能够直接利用跨同源物的进化保守性和共变模式。此外,由于完全自注意力的计算复杂度随序列长度呈二次方增长,处理长RNA序列的需求推动了超越二次方注意力的长上下文序列主干的发展。基于Mamba的架构(例如,Orthrus和DGRNA)用状态空间动力学取代注意力机制,其复杂度呈线性增长,在超长转录本上依然有效。而LoRNA中使用的StripedHyena则采用了针对超长读长定制的高效长上下文算子。
预训练:让模型“读懂”RNA
接下来需要设计鼓励模型“阅读”和“理解”RNA序列的任务,即自监督任务。目前最广泛使用的自监督预训练任务是掩码语言建模(MLM),即随机掩盖约15%的核苷酸,让模型仅使用周围的序列来预测被掩盖的部分。当下游目标是预测或生物学理解时,MLM是首选,因为双向上下文能产生更丰富的RNA序列表征。RNA-FM、AIDO.RNA、ERNIE-RNA、RNA-MSM、SpliceBERT和RiNALMo等RNA基础模型都将MLM作为其核心预训练目标,以从原始RNA序列中学习上下文依赖性。此外,一些模型采用基于MLM的变体来注入额外的生物学信号。RNABERT将MLM与比对/结构感知的辅助任务(MLM/SAL)相结合,CodonBERT则在密码子级别用同源性相关目标(MLM/HSP)增强MLM。相比之下,用于仅解码器模型(如GenerRNA和GARNET)的因果语言建模(下一词预测),则更适合生成性应用,例如设计具有所需功能特性的新型RNA序列。
除此之外,预训练也支持嵌入多个自监督任务。PlantRNA-FM使用三个自监督任务进行预训练,包括MLM、RNA遗传注释分类和RNA结构预测,有效地要求模型同时学习RNA序列、RNA注释和RNA结构特征。这些表征捕获了哪些核苷酸模式倾向于在RNA中出现、重复出现的序列/结构基序以及长程依赖性。简而言之,在接触任何特定的下游任务之前,模型已经对RNA形成了普遍的、基于生物学的理解。
必须承认,预训练基础模型成本高昂。除了将数百万RNA序列转化为“预训练就绪”数据集需要大量的存储和CPU时间外,主要瓶颈在于训练本身:GPU内存限制了可加载模型的大小,GPU算力决定了模型训练的速度。对于在真正大规模数据集上训练的高容量模型,预训练很容易耗费数千个GPU小时,通常需要持续数天或数周的训练。在实践中,大多数研究者不需要从头重复这个昂贵的过程。一旦有了强大的预训练模型,它可以作为起点,通过在特定任务的数据集上进行微调来适应新的生物学问题。微调通常只需要适中的计算资源,这使得它成为大多数团队将基础模型能力引入其RNA研究的实用途径。
微调:适配下游RNA任务
预训练之后,你便拥有了一个对RNA多样性和背景有广泛理解的强大RNA基础模型。接下来,可以通过微调来引导RNA基础模型聚焦于感兴趣的特定RNA生物学。在此阶段,需要带标签的数据;换句话说,我们必须明确告诉模型我们希望它从RNA序列中学习哪种功能。
通常,通用RNA基础模型会在广泛的下游任务面板上进行评估。例如,AIDO.RNA在一个涵盖9个任务类别(包括RNA结构预测、RNA功能注释和mRNA相关调控任务)的综合套件上进行了基准测试,以表明单个预训练模型可以泛化到多样的RNA下游任务。PlantRNA-FM仅在植物RNA上预训练,专为植物特定任务设计;因此,它在植物RNA注释和植物RNA翻译效率预测任务上优于其他RNA基础模型。
一旦准备好这些RNA下游任务,就可以在感兴趣的任务上对RNA基础模型进行微调。最直接的微调策略称为“全参数微调”,即更新所有模型参数。当微调数据与预训练领域紧密相关时,这通常能提供强大的性能。建议在有足够带标签数据时进行全参数微调,因为它通常能产生最强的任务特定性能。另一种是参数高效微调,它固定预训练模型的大部分参数(即冻结层/编码器/主干),只训练少量新增的参数,例如轻量级的适配器层或低秩更新(LoRA)。这些策略使训练更便宜、更稳定,并且在带标签数据集有限时降低了过拟合的风险。在资源允许的情况下,建议在同一数据集上测试全参数微调和参数高效微调,并根据任务相关的评估指标(如准确率、F1分数或皮尔逊相关系数)选择方法。在RNAErnie中,提出了一种类型引导的微调框架,包括三种变体:FBTH(冻结主干,可训练头部)、TBTH(可训练主干和可训练头部,等同于全参数微调)和STACK(类型引导堆叠)。
RNA基础模型的微调策略与更广泛的深度学习领域相似。通常,数据集被分为训练集、验证集和测试集。微调的目标是鼓励模型在未见过的验证集上做出尽可能接近“真实”值(即标签)的预测。在验证集和测试集上的强性能表明模型能够很好地泛化到新的、未见过的数据,而不是简单地记忆训练集。
评估:模型真的学会了吗?
预训练和微调之后,一个自然的问题是:我们如何知道模型是否真的学会了RNA生物学洞见?在实践中,评估通常在几个互补的层面上进行。
在表征层面,一种常见的评估方法是将RNA序列输入预训练模型并提取嵌入层,产生一个高维矩阵。这个高维嵌入矩阵可以被视为模型对RNA的“理解”。如果预训练有效,来自不同RNA类别的嵌入应该开始显现差异。研究者通常使用降维方法(如UMAP)来可视化这些嵌入。例如,SpliceBERT将预训练的位置嵌入投影到UMAP空间,发现真正的分支点基序与背景位点分离,这表明模型已经掌握了与剪接相关的序列模式。另一种广泛使用的策略是零样本测试,即要求预训练模型在不进行任何任务特定微调的情况下处理下游任务。RiNALMo能够泛化到训练中未见的RNA家族的二级结构预测,这表明仅通过预训练就已经编码了有用的生物学信号。
在任务层面,评估是在每个RNA基础模型在同一下游任务上使用一致的微调策略进行微调后进行的。RNA基础模型的典型任务套件包括RNA结构预测、RBP结合预测、剪接位点/分支点识别、翻译效率分类、RNA稳定性(半衰期)分类和RNA修饰检测。报告的分值取决于任务类型。对于分类,指标通常包括精确率和召回率的调和平均数F1分数,以及汇总了跨决策阈值性能的AUROC和AUPRC。当阳性样本稀少时(如在许多结合或修饰数据集中),AUPRC通常更具参考价值。对于回归任务,研究通常报告MAE以及皮尔逊或斯皮尔曼相关系数。例如,在UTR-LM的基准测试中,IRES识别的AUPRC从最佳基线的0.37提高到0.52,MRL预测的斯皮尔曼相关系数比MTtrans提高了约5%。
泛化性评估也是关键组成部分,评估模型在未见数据集上的性能是否保持一致。这包括跨物种迁移、在训练中未见过的RNA家族上的鲁棒性,以及对不同实验平台或批次之间变化的适应性。RiNALMo在微调时保留整个RNA家族,在二级结构基准测试中表现出强大的家族间泛化能力,这是比在序列上随机分割更严格的测试。
目前已经开发了多个基准数据集,用于跨任务比较RNA基础模型。对于RNA二级结构预测,广泛使用的资源包括bpRNA、ArchiveII和RNAStralign数据库。对于RNA三维结构和结构-功能任务,RNA3DB提供了来自PDB链的非冗余、结构不同的分割,更新的多数据集基准已开始以统一的方式编制结构-功能任务。BEACON为RNA基础模型提供了一个清晰的社区基准:它策划了13个涵盖结构分析、功能预测和工程应用的RNA任务,在统一的微调/评估协议下将RNA语言模型与传统基线进行比较,并明确研究分词器粒度和位置编码等设计选择如何影响下游性能。AIDO.RNA从模型开发的角度提供了一个互补的大规模套件,汇集了9个任务类别(涵盖结构、功能、mRNA相关性状如翻译和稳定性,以及设计任务)的26个数据集。
可解释AI:打开模型“黑箱”
如果RNA基础模型要做的不仅仅是预测标签,可解释AI(XAI)方法就至关重要。在实践中,解释就是将任务特定的微调模型转化为因果候选图谱的过程:哪些碱基、哪些局部RNA背景、哪些RNA结构元素驱动了输出。
最广泛使用的途径是归因,即通过梯度(显著图、积分梯度及其变体)或通过扰动(通常以计算机诱变的形式)来估计每个核苷酸对预测的贡献。这两个方法家族在概念上是互补的:梯度归因提供了快速、单碱基分辨率的重要性视图,而扰动则通过询问当序列片段被改变或重排时预测如何变化来反映实验逻辑。除了归因,像SQUID这样的替代建模框架提供了对顺式调控逻辑的机制性解释。
对于基于Transformer的RNA模型,注意力和表征分析提供了第三种可解释性信号,这对于具有长程依赖性的问题尤其自然。注意力图通常突出显示远距离的碱基-碱基关系或与已知RNA先验一致的位置特定线索。甚至在微调之前,ERNIE-RNA的注意力模式和嵌入就显示出对RNA二级结构特征的敏感性,这表明其主干已经能够追踪碱基配对和折叠背景。这种内置的结构意识在下游变得有用,因为可以将注意力导出的接触或高注意力区域与预测的或实验探测的结构进行比较,以证明模型为何将一个位点判定为功能性的。PlantRNA-FM为RNA基础模型中的这种端到端逻辑提供了最明确的演示之一。在对植物翻译相关任务进行微调后,它使用注意力对比策略,从随机标签对照模型的注意力模式中减去真实标签模型的注意力模式,从而识别出影响翻译效率的RNA序列基序(如KOZAK序列)和112个功能性RNA结构基序。在更通用的主干模型(如RNA-FM)中,可解释性栈倾向于遵循“标准FM-XAI”模式:针对功能(例如,RBP结合或结构任务)进行微调,计算梯度或扰动归因,并对最强的窗口进行聚类以推断结合或结构基序。RNA-FM预训练的广度意味着这些推断出的基序可以跨家族和生物体泛化,这正是基础模型在使其预测可解释后所承诺的前景。
RNA基础模型在预训练期间学习了丰富的、上下文相关的表征,但只有当我们用XAI方法来探究这些表征时,生物学洞见才会出现。然而,当前的XAI方法仍不完美。每种方法都有其自身的假设和权衡,没有一种模型解释的全局最优策略。因此,我们建议研究者在探究RNA基础模型时应用多种XAI方法,并对照已知的生物学知识(即“真实情况”)验证输出。将识别出的基序与经过实验验证的RNA序列或RNA结构元件进行比较,有助于确定哪种XAI策略对特定的生物学问题最有效。
展望未来
RNA基础模型的发展标志着我们理解RNA生物学复杂性的能力发生了关键转变。通过对大规模、多样化的RNA数据集应用自监督预训练,这些模型学习了RNA序列、结构及其功能含义的通用表征。这种基础性知识使得模型能够在特定的RNA相关任务上进行微调,从而在从翻译效率到RNA-蛋白质相互作用的各类RNA生物学探究中具有高度的适应性和有效性。
基础模型流程的每一步都对其成功至关重要。预训练通常在跨越多个物种的广泛数据集上进行,为模型泛化提供了必要的骨干,使模型能够学习RNA序列中原本可能被掩盖的上下文关系。微调随后针对特定的生物学问题优化这些表征,使模型能够以有针对性和高效的方式预测和解释RNA行为。无论是在基于UTR序列预测翻译效率,还是在揭示RNA结合蛋白相互作用中的调控基序,微调都利用了基础模型广泛的RNA知识,并将其适应于特定的实验背景。
评估方法在表征和任务层面为模型预测提供了必要的验证。在表征层面,提取高维嵌入使研究人员能够理解RNA数据的底层结构,以及不同的RNA类别或区域是如何被表征的。在任务层面,跨一系列RNA相关任务(包括结构预测、结合亲和力预测和稳定性分类)的基准测试确保了模型输出的准确性和可靠性。此外,评估模型的泛化能力(无论是跨RNA家族还是跨实验平台)为其鲁棒性和应对广泛RNA生物学问题的能力提供了信心。
RNA基础模型的真正力量是通过与可解释AI(XAI)的集成而释放的。通过使用基于梯度的归因或计算机诱变等方法,研究人员可以解释模型的预测,识别驱动观察到的生物学结果的关键序列元件或结构基序。这些洞见弥合了机器学习和传统分子生物学之间的鸿沟,提供了可以指导实验设计和假设生成的机制性解释。这种可解释性也增强了基础模型作为实验伙伴的效用,提供了计算机诱变能力,以预测序列或结构变化对RNA功能的影响。
重要的是,AI基础模型的进步不应被视为AI与人类研究者之间的竞争。相反,它们代表了科学研究内部的一场技术革命。因此,研究人员需要理解基础模型的优势以及它们擅长解决的问题类型,并思考这类强大工具如何解决其自身研究兴趣核心的问题,特别是那些以前因核苷酸序列的组合复杂性以及实验规模、成本或实际复杂性的限制而不可行的问题。例如,基础模型可以系统性地发现跨广阔序列空间的潜在调控规则,帮助从嘈杂的数据中优先考虑可测试的因果假设,或者允许在投入湿实验室验证之前,在计算机中探索扰动景观。采用这种思维模式将基础模型从单纯的工具重新定义为发现引擎,使RNA生物学能够解决以前无法企及的问题并得出答案。
在实践中,虽然预训练RNA基础模型需要昂贵的高性能GPU集群和大量的计算时间,但微调和可解释AI分析则要容易得多,通常可以在桌面级GPU上数小时内完成。在大多数情况下,对现有的预训练RNA基础模型进行微调是更可取的,特别是在带标签数据有限或需要捕获长程序列依赖性的情况下。仅当生物学问题需要整合现有预训练语料库中不包含的信息时,才有理由从头开始训练新模型。例如,当前的RNA基础模型主要针对序列、注释和结构信息进行预训练;如果研究者希望将群体水平数据(如GWAS数据或系统发育关系)整合到模型的表征中,则需要预训练一个包含此类数据的新模型。我们鼓励RNA生物学家在自己数据集上微调现有的预训练模型,而不是从头开始训练,从而在最小化计算成本的同时受益于通用的RNA表征。我们也建议基础模型开发者提供易于使用的代码、清晰的文档和用户友好的界面,以降低采用门槛。
展望未来,RNA基础模型前景广阔。随着数据集变得更大、更多样化,模型将继续提高其跨RNA家族、物种和实验条件的泛化能力。结合RNA、DNA和蛋白质信息的多模态模型的出现,有望为细胞过程的分子基础提供更深入的洞见。此外,随着可解释AI技术的发展,这些模型的可解释性将变得更加精细,从而能够更准确地识别调控元件,并指导RNA靶向治疗药物的开发。最终,RNA基础模型代表了一种变革性的RNA生物学研究方法,为更复杂、更精确的RNA功能、调控和疾病研究铺平了道路。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号