《Briefings in Bioinformatics》:A comprehensive survey of genome language models in bioinformatics
编辑推荐:
为解决传统深度学习模型在基因组学中难以捕捉长程依赖关系和非编码区域功能解析的挑战,研究人员开展了对基因组语言模型(gLMs)的系统性综述。该研究全面梳理了gLMs的架构设计(如Transformer、Hyena、Mamba)、tokenization策略、预训练方法及其在调控元件识别、变异效应预测等下游任务的应用,揭示了gLMs通过自监督学习从海量序列数据中提取生物语义规律的能力,为精准医疗和功能基因组学提供了新范式。
随着测序技术的飞速发展,基因组学领域产生了海量的DNA和RNA序列数据。然而,传统的深度学习模型如卷积神经网络(CNN)和循环神经网络(RNN)在处理基因组数据时面临显著挑战。这些模型最初为图像或短文本任务设计,其有限的感受野或循环记忆机制难以有效捕捉基因组中普遍存在的长程调控依赖关系,例如远端增强子与靶基因启动子之间的相互作用。更关键的是,人类基因组中约98%为非编码区域,其复杂的“语法规则”和功能至今仍大部分未知。传统方法依赖手工设计的特征或浅层模体检测器,难以全面解析调控上下文和功能语义。随着测序成本下降和参考数据库扩张至数万亿碱基规模,针对特定任务训练的模型已无法满足日益增长的分析需求。
为应对这些挑战,受自然语言处理(NLP)中大语言模型(LLM)成功的启发,基因组语言模型(gLM)应运而生。这类模型将DNA和RNA序列视为“生物文本”,通过自监督学习从原始序列中提取上下文感知的表示,从而捕捉调控语法、模体结构和功能后果。发表在《Briefings in Bioinformatics》上的这篇综述文章,系统性地回顾了gLMs这一新兴领域的全貌,回答了其必要性、设计构建、预训练策略以及评估方法等核心问题。
研究人员在开展这项研究时,主要运用了几项关键技术方法:首先是系统性地梳理和比较了不同的gLM模型架构,包括Transformer编码器/解码器、基于Hyena卷积的架构以及状态空间模型(SSM)。其次,详细分析了序列tokenization策略,如单核苷酸嵌入、k-mer tokenization和字节对编码(BPE)。研究还综述了自监督预训练范式,包括掩码语言建模(MLM)和因果语言建模(CLM),并汇总了涵盖人类基因组、跨物种基因组、调控功能基因组学、RNA转录组以及原核/病毒/宏基因组等五大类别的预训练数据集。最后,文章建立了一个全面的下游任务分类体系,并基于现有基准测试评估了各类模型的性能。
模型架构与tokenization策略
研究首先对gLM的模型架构进行了分类梳理。Transformer编码器架构(如DNABERT、Nucleotide Transformer)利用双向自注意力机制同时学习序列上下游的上下文信息,特别适用于分类任务。Transformer解码器架构(如DNAGPT、megaDNA)采用单向设计,天然适合生成任务,例如模拟真实基因组序列或填补序列缺口。Hyena架构完全摒弃注意力机制,使用长卷积算子和门控机制实现高效的超长程序列建模,其代表性模型HyenaDNA能处理百万碱基级别的上下文。状态空间模型(SSM) 则从连续时间动力系统汲取灵感,通过线性动力学和非线性更新处理序列,其现代实现(如Mamba)在线性时间复杂度下具备优异的长程记忆能力,Caduceus模型在此基础上引入了反向互补等变性。
在序列tokenization方面,文章比较了四种主要策略。单核苷酸嵌入将每个碱基视为一个token,保留了碱基级信息,便于直接建模单核苷酸多态性(SNP)效应,但输入序列较长。k-mer tokenization将连续k个核苷酸视为一个token,分为重叠和非重叠两种形式,能直接捕捉短模体,但可能损失边界位置信息或增加计算冗余。字节对编码(BPE) 是一种数据驱动的子词方法,通过迭代合并频繁共现的序列片段构建词汇表,能在压缩序列长度的同时捕获重复出现的生物模体。one-hot编码作为早期模型的标配,用四位二进制向量表示每个碱基,信息无损但序列维度极高。
预训练目标与数据资源
gLM的有效性很大程度上取决于其预训练目标的设计。掩码语言建模(MLM) 随机掩码输入token并让模型根据上下文进行预测,迫使模型学习同义序列模式和语法规则,生成易于泛化的表示。因果语言建模(CLM) 训练模型根据历史token预测下一个token,具备内在的序列生成能力,可用于体外序列设计。此外,混合预训练范式结合多种目标,例如UTR-LM同时进行序列重建和RNA二级结构预测,将数据驱动学习与领域知识相结合。
预训练数据集的选择直接影响模型获取的生物知识类型。文章将资源分为五类:人类参考基因组(如GRCh38)及其变异数据(如1000 Genomes Project)使模型学习人类特异的基因组语法和种群多样性。跨物种基因组(如NCBI RefSeq、UCSC、Ensembl)大幅扩展进化多样性,支持向非模式生物的迁移学习。调控与功能基因组学数据集(如ENCODE、DeepSEA)直接注入基因调控的语法知识。RNA与转录组数据集(如RNAcentral、Rfam)使模型掌握RNA特有的转录后调控和结构特征。原核/病毒/宏基因组序列(如BV-BRC、OpenGenome)将训练规模提升数个数量级,增强了模型对稀有模体和极端基因组结构的鲁棒性。
评估设置、下游任务与基准测试
gLM的评估通常在三种设置下进行:监督评估是主流范式,模型在带标签数据上进行全面任务适配后评估其性能。零样本评估不进行任何任务特定微调,直接利用预训练表示进行预测,例如通过参考等位基因与替代等位基因的似然比评估变异效应。少样本评估仅提供少量标注样本,可通过上下文学习或轻量微调实现。
模型适配策略包括:全参数微调更新所有模型参数,通常能获得最佳性能但计算成本高且易过拟合。选择性微调仅更新部分参数(如顶层或新加的分类器)。参数高效微调插入或调整少量额外参数,例如适配器模块、低秩自适应(LoRA)和提示调优,大幅降低训练需求。
研究提出了一个详尽的下游任务分类体系:调控元件识别(启动子、增强子等);定量调控活性预测(基因表达水平、增强子活性等);变异效应预测;染色质与蛋白质互作建模;分子修饰预测(DNA甲基化、RNA m6A修饰等);分类学与基因分类;生成式序列设计;RNA特异性任务(二级结构预测、翻译效率等)。多个基准测试(如DART-Eval、BEND、BEACON、COMET)被用于系统评估模型性能。结果显示,不同架构在不同任务上各具优势,例如Transformer模型在短程调控任务中领先,而Hyena和SSM在长程任务中表现突出;领域特定的预训练和归纳偏置带来显著优势;但在极端长程或分子互作建模任务上,现有gLM仍有明显局限。
挑战与未来方向
文章最后指出了gLM发展面临的四大挑战。数据方面,标注数据集中在少数模式生物导致代表性偏差,且数据质量参差不齐。模型方面,需在捕捉兆碱基级依赖关系与计算效率间取得平衡,稀疏注意力、模型蒸馏等技术是可行路径。评估方面,缺乏像NLP中GLUE那样的统一基准,且跨物种、跨细胞类型的泛化能力测试不足。可解释性方面,亟需能将模型内部表征与生物学现象关联的工具,尽管初步分析显示注意力头可能特异关注增强子或启动子等元件。
综上所述,基因组语言模型通过将自然语言处理的前沿技术创造性地应用于基因组序列分析,正在重塑我们理解生命密码的方式。它们不仅克服了传统深度学习模型的诸多局限,更重要的是,其自监督预训练范式使得模型能够从海量无标注数据中学习通用的基因组“语法”,为功能注释、变异解读和调控元件发现提供了一个可扩展的、灵活的基础框架。随着数据、模型架构、评估标准和可解释性技术的持续进步,gLMs有望在疾病变异解读、合成生物学、精准医疗和进化研究等领域发挥越来越重要的作用,最终推动基因组学进入一个由基础模型驱动的新时代。