PlantGFM:用于植物基因发现与创制的基因组基础模型

《Advanced Science》:PlantGFM: A Genomic Foundation Model for Discovery and Creation of Plant Genes

【字体: 时间:2026年05月22日 来源:Advanced Science 14.1

编辑推荐:

  人工智能(AI)驱动的遗传序列生成在应对农业、医学和生物能源领域全球性挑战方面具有变革性潜力。传统方法,包括杂交育种、诱变育种以及基于CRISPR的基因编辑,能够对内源DNA进行靶向改造,但仍受限于天然序列多样性。本文介绍了PlantGFM,这是将Hyena算

  
人工智能(AI)驱动的遗传序列生成在应对农业、医学和生物能源领域全球性挑战方面具有变革性潜力。传统方法,包括杂交育种、诱变育种以及基于CRISPR的基因编辑,能够对内源DNA进行靶向改造,但仍受限于天然序列多样性。本文介绍了PlantGFM,这是将Hyena算子应用于面向植物的基因组基础模型(genomic foundation model, GFM)中的一种实现。该模型在来自12种植物的108.4亿个核苷酸上进行了预训练,能够在统一架构下支持长上下文(64 kb)预测与序列生成。在10个已注释植物基因组上完成微调后,PlantGFM在性能上达到或超过了专用基因预测工具。除再现天然基因外,该模型还能够借助AI的涌现能力(emergence capability)从头(de novo)设计新的候选基因。通过AI–Human Knowledge融合筛选流程选出的7个候选序列在本氏烟(Nicotiana benthamiana)中均表现出转录活性,其中2个实现了稳定蛋白表达——这构成了植物中由大语言模型(Large Language Model, LLM)生成序列实现DNA–RNA–蛋白表达的首次证明。作为概念验证,PlantGFM还表现出生成植物NLR基因的涌现能力。上述发现确立了LLM技术用于植物基因从头设计的可行性,并为植物合成生物学与AI辅助育种奠定了基础。
该研究发表于《Advanced Science》,围绕植物基因组基础模型在“基因发现”与“基因创制”两个层面的统一应用展开,核心目标是突破传统植物基因工程主要依赖天然变异与有限编辑的边界。现有杂交、诱变及CRISPR编辑技术虽然已广泛用于作物改良,但本质上仍是在天然基因组框架内进行修饰,难以直接设计自然界中不存在的新型基因结构。与此同时,既有从头设计研究多集中于启动子、增强子和5′ UTR等较短调控元件,生成长度通常仅为50–1000 bp,难以处理真实基因所需的长程上下文、外显子—内含子离散结构以及复杂非翻译区等问题。虽然大语言模型和基因组语言模型的发展为长序列建模提供了新路径,但已有模型要么偏重表征学习与功能预测,缺乏生成能力,要么主要建立在原核生物训练集上,尚不能充分刻画植物基因组中复杂的结构变异、转座元件插入和远距离调控特征。尤其在植物体系中,计算生成序列能否被真实细胞识别、转录、剪接和翻译,长期缺乏实验支持。因此,开展一项兼具长上下文建模、跨任务泛化和实验验证的植物专用生成模型研究,具有明确的方法学与应用价值。

研究人员据此构建了PlantGFM(Plant Genomic Foundation Model)。该模型为decoder-only序列到序列架构,以Hyena算子替代传统Transformer中的多头自注意力(multi-head attention, MHA),在保留单核苷酸分辨率的同时,将长序列建模复杂度由O(n2)降低至O(nlogn),从而支持64 kb上下文窗口。模型总参数量约2.2亿,在12种植物共108.4亿个核苷酸上以自监督、自回归方式预训练,并采用1 kb、8 kb到64 kb逐步扩展的长度预热(length warm-up)策略以提高训练稳定性。随后,研究人员围绕基因预测、基因生成和调控基因组学等任务开展系统评估,证明该模型不仅可在跨材料、跨物种植物基因预测中达到接近或优于专业工具的表现,而且能够从头生成高新颖性植物候选基因,并在本氏烟中实现DNA–RNA–蛋白表达链条的实验证实。此外,模型还展示了面向特定功能家族NLR(nucleotide-binding leucine-rich repeat,核苷酸结合-富亮氨酸重复)基因的定向生成潜力。总体而言,论文表明PlantGFM将植物基因组“语言”的解码与生成统一到同一架构中,为植物合成生物学建立了可扩展的新范式。

在技术方法上,研究人员首先以12种代表性植物参考基因组构建预训练语料,并以单核苷酸标记和Hyena长序列架构完成自监督预训练;随后在10个已注释植物基因组上微调,用于基因、外显子和编码序列(coding sequence, CDS)预测。针对从头生成任务,研究人员以355,190条长度≤4 kb的天然基因为训练集,采用提示词“gene”进行再训练,并结合Helixer、AUGUSTUS、BLAST、UTR合理性和AI-HK筛选流程确定候选序列。实验验证在本氏烟瞬时表达体系中完成,主要使用链特异性RNA测序(RNA-seq)、RT-qPCR、GFP融合蛋白瞬时表达、免疫印迹(western blot)及AlphaFold2结构预测;NLR生成则基于NLRscape与UniProt–RefSeq映射得到的11,184条NLR基因序列进行功能导向再训练。

2.1 Architecture and Pretraining of PlantGFM
本节介绍了PlantGFM的模型设计与预训练策略。研究人员构建了一个面向植物长序列基因组建模的decoder-only模型,由token嵌入层、位置编码模块、16个Hyena block和输出投影头组成,总参数量约2.2亿。其关键创新在于以Hyena算子替代LLaMA框架中依赖RoPE的位置编码多头注意力模块,使模型通过长短程卷积与门控机制同时捕获局部与全局依赖,显著降低时间与显存开销。模型在12种植物共108.4亿核苷酸上开展自监督自回归预训练,并采用三阶段长度预热策略逐步从1 kb扩展到64 kb。结果表明,该架构兼具训练稳定性、计算效率和长程建模能力,不仅适合已知基因恢复,也天然支持序列补全与全序列生成等任务。

2.2 Cross-Species Gene Prediction
本节评估PlantGFM恢复天然基因区域的能力。研究人员从12个预训练物种中选取10个构建微调集,将A. thaliana与B. rapa用作验证集,并在PlantGFM语言表示之上叠加U-Net分割头,实现64 kb片段上的核苷酸级二分类预测。评估设计包括两步独立测试:其一为同种不同材料间迁移,其二为跨物种迁移,且测试材料均未参与预训练或微调。结果显示,PlantGFM在跨材料测试中稳定优于ANNEVO、AUGUSTUS和SegmentNT,但略低于Helixer;在跨物种测试中平均MCC达到0.771,超过Helixer并明显优于AUGUSTUS与SegmentNT,与ANNEVO表现接近。进一步对外显子与CDS预测的评估表明,PlantGFM在外显子预测上优于ANNEVO、AUGUSTUS和SegmentNT,CDS预测优于AUGUSTUS并接近Helixer。该结果说明PlantGFM在非模式植物中具有良好泛化能力,并在通用性与准确性之间取得平衡。

2.3 Importance of Long-Context Input and Single-Nucleotide-Resolution on Modeling
本节通过消融分析阐明PlantGFM性能优势的来源。研究人员选取AgroNT、PlantDNAMamba、PlantCAD和GPN四种代表性植物基因组模型,比较长上下文能力与单核苷酸分辨率对基因预测任务的影响。为保证公平,所有模型在统一的60 kb输入长度和相同训练数据上进行全参数微调。结果表明,同时具备64 kb长上下文建模和单核苷酸tokenization的PlantGFM取得最高MCC。尽管PlantCAD和GPN预训练上下文较短,但因采用单核苷酸分词,其表现仍优于使用k-mer分词的AgroNT和PlantDNAMamba。该结果说明,长上下文输入与单核苷酸分辨率是提升植物基因预测能力的两个关键因素。

2.4 De Novo Gene Generation
本节聚焦PlantGFM的从头基因生成能力。研究人员从12种植物参考基因组中提取467,891条天然基因,选取其中长度≤4 kb的355,190条基因,加入提示词“gene”后对PlantGFM再训练,得到序列生成模型。基于该模型共生成3000条序列,并以1000条天然基因和1000条随机序列作为对照,结合Helixer与AUGUSTUS评估其“基因样”特征。结果显示,PlantGFM生成序列被预测为基因的比例分别为0.75和0.70,接近天然基因对照,且显著高于Evo 2生成序列与随机序列。BLAST比较进一步表明,这些通过Helixer或AUGUSTUS认证的生成序列与天然基因基本无显著同源性,支持其为真正的de novo设计而非已知序列重组。对GC含量、密码子使用、内含子数量与长度以及剪接位点保守模体的分析显示,PlantGFM生成序列整体上更接近天然基因,提示模型学习到了植物基因的重要结构语法。

2.5 Screening of Candidate Generated Genes via an AI-HK Fusion Pipeline
本节提出AI-HK(AI–Human Knowledge)融合筛选流程,以在高成本实验验证前优选高可信候选基因。研究人员首先依据Helixer对每个位点是否属于基因区域的预测概率,计算每条序列的平均基因概率分数,以≥0.8作为初筛阈值,将1000条序列缩减至454条。随后依据PlantGFM训练输入为完整基因这一先验,仅保留可被预测为全长基因的序列,进一步缩减至92条。最后,研究人员基于天然基因的5′ UTR长度与UTR比例分布,设定第20至80百分位为合理范围,以保证后续翻译潜力,最终筛得30条候选序列,并随机选取7条用于生物学验证。进一步利用未微调PlantGFM提取语言嵌入并进行UMAP降维后发现,生成序列与天然基因在嵌入空间中具有相近分布;MMD分析也证实,PlantGFM生成序列的分布显著接近天然基因而非随机序列。该流程表明,将AI生成与生物学知识约束融合,可有效提高候选序列的可实验性。

2.6 Experimental Validation of PlantGFM-Generated Genes
本节给出了本文最关键的实验验证结果。研究人员将7条全长AI生成序列分别克隆入pFGC5941载体,并在本氏烟叶表皮细胞中进行瞬时表达,空载体作为阴性对照。链特异性RNA-seq和RT-qPCR结果表明,7条序列均具有显著转录活性,其标准化reads计数较对照提高2至7倍,RT-qPCR显示mRNA积累量提高11至220倍。值得注意的是,S214位点出现多个离散转录本异构体,提示植物细胞能够识别并处理其剪接结构。随后,研究人员将GFP标签融合至候选序列C端,进行蛋白表达检测。结果显示,S631和S720产生明显GFP荧光,并在免疫印迹中检测到与预测分子量一致的特异性条带,证明这两条AI生成序列可被稳定翻译为蛋白。进一步的过表达转录组分析显示,S631与S720分别引起大量差异表达基因变化,并共享162个一致调控的差异表达基因,其中包括NbeHSP90.1上调和NbeHLH047下调。结合AlphaFold2预测结果,研究人员认为并非任意DNA序列都可被植物细胞正确转录、剪接和翻译,而PlantGFM生成序列中的一部分具备明确的生物学可行性。这一部分构成了植物体系中LLM生成序列实现DNA–RNA–蛋白表达的首次实验证据。

2.7 Function-Guided Generation of NLR Genes
本节检验PlantGFM在功能导向生成中的涌现能力。研究人员选取植物免疫受体NLR家族作为代表,从NLRscape获得80,303条NLR蛋白,经筛选保留包含完整CC、NB-ARC和LRR结构域的27,123条canonical NLR,并通过UniProt–RefSeq映射得到11,184条对应基因序列。进一步选取长度≤7 kb的8,412条NLR基因,以提示词“NLR”对PlantGFM再训练,构建NLR Gene Generation Model。模型生成1000条序列后,经Helixer注释发现其中900条包含预测基因,共计2056个基因;将预测CDS翻译并进行Pfam结构域分析后,发现大量候选序列含有NB-ARC、Rx_N与LRR等免疫相关结构域。特别是有5条候选序列同时具备Rx_N、NB-ARC和LRR三大标志结构域,形成完整canonical NLR架构。BLASTN结果显示这5条候选序列与天然NLR基因均无超过10%的核苷酸同一性;AlphaFold2结构预测及与27,123条天然NLR蛋白的比较显示,其中4条候选序列的整体折叠TM-score高于0.5,前三个最佳候选与天然模板具有高度相似的三维折叠。由此说明,PlantGFM不仅能够生成序列新颖的NLR候选基因,而且能够保留该家族关键的结构语法与空间折叠特征。

2.8 Regulatory Genomics Applications of PlantGFM
本节考察PlantGFM在5项植物调控基因组学任务中的通用能力,包括基因表达预测、染色质开放性预测、转录因子结合位点(TFBS)预测、顺式调控元件(cis-regulatory elements, CREs)强度预测,以及零样本变异效应预测(variant effect prediction, VEP)。在基因表达预测中,PlantGFM在水稻、玉米、拟南芥和番茄四物种上的平均PCC为0.739,优于AgroNT、NT-v2-100m、DNABERT2和Basenji2,仅略低于NT-v2-250m。染色质开放性预测中,PlantGFM在19个玉米组织ATAC-seq数据上的平均AUROC与AUPRC分别为0.988和0.574,明显优于多个基线模型,并接近NT-v2-250m。TFBS预测中,PlantGFM在104个数据集上的平均ACC达到0.973,显著超过TSPTFBS2.0和其他基线模型;t-SNE分析显示其语言嵌入可清晰区分正负样本。CREs强度预测方面,PlantGFM在植物核心启动子与终止子多个数据集中整体优于DenseNet、DNABERT2和NT-v2-100m,多数情况下也优于AgroNT。VEP任务中,PlantGFM对A. thaliana染色体1上260万个SNP表现出一定有害变异识别能力,富集水平高于NT-v2模型并与AgroNT相当,但仍低于专门为该任务优化的GPN。总体而言,PlantGFM在多项任务上表现出与现有模型相当或更优的结果,而其相对于BERT式编码器模型的根本优势,在于同时支持预测与de novo生成。

讨论部分指出,PlantGFM是首个将Hyena架构系统性应用于植物基因组基础模型的研究,实现了64 kb长上下文和单核苷酸分辨率的统一建模,并可在同一模型中兼容长程预测和序列生成。其重要意义在于:第一,提出了一种适合植物基因组的“底盘模型”,减少了不同任务反复设计专用网络的需求;第二,证明了AI生成植物候选基因不仅在计算层面可行,而且在植物细胞中可被识别、转录、剪接并在部分情况下翻译;第三,为功能导向的植物基因设计,尤其是植物合成生物学和AI辅助育种,建立了从模型预训练、生成筛选到实验验证的可扩展流程。论文同时强调研究的主要局限:当前证据尚不足以为生成序列赋予明确生物学功能;过表达后引发的转录变化,特别是热激相关基因变化,更可能反映一般性应激反应,而非功能同源性;另外,仅有7条候选中的2条检测到稳定蛋白积累,说明从“可表达”到“具功能”的跨越仍面临长期挑战。

结论部分可译为:总之,PlantGFM通过整合Hyena架构,在支持长上下文预测与序列生成方面推动了植物基因组学的重要进展。尽管当前在赋予生成序列明确功能方面仍存在局限,但该模型为研究群体提供了一种强大且易于获取的工具。未来改进将集中于三个方向:(1)功能导向微调:在已证明可进行NLR基因功能导向生成的基础上,后续工作将重点验证所生成NLR基因是否具有真实功能;(2)高通量验证:研究人员拟建立新的植物底盘细胞模型与高通量筛选框架,以高效验证数千条生成序列;(3)规模扩展与优化:通过纳入更多植物物种进行预训练、延长上下文识别长度,并引入专家混合模型(Mixture of Experts, MoE),在不过度增加计算成本的前提下扩大网络容量。上述工作将推动PlantGFM发展为一个更具泛化性、视野更广且更轻量化的植物科学模型。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号