基于预训练Transformer的单细胞转录组基因调控网络通用推断框架FTGRN

《Advanced Intelligent Systems》:A Generalizable Transformer Framework for Gene Regulatory Network Inference from Single-Cell Transcriptomes

【字体: 时间:2026年01月17日 来源:Advanced Intelligent Systems 6.1

编辑推荐:

  本研究提出FTGRN(Foundation Transformer for Gene Regulatory Networks),一种基于预训练-微调范式的通用基因调控网络(GRN)推断框架。该框架整合GPT-4生成的基因嵌入与公共染色质免疫沉淀测序(ChIP-seq)数据构建调控知识库,通过Transformer图神经网络预训练,并结合单细胞RNA测序(scRNA-seq)数据微调实现上下文特异性GRN推断。FTGRN在30秒内完成2,000个基因的推断,速度与精度均超越现有方法,并在氨基酸饥饿小鼠胚胎成纤维细胞(MEFs)中成功识别c-Fos、C/EBPγ等自噬关键调控因子,为单细胞基因组学提供可扩展、自适应且可解释的分析工具。

  
引言:基因调控网络推断的挑战与机遇
基因调控网络(GRN)是解码细胞功能调控逻辑的动态框架,单细胞RNA测序(scRNA-seq)技术的进步为GRN重构提供了前所未有的分辨率。然而,scRNA-seq数据的高维性、稀疏性和批次效应限制了传统方法的泛化能力。早期无监督学习方法(如PIDC、GENIE3)依赖计算密集型策略且难以捕捉非线性调控关系,而监督学习方法(如DGRNS、DeepRIG)受限于标注数据稀缺和跨生物学上下文泛化能力不足。FTGRN通过融合大规模生物医学先验知识与单细胞数据,建立了一种兼顾效率与准确性的GRN推断新范式。
FTGRN框架设计:预训练-微调范式整合多源知识
FTGRN的核心创新在于构建覆盖多细胞类型的调控知识库。其预训练阶段利用GenePT框架从NCBI基因描述文本中提取GPT-4生成的语义嵌入(公式1),并通过线性变换扩展至3072维特征向量(公式2)。模型架构包含多头注意力Transformer编码器与多层感知机(MLP)链接预测器,通过负采样策略优化二元交叉熵损失函数(公式5)。微调阶段引入基于指数衰减排序的动态评分算法(公式11),从单细胞数据中筛选高置信度调控对,并可选配大型语言模型(LLM)过滤噪声转录因子,提升标签质量。
性能优势:精度与效率的双重突破
在BEELINE基准数据集(hESC、mDC等)的评估中,FTGRN的曲线下面积(AUPRC/AUROC)较传统方法提升约5%,较同样整合LLM的GRNPT模型显著优化。其推理速度在NVIDIA A30 GPU上仅需27秒完成2,000个基因的网络推断,而GENIE3等无监督方法需耗时14小时。内存占用稳定在1.6 GB以内,显著优于DGRNS等深度学习模型(>10 GB)。消融实验表明,替换GPT-4嵌入为随机向量会导致性能急剧下降,印证了生物语义先验知识的重要性。
鲁棒性验证:多维度稳定性分析
FTGRN在细胞数量(100-1,000)、基因规模(500-2,000)和丢失率(0.1-0.9)变化下均保持稳定的AUPRC/AUROC值,对单细胞数据稀疏性具有强耐受性。在氨基酸饥饿(AAS)小鼠胚胎成纤维细胞(MEFs)的应用中,FTGRN成功捕捉到应激响应GRN的重构:基础状态下c-Jun为核心枢纽,而AAS条件下c-Fos、ATF4、DDIT4等自噬相关转录因子形成协同调控网络。通过siRNA敲低实验验证,10个预测的c-Fos靶基因(如c-Jun、Gabarap、Map1lc3b)中8个表达显著下调,验证准确率达80%。
讨论与展望:基础模型驱动的生物学发现
FTGRN通过预训练-微调范式实现了GRN推断的“冷启动”能力,其持续学习架构支持新调控关系的增量集成。与scPRINT等仅预训练单细胞表达数据的模型不同,FTGRN直接学习调控规则,兼具生物学可解释性与计算高效性。未来可扩展至多组学数据整合与动态GRN追踪,为精准医学提供底层工具支持。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号