基于预训练Transformer的单细胞转录组基因调控网络通用推断框架FTGRN

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Advanced Intelligent Systems》：A Generalizable Transformer Framework for Gene Regulatory Network Inference from Single-Cell Transcriptomes

【字体：大中小】 时间：2026年01月17日 来源：Advanced Intelligent Systems 6.1

编辑推荐：

　　本研究提出FTGRN（Foundation Transformer for Gene Regulatory Networks），一种基于预训练-微调范式的通用基因调控网络（GRN）推断框架。该框架整合GPT-4生成的基因嵌入与公共染色质免疫沉淀测序（ChIP-seq）数据构建调控知识库，通过Transformer图神经网络预训练，并结合单细胞RNA测序（scRNA-seq）数据微调实现上下文特异性GRN推断。FTGRN在30秒内完成2,000个基因的推断，速度与精度均超越现有方法，并在氨基酸饥饿小鼠胚胎成纤维细胞（MEFs）中成功识别c-Fos、C/EBPγ等自噬关键调控因子，为单细胞基因组学提供可扩展、自适应且可解释的分析工具。

引言：基因调控网络推断的挑战与机遇

基因调控网络（GRN）是解码细胞功能调控逻辑的动态框架，单细胞RNA测序（scRNA-seq）技术的进步为GRN重构提供了前所未有的分辨率。然而，scRNA-seq数据的高维性、稀疏性和批次效应限制了传统方法的泛化能力。早期无监督学习方法（如PIDC、GENIE3）依赖计算密集型策略且难以捕捉非线性调控关系，而监督学习方法（如DGRNS、DeepRIG）受限于标注数据稀缺和跨生物学上下文泛化能力不足。FTGRN通过融合大规模生物医学先验知识与单细胞数据，建立了一种兼顾效率与准确性的GRN推断新范式。

FTGRN框架设计：预训练-微调范式整合多源知识

FTGRN的核心创新在于构建覆盖多细胞类型的调控知识库。其预训练阶段利用GenePT框架从NCBI基因描述文本中提取GPT-4生成的语义嵌入（公式1），并通过线性变换扩展至3072维特征向量（公式2）。模型架构包含多头注意力Transformer编码器与多层感知机（MLP）链接预测器，通过负采样策略优化二元交叉熵损失函数（公式5）。微调阶段引入基于指数衰减排序的动态评分算法（公式11），从单细胞数据中筛选高置信度调控对，并可选配大型语言模型（LLM）过滤噪声转录因子，提升标签质量。

性能优势：精度与效率的双重突破

在BEELINE基准数据集（hESC、mDC等）的评估中，FTGRN的曲线下面积（AUPRC/AUROC）较传统方法提升约5%，较同样整合LLM的GRNPT模型显著优化。其推理速度在NVIDIA A30 GPU上仅需27秒完成2,000个基因的网络推断，而GENIE3等无监督方法需耗时14小时。内存占用稳定在1.6 GB以内，显著优于DGRNS等深度学习模型（>10 GB）。消融实验表明，替换GPT-4嵌入为随机向量会导致性能急剧下降，印证了生物语义先验知识的重要性。

鲁棒性验证：多维度稳定性分析

FTGRN在细胞数量（100-1,000）、基因规模（500-2,000）和丢失率（0.1-0.9）变化下均保持稳定的AUPRC/AUROC值，对单细胞数据稀疏性具有强耐受性。在氨基酸饥饿（AAS）小鼠胚胎成纤维细胞（MEFs）的应用中，FTGRN成功捕捉到应激响应GRN的重构：基础状态下c-Jun为核心枢纽，而AAS条件下c-Fos、ATF4、DDIT4等自噬相关转录因子形成协同调控网络。通过siRNA敲低实验验证，10个预测的c-Fos靶基因（如c-Jun、Gabarap、Map1lc3b）中8个表达显著下调，验证准确率达80%。

讨论与展望：基础模型驱动的生物学发现

FTGRN通过预训练-微调范式实现了GRN推断的“冷启动”能力，其持续学习架构支持新调控关系的增量集成。与scPRINT等仅预训练单细胞表达数据的模型不同，FTGRN直接学习调控规则，兼具生物学可解释性与计算高效性。未来可扩展至多组学数据整合与动态GRN追踪，为精准医学提供底层工具支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号