单细胞基础模型评估体系scEval构建及十大模型在多任务场景下的性能解析与优化指南

《Advanced Science》：Evaluating the Utilities of Foundation Models in Single-Cell Data Analysis

【字体：大中小】 时间：2026年03月25日 来源：Advanced Science 14.1

编辑推荐：

　　为解决单细胞基础模型（FMs）缺乏系统评估与训练指导的问题，研究团队构建scEval框架，对10种单细胞FMs在8大下游任务的性能、超参数、稳定性展开评估。结果显示scGPT、Geneformer、CellFM综合表现最优，但单细胞FMs并非在所有任务超越专用方法，挑战了其必要性。该研究为单细胞FMs的开发与应用提供了关键基准与实践指南。

在人工智能席卷自然语言处理（NLP）等领域的今天，基础模型（Foundation Models, FMs）凭借强大的泛化能力成为科研热点。而在生命科学领域，单细胞测序技术的爆发式增长产生了海量高维数据，如何高效整合、解读这些数据并挖掘生物学洞见，成为亟待解决的难题。尽管单细胞FMs的概念应运而生，试图借鉴NLP中Transformer架构和表征学习（Representation Learning）的思路，构建统一框架处理多任务，但现实却充满挑战：现有单细胞FMs数量有限，缺乏跨模型的系统评估，更没有明确其相较于传统专用方法的优势边界。究竟这些模型是否真的“必要”？如何训练才能发挥最大效能？这些问题困扰着无数研究者。为此，一支团队在《Advanced Science》发表重磅研究，通过构建名为scEval的系统评估框架，首次全面剖析了10种主流单细胞FMs在8大核心任务中的表现，不仅给出了性能排行榜，更揭示了模型训练的底层逻辑与优化方向。

为实现这一目标，研究团队开发了Single-cell Large Language Model Evaluation（scEval）框架，整合了零样本（Zero-shot）与微调（Fine-tuning）两种评估范式。研究选取了包括scGPT、Geneformer、CellFM在内的11个开源单细胞FMs，在29个数据集上进行了横向（模型间性能对比）与纵向（参数敏感性、初始设置影响）分析。关键技术涵盖：基于多种指标（如Accuracy、PCC、MSE）的任务特异性评估体系；针对超参数（学习率、Epochs、Mask Ratio等）、损失函数组件（Mask Loss、GEPC Loss等）的消融实验；模型缩放（Scaling Law）分析；以及基于不同随机种子的稳定性测试。样本数据覆盖scRNA-seq、scATAC-seq及空间转录组等多组学来源。

2.1 Overview of Our Evaluations

通过对11个模型的综合评估，研究发现scGPT、Geneformer和CellFM在综合考虑性能与用户可及性（User Accessibility）后排名前三。然而，与特定任务专用方法（Task-specific methods）相比，单细胞FMs在批次效应校正（Batch Effect Correction）和多组学整合（Multi-omic Data Integration）任务中并未表现出显著优势，这直接挑战了开发单细胞FMs的必要性假设。

2.2 Comparisons of Pre-Training Datasets for Different Single-Cell FMs

对预训练数据的分析显示，GeneCompass虽数据量最大但因运行问题未被纳入主讨论，UCE和scGPT等在20-30百万量级的数据量可能已满足预训练需求。有趣的是，预训练数据的规模、组织多样性与模型下游任务性能之间未表现出统计学显著性相关（p-value < 0.05），表明单纯堆砌数据不如精细的任务导向型数据清洗与策略设计。

2.3.1 Batch Effect Correction

在批次效应校正任务中，专用方法Harmony和ResPAN在零样本设定下优于所有单细胞FMs。虽然scGPT经微调后性能提升，但其生物学保守性（Biology Conservation）得分仍低于原始数据，且在大规模数据集上表现不佳。超参数分析表明较小学习率（如1e-4）和较大Epochs数通常有益，而Adam系列优化器表现最佳。

2.3.2 Multi-Omic Data Integration

在多组学数据整合（scRNA-seq与scATAC-seq）任务中，scGLUE超越了scGPT等所有测试的FMs。scGPT在此任务中即使微调后，其生物学保守性也未超越原始数据，且零样本学习能力较弱，表明当前FMs在处理染色质可及性数据时仍需针对性设计。

2.3.3 Cell-Type Annotation

细胞类型注释是单细胞FMs的强项。研究发现CellPLM、scGPT和Geneformer在不同数据集（包括跨物种预测）中表现稳健，微调模式显著优于零样本模式（p-value = 1.9e-3）。值得注意的是，预训练权重对此任务提升显著，且冻结部分编码器层（如5层）有时比全参数微调效果更好。

2.4.1 Gene Function Prediction

在基因功能预测任务中，Geneformer和scGPT表现优异，显著优于基于原始数据的普通神经网络（Vanilla NN）。研究表明，引入带有先验信息的基因嵌入（Gene Embeddings）至关重要，且较小的学习率和损失权重有助于提升准确率。

2.4.2 Perturbation Prediction

扰动预测任务结果显示，GEARS作为专用模型仍优于大多数单细胞FMs。虽然scGPT的细胞嵌入（Cell Embeddings）具有潜在利用价值，但零样本预测效果不佳，且不同优化器和损失函数组件对此任务影响不显著，提示该领域可能仍需依赖专家模型。

2.4.3 Gene Network Analysis

基因网络分析（特别是基因共表达网络GCNs）暴露了单细胞FMs的短板。无论是组织特异性还是细胞类型特异性的GCN推断，scGPT和Geneformer的表现均远不如传统方法scWGCNA。其生成的基因嵌入聚类得分（NMI=0.049, ARI=0.035）极低，难以捕捉复杂的免疫系统中基因互作关系。

2.5.1 Imputation

插补（Imputation）任务呈现出“冰火两重天”的结果：scGPT在scRNA-seq数据插补中引入了噪声，表现不佳；但在空间转录组数据插补中，却超越了专用工具Tangram，显示出跨模态知识迁移的潜力。

2.5.2 Simulation Analysis

在模拟（Simulation）单细胞数据任务中，scDesign3作为专用模拟器全面碾压scGPT和Splatter，尤其是在无批次效应的数据生成中优势明显。scGPT的解码器输出存在缺失值问题，表明其在生成参考数据集方面尚需改进。

2.6.1 Exploring Model Scaling Analysis

模型缩放分析验证了缩放定律（Scaling Law）在特定任务中的贡献。在跨数据细胞类型预测和空间转录组批次校正任务中，参数量超过千万级的模型（如scGPT、CellPLM）展现出优势，但在跨物种分析中，小规模专用模型SATURN依然具有竞争力。

2.6.2 Stability Analysis

稳定性分析指出，单细胞FMs在批次效应校正任务中的方差高于scVI和ResPAN等深度学习专用方法，表现出任务依赖性。而在细胞类型注释中，Geneformer和CellPLM的方差相对较小，但scBERT在某些随机种子下存在失败风险。

综上所述，这项研究通过scEval框架系统描绘了单细胞FMs的现状图谱。核心结论在于：单细胞FMs并非万能，其在细胞类型注释和空间转录组插补等任务中展现出巨大潜力，尤其是scGPT、Geneformer和CellFM值得优先部署；但在批次校正、多组学整合、基因网络推断和模拟等任务中，传统专用方法依然占据统治地位。研究进一步明确了训练策略的关键——采用Adam/AdamW优化器、较小学习率（1e-4量级）、结合任务特异性损失函数（Task-specific loss function）以及适当的参数高效微调（PEFT）是关键。此外，预训练数据的质量与针对性（如引入细胞状态标签）比单纯的规模更重要。这项工作不仅提供了可复用的评估流水线，更指明了未来单细胞FMs应聚焦于引入生物学先验知识（如GRN、CCI）、探索多模态融合及提升模型稳定性，而非盲目追求参数量的扩张。这对于指导领域内资源分配、避免重复造轮子以及推动单细胞人工智能走向实用化具有里程碑式的意义。

热点排行