稀疏自编码器揭示单细胞基础模型表征中的可解释细胞类型程序

《Journal of Biomedical Informatics》：Sparse autoencoders reveal interpretable cell-type programs in single-cell foundation model representations

【字体：大中小】 时间：2026年05月20日 来源：Journal of Biomedical Informatics 4.5

编辑推荐：

　　摘要目标：诸如scGPT之类的单细胞基础模型（single-cell foundation models）能够学习丰富的细胞身份表征，但其内部激活（activations）中所编码的生物学程序仍不透明。研究人员探究了来自AI安全研究的机制可解释性（mech

摘要目标：诸如scGPT之类的单细胞基础模型（single-cell foundation models）能够学习丰富的细胞身份表征，但其内部激活（activations）中所编码的生物学程序仍不透明。研究人员探究了来自AI安全研究的机制可解释性（mechanistic interpretability）技术——稀疏自编码器（Sparse Autoencoders, SAEs），是否能够将这些表征分解为稀疏且生物学可解释的特征。方法：研究人员从处理来自Tabula Sapiens图谱的1000个人类免疫细胞的预训练scGPT模型的所有12个Transformer层中，提取残差流（residual-stream）激活。研究人员在多个稀疏水平（λ ∈ {1, 3, 10}）下训练字典大小 M = 2,048 的SAEs，并使用细胞类型分类（AUROC）、基因集富集分析（Fisher’s exact test, FDR < 0.05）以及与PCA基线的比较来评估恢复的特征。结果：生物学基础模型需要比语言模型（λ ≈ 0.01–0.1）强得多的 L1正则化（λ ≥ 1）才能实现真正的稀疏性。经过适当正则化的SAEs在维持 R2> 0.76 的同时，实现了约48–54个活跃特征的 L0稀疏度。较深层（如第11层，λ = 3）的SAE特征恢复了与注释细胞类型一致的有生物学连贯性的程序，64%的存活特征获得了显著的基因集注释。研究人员观察到了稀疏性-死特征（dead-feature）的权衡：在 λ = 10 时，多达66%的字典元素变为不活跃。结论：为大型语言模型开发的机制可解释性方法能有效迁移至生物学基础模型，但需要特定领域的校准。SAEs为理解单细胞基础模型关于细胞身份的学习内容提供了一种原则性方法，在模型审计和生物学发现方面具有潜在应用价值。

论文解读：稀疏自编码器揭示单细胞基础模型表征中的可解释细胞类型程序

研究背景与意义

随着单细胞测序技术的飞速发展，单细胞基础模型（single-cell foundation models，如scGPT）已成为分析细胞异质性和基因表达模式的强大工具。这些模型基于Transformer架构，能够从高维单细胞转录组数据中学习丰富的细胞身份表征（representations）。然而，尽管其在下游任务（如细胞类型注释、批次整合）中表现优异，模型内部激活（internal activations）究竟编码了哪些具体的生物学程序，仍像一个“黑箱”一样不透明。这种缺乏可解释性（interpretability）的现状限制了研究人员对模型决策依据的理解，也阻碍了其在实际生物学发现中的应用。

为解决这一问题，本研究将源于AI安全与大型语言模型（LLM）研究的机制可解释性（mechanistic interpretability）技术——稀疏自编码器（Sparse Autoencoders, SAEs）引入单细胞生物学领域。该方法旨在将模型高维、叠加的神经元激活分解为稀疏的、单一语义的特征（monosemantic features）。论文发表于《Journal of Biomedical Informatics》，该研究不仅验证了SAE在生物学基础模型中的适用性，还指出了其与语言模型在处理稀疏性正则化上的关键差异，为后续模型审计和细胞类型程序的生物学发现提供了新的原则性方法。

主要关键技术方法

研究人员选取了预训练的scGPT模型作为研究对象，使用该模型处理来自Tabula Sapiens单细胞转录组图谱的1000个人类免疫细胞数据。在研究过程中，研究人员提取了该模型所有12个Transformer层中的残差流（residual-stream）激活。随后，研究人员在多个L₁稀疏正则化系数（λ ∈ {1, 3, 10}）下，训练了字典大小 M = 2,048 的线性和TopK稀疏自编码器（SAEs）。为了评估SAEs恢复特征的质量，研究人员采用了细胞类型分类准确率（AUROC）、基因集富集分析（Fisher’s exact test, FDR < 0.05）以及主成分分析（PCA）基线对比等方法进行定量验证。

研究结果

Objective（目标）

研究人员旨在探究SAEs是否能够有效地分解单细胞基础模型（如scGPT）的内部表征，从而揭示其中隐含的可解释的生物学程序（如细胞类型特异性基因表达程序），打破现有模型的“黑箱”状态。

Methods（方法）

具体而言，研究人员对处理Tabula Sapiens人类免疫细胞的scGPT模型进行干预，提取其12个Transformer层中每层的激活值。接着训练不同稀疏强度的SAEs来重构这些激活。通过设定不同的λ值，观察特征稀疏度（L₀）与重建质量（R²）的变化，并结合细胞类型注释和基因集库（如GO terms）对解码出的特征向量进行生物学功能注释。

Results（结果）

研究发现，与大型语言模型通常需要的较弱稀疏正则化（λ ≈ 0.01–0.1）不同，生物学基础模型需要显著更强的 L₁正则化（λ ≥ 1）才能获得具有真正意义的稀疏特征，这反映了生物数据的高维叠加特性。在适当的正则化（如 λ = 3）下，SAEs能以约48–54个活跃特征（L₀≈ 48–54）的极低稀疏度重构激活，且解释方差（R²）保持在0.76以上。重要的是，在较深的网络层（如第11层），64%的“存活”特征（alive features）能够通过基因集富集分析映射到已知的生物学通路或细胞类型程序上，显示出高度的生物学连贯性。然而，研究也观察到了稀疏性与不活跃特征（dead features）之间的权衡：当λ提升至10时，高达66%的字典元素因从未被激活而失效。

Conclusion（结论）

研究表明，原本为大型语言模型设计的机制可解释性工具SAEs，能够成功迁移并应用于单细胞生物学基础模型，但必须根据生物数据的特点进行域特定的校准（如调整正则化强度）。利用SAEs分解scGPT等模型的内部表征，可以识别出具有明确生物学意义的稀疏特征（即可解释的细胞类型程序）。这一方法为深入理解基础模型“学到了什么”提供了可能，未来有望在基础模型的公平性审计、偏差检测以及全新的生物学特征发现中发挥重要作用。

订阅生物通快讯

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯