《Nature Biotechnology》:Scoring gene importance by interpreting single-cell foundation models
确定基因在细胞背景下的功能重要性一直是一项挑战,因为其绝对表达水平并不可靠。研究人员在此引入了SIGnature,一个利用源自单细胞RNA测序(single-cell RNA-sequencing, scRNA-seq)基础模型(Foundation Models, FMs)的归因(Attribution)分析来评估基因重要性的框架。归因分数能降低技术噪声,强调调控基因,并促进跨数据集比较——这是scRNA-seq分析中的一个核心挑战。研究人员开发了SIGnature软件包作为生成和查询归因分数的工具,能够实现对大型scRNA-seq图谱(atlas)的快速基因集搜索。研究人员通过MS1单核细胞特征(signature)验证了其效用,这是一个在严重COVID-19和脓毒症(sepsis)中被激活但知之甚少的基因程序。通过对400项研究的搜索,研究人员发现了MS1特征与多种过度炎症(hyperinflammatory)疾病(包括川崎病(Kawasaki disease, KD))之间的关联。实验验证证实,来自川崎病患者的血清可诱导MS1表型。这些发现凸显了SIGnature能够揭示不同疾病间的共同机制,证明了其在大规模特征评分和跨疾病分析中的强大能力。
# 通过解释单细胞基础模型对基因重要性进行评分
基因的绝对表达水平并非其在单细胞内功能重要性的可靠指标。例如,转录因子(transcription factors, TFs)等关键调控因子通常表达水平较低,而高度丰富的基因,如线粒体功能相关基因,对特定细胞能力的影响可能有限。因此,研究人员依赖于比较方法,如差异基因表达分析(例如DESeq2和GSEA)和特征评分(例如GSVA、Scanpy和Seurat),来量化相对的表达变化,假设这种相对变化是功能重要性的代理指标。尽管这些方法提供了洞察力,但它们并非为跨实验的普遍适用性而设计;每项研究独特的设计、细胞类型组成和技术伪影(例如测序深度或批次效应)限制了潜在的比较,并使跨数据集的解释复杂化。虽然已经开发了用于标准化和数据集整合的计算方法来缓解此类问题,但这些方法无法有效地应用于数以千计的公开单细胞转录组学实验。
为实现可扩展、稳健的跨数据集分析,并更客观地衡量基因的功能重要性,研究人员开发了SIGnature(scoring the importance of genes)框架。该框架借鉴了可解释人工智能(explainable artificial intelligence, XAI)中的归因方法,并将其应用于在单细胞RNA测序(scRNA-seq)数据上训练的基础模型(foundation models, FMs)。通常,归因(attributions)量化了每个输入特征对模型预测的贡献。例如,在图像分类中,归因分数最高的像素对识别物体(如后院中的狗)最为关键。当应用于scRNA-seq基础模型时,归因度量了每个基因对细胞在模型潜在空间(latent space)中位置的影响。如果基础模型编码了生物学功能,那么具有高归因分数的基因反映了它们对给定细胞的功能重要性。事实上,研究人员证明,归因分数能够恢复细胞身份的关键标志物或其特殊功能的调控因子,并且比标准化计数更能抵抗技术伪影。归因分析之所以能实现跨数据集的可概括性分析,是因为每个细胞都是与相同标准化基础模型嵌入(embedding)进行比较的。
研究人员通过快速查询大型scRNA-seq图谱中已建立的基因特征,并在细胞状态、治疗和疾病之间发现新的关联,展示了这些归因分数在生物学发现和药物开发中的效用。研究重点是MS1基因程序,这是一个知之甚少的髓系表型,与严重COVID-19和脓毒症的不良预后相关。使用SIGnature分析超过400项多样化的研究后,研究人员发现了MS1特征在三个先前未关联的炎症性疾病中的激活:噬血细胞性淋巴组织细胞增多症(hemophagocytic lymphohistiocytosis, HLH)、发热伴血小板减少综合征(severe fever with thrombocytopenia syndrome, SFTS)和川崎病(Kawasaki disease, KD)。研究人员通过实验验证了MS1与KD的新关联,显示与来自脓毒症患者的血清类似,来自KD患者的血清可在体外诱导MS1表型。对KD scRNA-seq数据的进一步分析表明,MS1细胞在静脉注射免疫球蛋白(intravenous immunoglobulin, IVIG)治疗后减少,但体外测试未能证实直接关联。这些发现强调了SIGnature通过大规模基因集评分揭示共同疾病机制和生成可检验假设的能力。
## 研究结果
### 使用基础模型归因分数评估基因重要性
SIGnature是一个通过计算归因分数来量化每个基因对单个细胞重要性的框架,该分数基于预训练基础模型的嵌入。第一步是选择一个满足两个要求的基础模型:接受固定基因集作为输入,并产生一个细胞水平的嵌入,该嵌入形成一个“生物学宇宙”,其中距离具有生物学意义。研究人员考虑了多种具有不同模型架构和损失函数的预训练和微调基础模型,包括scFoundation、scGPT、SCimilarity、在scTab数据集上训练的自监督模型,以及在CELLxGENE Census数据上训练的scVI模型。
选择预训练基础模型后,研究人员使用基于梯度的可解释性技术——具体包括积分梯度(integrated gradients, IG)、输入乘以梯度(input x gradient, IxG)和DeepLIFT(DL)——来计算归因分数,因为这些方法能够很好地扩展到scRNA-seq数据中的数万个特征(即基因)。为了将这些方法适应于多维嵌入,研究人员在预训练网络的末端添加了一个最终求和层。这使得细胞的基因表达向量能够高效地转换为一个形状相同的归因向量,其中每个基因的分数量化了其对细胞在模型潜在表示中位置的贡献。
基准测试揭示,计算时间取决于模型和方法:使用更简单的基于多层感知器(multilayer perceptron)的模型计算归因分数远快于使用基于Transformer的模型;在三种可解释性方法中,IG是最慢的。此外,大多数模型的归因分数对测序伪影表现出更强的抵抗力,并且相对于对数归一化表达,成功降低了核糖体基因的重要性。同时,所有模型的归因分数在活跃分裂的细胞中均突出了有丝分裂(mitotic)基因,而纳入细胞类型标签的模型(即SCimilarity和经过微调的SSL-scTab模型)在增加细胞类型标志物基因的相对重要性方面最为有效。
基于这些结果,研究人员开发了SIGnature Python软件包,以使用一系列基础模型和可解释性方法进行高效的归因计算。在深入的下游分析中,研究人员使用SIGnature包研究了通过SCimilarity基础模型和IG方法计算的归因分数。选择这一组合是因为它利用了SCimilarity独特的损失函数、相对较小的架构和大的输入空间,以及IG在速度和性能之间既有的平衡。
### 归因分数具有生物学意义并支持跨研究分析
归因分数揭示了对细胞身份和功能至关重要的基因。研究人员计算了来自单个肺部scRNA-seq数据集中B细胞的归因分数,发现归因分数最高的基因(如BANK1、CD79A和MS4A1)与B细胞有明确的关联。相比之下,表达计数最高的基因(例如MALAT1、RPS27和MT-CO1)富含线粒体和核糖体基因,这符合预期。这种趋势在许多细胞群中均存在,表明基础模型认为对细胞嵌入最重要的基因与定义其身份和特殊功能的已知生物标志物高度一致。事实上,在对每个细胞中检测到的基因进行排序时,细胞类型标志物在归因分数中的排名显著高于其在表达水平中的排名;反之,线粒体和核糖体基因在表达分数中的排名显著更高。
研究人员随后关注了对细胞功能至关重要但因低表达而难以用scRNA-seq检测的转录因子(TFs)。归因分析在所有测试的肺部细胞类型中均提升了TF标志物的排名。此外,在考虑来自另一项研究的CD4
+ T细胞时,在Th2、Th17和调节性T细胞(regulatory T cells, Tregs)等相应T细胞亚群中,谱系决定性TFs GATA3、RORC和FOXP3在细胞内的归因排名显著高于其表达排名。
最后,研究人员表明归因分数对scRNA-seq数据中常见的技术伪影具有稳健性。与表达相比,标志物基因的归因分数与互补DNA文库复杂度度量(如总mRNA计数和检测到的独特基因数)的相关性更低。此外,归因分数对随机丢弃(dropout)事件具有稳健性:当对模拟了50%计数丢弃的B细胞计算归因分数时,排名靠前的基因与原始未处理B细胞相比保持高度一致(93%重叠)。
### 归因分析促进跨研究基因程序发现
鉴于归因分数在单个研究内具有生物学意义且稳健,研究人员探究了它们是否能支持跨数据集分析。具体而言,他们寻求聚合多个数据集以增强对具有生物学相关性的基因程序的识别。为此,研究人员考虑了非负矩阵分解(non-negative matrix factorization, NMF),该方法常用于scRNA-seq数据以识别基因程序,但很少应用于多实验数据,因为分离生物信号和技术噪声存在困难。研究人员通过计算三项不同实验中每个细胞的归因分数,并将三个归因矩阵连接用于NMF,共同分析了T细胞。分析揭示了可解释的基因程序,包括CD8
+ T细胞和细胞因子处理的CD4
+细胞的特异性因子。值得注意的是,一个因子在所有三项研究中均突出了Tregs,并且对关键标志物FOXP3和IL2RA具有高加载分数。为了评估该基因程序的普遍适用性,研究人员使用学习到的权重对来自16个组织的3200个预测T细胞计算了使用分数,观察到Tregs中的分数显著高于其他CD4
+ T细胞。
对于这个多研究数据集,基于归因的NMF比基于表达的NMF在各种随机种子、特征集和成分数下产生了更稳定的结果。例如,使用归因分数的90%配置产生了与Treg相关的因子,该因子在所有三项研究中Tregs的使用分数均显著高于其他T细胞;并且98%的这些配置将关键调控因子FOXP3视为加载权重前十位的基因。相比之下,使用标准化表达进行相同分析的一致性较低,因子通常难以解释。
### 归因分析实现跨scRNA-seq数据集的特征评分
在展示了归因分析在通过NMF推导跨研究的有意义、无监督基因程序方面的强大能力后,研究人员转向了特征评分(signature scoring)的挑战——量化已知基因集在一个或多个研究中跨细胞的整体活性。研究人员发现,在基因集内聚合归因分数是特征评分的有效方法。例如,在外周血单核细胞(PBMC)的单个研究中,每种细胞类型标志物基因的平均归因分数在相应的细胞类型中最高。
研究人员随后明确比较了平均归因分数与既定特征评分方法在预测细胞类型方面的能力。平均归因分数在32项测试中的23项中取得了最高的F1分数,并且在有监督和无监督分类任务中均是性能最佳的方法。平均归因分数在实验间也表现出稳健性。研究人员首先使用两个检测T细胞的数据集证明了这一点。考虑一个简单的CD8
+ T细胞特征,平均归因分数在跨研究中能清晰地区分CD8
+ T细胞和CD4
+ T细胞。与此形成鲜明对比的是,将Scanpy的基于表达的评分应用于每个研究,会导致来自一项研究的CD4
+ T细胞比来自另一项研究的真实CD8
+ T细胞得分更高。
### 跨2200万细胞查询归因分数揭示多种炎症性疾病中的MS1样状态
SIGnature的归因分数还支持高效的图谱级基因集查询,在几分钟内生成2200万细胞的细胞级分数,而传统方法则需要数小时或数天。这是因为归因分数可以为庞大的图谱预先计算,并通过简单的数学运算快速查询。研究人员利用这一能力,在多种疾病中发现了共享的炎症细胞状态,从而提出了可检验的假设。
为了展示使用SIGnature进行基因集搜索的实用性,研究人员聚焦于MS1基因特征。使用该特征对412项人类疾病研究(2200万细胞)进行查询,并在所有后续分析中专注于230万预测的单核细胞和巨噬细胞。通过计算每个样本中MS1样单核细胞和巨噬细胞的流行率,研究人员确定了与MS1激活相关的几种疾病。分析恢复了已知的生物学知识,表明MS1基因特征与脓毒性休克和更严重的COVID-19形式关联最强。研究人员还在先前未关联的过度炎症性疾病中发现了MS1样细胞:KD、SFTS和HLH。
为验证这些发现,研究人员重新分析了这些疾病的原始数据集,揭示了原始出版物中未提及的见解。在SFTS研究中,MS1归因分数与疾病严重程度相关;在HLH数据中发现,MS1样单核细胞的流行率在使用纳武利尤单抗(nivolumab)治疗过程中下降。在KD数据集中,MS1样细胞在KD个体中高度丰富,但在静脉注射免疫球蛋白(IVIG)治疗后显著减少。MS1归因分数与KD的关联尤其引人注目,因为其在许多个体中具有高度一致性,且KD的疾病病因学和治疗机制尚不清楚。
为了确认这些KD发现在表达数据中保持一致,研究人员使用Reyes等人定义MS1程序时所采用的分析方法,在KD单核细胞scRNA-seq数据上执行了共识NMF。KD程序4包含核心MS1基因的高加权载荷,并与来自其他疾病的既定MS1因子强聚类。此外,因子4是唯一一个在所有个体中使用率在IVIG治疗后显著下降的因子。这些结果有力地支持了KD MS1样细胞与脓毒症和COVID-19中的细胞具有保守性,表明当以归因结果为指导时,基于表达的传统分析可以揭示相似的表型。
### 来自川崎病患者的血清诱导MS1表型
随后,研究人员通过实验证实,SIGnature在KD中鉴定的MS1样细胞与脓毒症中观察到的相似。在原始研究中,Reyes等人表明来自细菌性脓毒症患者的血清能在造血干祖细胞(hematopoietic stem and progenitor cells, HSPCs)中诱导紧急髓系造血,导致单核细胞产量高,并显著增加MS1样细胞(CD45
+, HLA-DR
Alow)的比例。采用类似的方法,研究人员发现,与发热对照组的血清相比,来自KD患者的血清也增加了单核细胞产量和HLA-DR
Alow单核细胞的比例。这表明KD患者血清中的循环因子促进了这种疾病相关单核细胞群的扩增。
体外成功诱导MS1表型促使研究人员跟进另一个由SIGnature分析生成的可检验假设。KD scRNA-seq数据显示MS1样细胞在IVIG治疗后减少,这可能是IVIG对MS1细胞的直接作用,也可能是与疾病治疗相关的次级效应。研究人员测试了IgG(IVIG的主要成分)是否会影响MS1的诱导率,但观察到MS1单核细胞的比例没有显著变化。这些发现凸显了进一步研究IVIG如何调节KD免疫反应机制的必要性。
## 讨论与结论
研究人员工作的核心贡献是引入基础模型归因分数作为基因重要性的稳健、标准化指标。虽然XAI技术已被应用于监督式转录组分类器,但研究人员的方法独特地利用了基础模型中编码的潜在知识,推导出适用于任何细胞的统一量化指标。该框架增强了对关键、稀疏表达的基因(如转录因子)的信号,同时最小化技术伪影,从而支持稳健的跨研究NMF分析。归因分数可以预先计算,便于在大型scRNA-seq图谱中进行快速基因集评分。这些特性促成了SIGnature软件包的开发,并直接促进了MS1单核细胞特征疾病关联的发现。
尽管具有优势,SIGnature方法仍有几个局限性。首先,虽然底层基础模型经过明确训练以产生具有生物学意义的细胞表示,但归因分数主要是解释性工具,可能不是传统scRNA-seq任务(如聚类)的最优选择。其次,归因分数代表了基因表达值的复杂变换,使其单位不如原始转录本丰度易于解释。最后,归因输出的可靠性本质上取决于基础模型的质量和所使用的特定可解释性方法。
展望未来,研究人员提出了三个关键方向以推进该框架。首先是探索归因计算的方法学改进。其次是需要开发针对特定生物应用定制的基础模型。最后,SIGnature框架可以扩展到其他数据模式。
总之,研究人员的论文证明了基础模型归因分数作为基因重要性标准化指标的潜力,为利用基因组基础模型中嵌入的知识服务于多样化的专业生物学应用铺平了道路。