《Frontiers in Bioinformatics》:Applications of AI to single-cell and spatial transcriptomics: current state-of-the-art and challenges
常见深度学习架构
深度学习模型在处理单细胞和空间转录组学数据时采用了多种架构,每种都有其独特的优势和适用场景。
卷积神经网络(CNN)最初为图像处理设计,通过局部感受野、权重共享和池化操作高效识别局部模式。在转录组学中,基因表达数据可被重构为类图像格式供CNN学习基因间非线性关系,例如CNNC方法。在空间转录组学中,CNN尤为擅长从组织切片中提取形态学特征,并与基因表达数据整合,如SpaCell和stLearn所展示的。
自编码器(AE)是无监督表示学习的核心工具,通过编码器将高维数据压缩到低维潜空间,再通过解码器进行重建。其灵活性体现在可针对单细胞数据的特性(如稀疏性和过度离散)使用负二项分布或零膨胀负二项分布作为损失函数,例如Deep Count Autoencoders (DCA)。scDCC等方法还能融入先验生物知识来指导潜空间优化,提升聚类效果。
变分自编码器(VAE)是AE的概率扩展,通过学习潜变量的分布来生成更平滑、连续的表示,并支持生成建模。scVI利用VAE框架对scRNA-seq计数数据进行建模并校正批次效应,已成为广泛应用的基础工具。totalVI将VAE扩展至多模态数据(如CITE-seq的RNA和蛋白质数据),而SpaVAE则通过高斯过程先验将空间坐标信息融入潜空间。
生成对抗网络(GAN)通过生成器和判别器的对抗训练来生成逼真的数据。在scRNA-seq中,cscGAN/scGAN能生成特定细胞类型的表达谱以增强罕见群体,scIGAN则将插补任务视为生成过程。然而,GAN存在训练不稳定和模式崩溃的问题,且在空间转录组学中尚未出现被广泛采用的端到端框架。
Transformer凭借其自注意力机制,能有效捕捉序列数据中的长程依赖关系。在转录组学中,基因表达需通过排序、分箱离散化或值投影等方式转换为令牌嵌入以供Transformer处理。相关模型如Geneformer、scGPT等。在空间转录组学中,Transformer的优势在于能整合多模态输入并建模全局空间关系。
图神经网络(GNN)专为图结构数据设计,通过聚合邻居信息来更新节点表示,非常适合基于转录相似性或空间邻近性构建的细胞-细胞图。Graph Convolutional Networks (GCNs) 如scGCN可用于半监督标签转移,而SpaGCN则结合空间邻近性、组织学特征和基因表达相似性来识别空间域。图注意力网络(GATs)如STAGATE,以及结合对比学习的GraphST,进一步提升了模型的鲁棒性和性能。
混合模型通过整合多种架构优势来应对复杂挑战。例如,结合VAE和GAN(如iMAP),或整合GNN与VAE(如scGNN),以及融合Transformer和GNN(如STAGATE),这些模型展示了通过策略性整合不同组件来更全面分析单细胞和空间数据复杂性的未来方向。
深度学习在scRNA-seq和ST分析任务中的应用
深度学习模型在这些领域的应用主要分为无监督学习和有监督学习。无监督模型(如scVI, stLearn)通常针对每个实验单独训练,而有监督模型(如stDeepSort, Cellpose)则在带有已知真实标签的数据上训练,用于分类等任务。生成低维嵌入空间是深度学习分析高维数据最常见的用途,可替代主成分分析(PCA)用于后续各种分析。
降维、聚类和空间域识别
聚类是识别不同细胞群体和组织亚结构的基础。传统流程使用PCA降维后进行Louvain或Leiden聚类,但PCA有线性和正态分布假设。自编码器(AE/VAE)和Transformer可以学习非线性低维嵌入来替代PCA。例如,scVI使用VAE框架对原始scRNA-seq计数数据建模,在独立基准测试中其嵌入在细胞类型识别方面与PCA表现相似。其他方法如scDCC和scDeepCluster尝试整合先验知识或改进聚类损失函数,但基准测试表明对于scRNA-seq的细胞类型识别,非线性深度学习降维并非必需。基于大量数据集预训练的基础模型(如scGPT, SCimilarity)可生成通用嵌入空间用于聚类和新细胞类型发现,例如scAtlasVAE在无监督情况下成功表征了新的T细胞状态。
在空间转录组学中,深度学习模型能更便捷地整合图像和空间信息。图卷积网络(GNN)通过构建空间邻近图将空间信息纳入模型,如SpaGCN、STAGATE、GraphST等方法。基准研究表明,结合空间信息的深度学习方法与同样结合空间信息的非深度学习方法性能相当,但优于不包含空间信息的方法。组织学图像信息通常通过独立的AE/VAE或GNN提取图像特征,再与基因表达特征整合。虽然深度学习提取的图像特征能带来显著收益,但大部分性能提升仍由基因表达信息驱动。这些方法能复现已知解剖结构,但其发现新颖生物学结构的能力尚不明确。
自动注释
自动细胞类型注释通过将新细胞与已有注释数据集进行比较来推断细胞类型。早期方法使用相似性度量或标准机器学习算法,但在精细分类上表现不佳。深度学习模型非常适合这项监督分类任务,已有多种架构被开发,包括基于GPT-4和scBERT等大型语言模型的方法、基于注意力机制的Transformer模型(如scGAA, TOSICA)以及预训练基础模型(如scGPT, CellFM)。大多数方法在数据集内测试时准确率可达80%-90%,但在处理与训练数据差异较大的查询数据集时,性能会显著下降。独立基准测试显示,深度学习模型在某些情况下优于非深度学习算法,但并未超越在相同参考数据上训练的支持向量机,且其性能在参考数据与查询数据不匹配时退化严重。在发现研究中,自动注释通常作为初步指导,提供置信度分数的算法尤为有用。建议研究人员使用与自身数据最相似的训练数据的方法,或选择如scGPT(针对人类数据)等经过广泛测试的方法以评估结果可信度。
整合与批次效应校正
批次效应是跨批次、个体、平台进行实验时产生的非生物变异。早期方法如Combat使用统计回归去除批次协变量,但可能同时去除生物变异。下一代方法如典型相关分析或互最近邻旨在识别并保留跨批次的共享生物变异。当前最先进的非深度学习整合方法是Harmony,它在近年来的基准测试中持续表现优异。
深度学习方法通常修改AE/VAE架构,通过学习“联合”嵌入空间来混合不同技术批次,同时保留生物群组。一种常见方法是使用对抗学习惩罚未能混合批次的嵌入,如scVI、scANVI和SAUCIE。另一种方法是使用条件AE/VAE,将批次标签包含在联合嵌入中,然后通过将批次效应视为线性变换将所有批次投影到单一参考样本上,如scGen和scArches。基础模型如scGPT也可以通过微调创建项目特定的联合嵌入。
尽管深度学习方法在数据集整合方面具有理论优势,但在基准测试中往往难以媲美Harmony的表现。一个可能的原因是它们倾向于过度校正,特别是在批次间细胞类型比例差异较大时,可能会去除生物信息。虽然单细胞RNA测序的整合甚至可以通过线性模型实现,但深度学习在整合多组学数据(如联合scRNA-seq和单细胞ATAC-seq)方面更为成功。当结合图表示来整合空间转录组学数据或在同一组织的多个切片上保持结构连续性时,深度学习模型表现出色。然而,对于这些任务,使用深度学习并无明显优势。Harmony和scMerge等非深度学习方法在独立基准测试中持续表现最佳。当整合包含相同细胞类型频率的实验重复时,推荐使用Harmony;如果样本包含部分非重叠细胞类型,则scMerge更合适。对于图谱和元分析,如果各数据集有可用的细胞类型标签,使用scANVI可能更优。对于空间转录组学数据,当数据在细胞或点位水平聚合时,这些scRNA-seq方法也可使用,但会丢失空间信息。对于需要空间连续性的数据,基于贝叶斯统计的BASS算法是目前最佳选择。需要注意的是,任何对观测数据的修改都可能导致信息丢失,因此只有在数据检查表明确实存在显著批次效应时才应进行整合。
去噪与插补
去噪旨在减少技术噪音(如扩增偏差、批次效应、随机脱落),同时保留真实的生物信号。而插补则是明确预测未观测或缺失值(如可能由技术脱落导致的零计数)。尽管目标不同,这两个术语在文献中常被混用。
去噪是深度学习的早期应用之一。自编码器模型已被用于多种生物医学数据的去噪。针对单细胞数据低起始量和较高噪音的特点,许多深度学习算法被开发出来。DCA修改了传统自编码器架构,使其为每个输入基因输出统计分布(如负二项分布)的参数,从而考虑数据不确定性和生物随机性。scVI采用了类似方法。其他模型设计包括CNN、基因分区和子网络、GCN以及对比学习等。将这些方法应用于生物数据集可以增强数据的可解释性,例如DCA能提高T细胞中CD3E的表达水平并恢复与NK生物学一致的ITGAX表达。
然而,独立的基准测试结果存在冲突。在恢复被破坏的表达值或提高自动细胞类型注释准确性方面,深度学习去噪方法表现良好。但在无监督聚类和伪时间分析中,结果从略有改进到比原始数据更差不等。而在评估基因-基因相关性、差异表达、细胞类型标记物和细胞-细胞相互作用时,所有基准测试都发现去噪会引入大量假阳性结果。因此,对于scRNA-seq数据,去噪仍存在争议,在发现研究中很少使用。
对于空间转录组学数据,与scRNA-seq整合比直接去噪更常见。不过,也存在一些使用GNN直接对ST数据去噪的方法,如SiGra和Impeller。基准测试更为有限,SiGra显示能增加差异表达基因的数量并改善聚类的区分度,但其带来的假阳性程度尚未探讨。总体而言,除非是为了提高聚类分析的灵敏度,否则不建议进行去噪或插补,并且在结果解释中必须谨慎以避免假阳性。跨实验或模态的整合可能是通过增加样本量来提高统计功效的更有用、更可靠的方法。
数据生成与增强
深度学习被越来越多地用于scRNA-seq和ST中的数据生成和增强,以解决小样本量、罕见细胞类型和高成本实验的限制。
在scRNA-seq中,基于VAE的模型如scVI和scVAE可用于生成保留原始数据统计特性和细胞身份的合成细胞。生成模型如cscGAN和scGFT已证明能够生成真实的合成细胞。选择性生成和增强可以重新平衡数据集,这被证明能改进聚类和轨迹推断性能,从而正确识别罕见细胞类型并准确解析轨迹分支。然而,与插补类似,数据增强会人为放大统计检验的效力,如果用于差异表达分析,很可能导致I类错误增加。
在空间转录组学中,数据生成通常用于去噪目的。例如,前面提到的SiGra用生成的数据替换观测数据以进行去噪。类似地,STAGE模型更侧重于准确的数据生成,并利用生成的数据来恢复和下采样数据,以及在连续ST切片之间进行插补。与单细胞RNA测序相比,目前专门用于ST数据生成和增强的方法相对较少。虽然新兴技术专注于整合图像特征、空间坐标和基因表达进行增强,但这些模型通常只生成基因表达数据,而非匹配的图像数据,因此缺乏完全生成ST数据的能力。与插补类似,使用合成生成的数据增强数据集存在增加I型错误的巨大风险。因此,必须谨慎使用此类方法。数据增强的主要用途是促进罕见细胞类型的检测,或沿着发育轨迹平滑细胞密度,以更好地使数据符合聚类和轨迹分析工具的限制和假设。数据生成的另一个用途是算法基准测试,然而,大多数深度学习生成算法缺乏为该类测试设计特定真实情况所需的精细控制能力,因此该领域仍由通常为特定基准测试任务定制的小规模统计模拟方法主导。
解卷积
在转录组学中,解卷积是将批量表达数据分解为细胞类型比例或细胞类型特异性表达的过程。它通常应用于批量RNA测序或低分辨率空间转录组学数据。
针对使用scRNA-seq参考数据的批量RNA测序解卷积,至少已有13种基于深度学习的工具被开发出来,通常基于多层感知机、自编码器或Transformer。Scaden是这一领域的早期工具之一,它采用集成策略结合了三个具有不同层数、激活函数和丢弃设置设置的深度神经网络以提高泛化能力。DAISM-DNNXMBD则为每种细胞类型训练一个单独的深度神经网络模型来预测比例。独立基准测试表明,Scaden和DAISM-DNNXMBD均位列表现最佳的方法之中,但Scaden存在较高的假阳性率,而DAISM在粗粒度和细粒度解卷积中均表现良好。这表明深度学习为传统方法提供了强大的替代方案。总体而言,批量RNA测序解卷积能使研究人员在降低实验成本的同时,仍能深入了解肿瘤或组织微环境。然而,深度学习解卷积方法的性能需要高质量的训练数据集,且容易泛化能力差。大多数研究人员仍依赖传统的解卷积方法,只有少数研究使用了基于深度学习的工具进行解卷积。
批量RNA测序解卷积工具可用于空间转录组学数据,但通过结合空间信息可能会带来额外的性能提升。许多空间转录组学解卷积方法使用非深度学习方法,如数值优化或概率模型。几种基于深度学习的解卷积方法不仅能估计细胞类型比例,还能估计每个点位的细胞数量、为每个解卷积的细胞生成基因表达或估计单个细胞位置。
基于参考的深度学习解卷积方法使用三种通用策略:监督学习、基于相似性的整合和基础模型。监督学习通过组合scRNA-seq数据创建合成空间转录组学点位,并以此作为真实值来训练神经网络从聚合表达谱预测细胞类型比例。基于相似性的整合方法通过图构建、自编码器或优化将scRNA-seq和空间转录组学数据嵌入到一个共享空间中,基于相似性或距离度量将空间转录组学点位与scRNA-seq细胞类型匹配。UniCell Deconvolve (UCD)是唯一一个为解卷积训练的基础模型,它是一个在前馈神经网络,在超过840种细胞类型上训练而成。另一种方法是scResolve,它插补像素级基因表达,并结合相应的组织学图像细胞分割来推断单细胞分辨率表达,从而实现无参考解卷积和潜在的新细胞类型发现。
由于空间解卷积工具种类繁多,目前尚未有涵盖所有方法的系统性基准研究,大多数基于深度学习的方法尚未经过基准测试。对于发现型研究人员,当有可靠的参考单细胞数据集时,cell2Location和SpatialDWLS仍然是解卷积的顶级选择。Tangram是一个可接受的替代方案,而在没有参考单细胞数据可用时,scResolve是唯一能够进行解卷积的方法。
细胞-细胞相互作用
识别不同细胞类型之间的相互作用是单细胞RNA测序的一个关键目标。许多启发式方法已被开发用于此任务,它们使用配体-受体对数据库并计算细胞类型对之间每个配体-受体对的共表达得分。目前只有少数深度学习方法来推断单细胞数据中的这些相互作用,空间转录组学中则尚无。
DeepCCI整合了ResNet和图卷积网络模型来推断细胞-细胞相互作用,其解码层使用从启发式方法获得的共识相互作用进行训练。在其内部基准测试中,DeepCCI能识别出与多种启发式方法相同的相互作用,并且可能比任何单独使用的启发式方法有更少的假阳性结果。目前尚不清楚DeepCCI的深度学习组件是否带来了优势,还是仅仅得益于其用于训练的启发式模型内部共识。
深度学习方法的优势在于能够整合多数据源;GraphComm利用了这一优势,将通路注释与直接配体-受体相互作用整合到每个配体-受体对的先验相互作用概率中。配体-受体对的共表达被计算出来,并与先验概率通过图注意力网络整合。嵌入包含细胞类型和配体-受体基因,用于生成配体-受体对分数和细胞类型x细胞类型分数。另一种方法,ScTenifoldXct和scSDNE首先使用深度学习模型(scSDNE)或回归模型(ScTenifoldXct)推断基因-基因依赖性,然后与配体-受体共表达得分结合,再通过图自编码器架构生成基因嵌入空间。细胞-细胞相互作用从配体-受体对在基因嵌入空间中的邻近性推断出来。scSDNE和ScTenifoldXct的优势在于使用半监督学习,而GraphComm依赖于数据库衍生的配体-受体相互作用来训练其嵌入空间。这些方法的内部基准测试有限,但它们与启发式方法表现相似,其中GraphComm似乎具有更高的灵敏度,而scSDNE和ScTenifoldXct则更为保守,表现类似于启发式方法的共识。
细胞-细胞相互作用推断仍然充满挑战,主要原因是缺乏真正的黄金标准基准测试。在许多情况下,方法使用空间转录组学数据进行基准测试,因为 distant cells are unlikely to interact, but this cannot provide individual LR interaction information, or with very small sets of manually curated interactions. 这对于深度学习算法来说尤其成问题,因为它们依赖训练数据来优化模型。通常,研究人员会使用多种配体-受体算法并采用某种共识,这正如LIANA软件包的流行所证明的那样。深度学习天然具备整合多种数据类型的能力可能是一个优势,因为已有大量扰动数据可用,这些数据可能用于增强细胞-细胞相互作用推断。然而,由于缺乏黄金标准数据集,目前几乎没有证据支持任何特定方法优于其他方法。
结合单细胞和空间转录组学
空间转录组学和单细胞RNA测序是互补的技术。许多方法被开发出来以不同的方式结合两者。SIMO使用最优传输将单细胞与空间转录组学数据对齐。另一种方法,CellTrek使用互最近邻整合结合随机森林,根据整合嵌入空间中的邻近性预测单个细胞的空间位置。在其内部基准测试中,CellTrek在模拟空间转录组学数据上表现良好,但未与深度学习方法进行比较。
最早且最成熟的模型之一是Tangram,它学习单细胞RNA测序与空间转录组学之间的映射,以优化映射基因表达与观测基因表达之间的空间相关性。作者证明了其在重现皮层各层已知表达模式方面的有效性。在独立基准测试中,Tangram在恢复下采样基因表达值方面优于其他方法,但在预测空间转录组学数据的细胞类型组成方面表现一般。然而,值得注意的是,无论是原始出版物还是独立基准测试,都没有评估产生假阳性结果的可能性。生成式深度学习模型可以基于参考单细胞RNA测序数据集从空间转录组学数据预测单细胞RNA测序谱。例如,SpatialScope使用概率深度学习模型预测单个空间转录组学点位的细胞类型组成,并按细胞类型分解基因表达,然后使用生成式深度学习模型基于分解后的谱为单个细胞创建单细胞RNA测序数据。相反,stImpute使用联合自编码器嵌入和图神经网络,基于已知的基因-基因关系预测成像型空间转录组学中未测量基因的表达。
从更便宜、低分辨率的实验方案预测额外的数据模态或更高分辨率的数据是深度学习方法开发的一个热门用例。ScSemiProfiler从批量RNA预测单细胞RNA测序数据,其优势在于能够预测细胞类型特异性表达差异,这是非生成式解卷积方法无法做到的。然而,他们并未评估scSemiProfiler生成的细胞是否会就COVID-19的影响得出与原始单细胞RNA测序相同的生物学结论。因此,这种方法是否适用于发现研究尚不清楚。
最后,已有超过十几种算法被发表,用于从组织学图像预测空间转录组学表达数据。组织学图像丰富且易于收集,而空间转录组学数据相对稀少且昂贵;因此,从前者准确预测后者将非常有价值。然而,所有当前方法的性能都相对较差,对于大多数基因,预测基因表达与真实测量基因表达之间的相关性低于0.2。虽然对于具有强空间模式的基因性能最佳,但在几乎所有情况下相关性仍低于0.5,远未达到对发现研究有用的准确度。随着空间转录组学实验平台的改进,此类方法可能会有所改进,但也有可能大部分基因表达并未在组织学图像中表现为任何可见差异,从而为这些方法的最高准确度设定了硬性上限。然而,当前模型最可能的限制是缺乏具有高质量匹配组织学图像的空间转录组学训练数据,因为大多数公开数据只发布压缩的低分辨率图像。
总体而言,建议发现研究人员选择将单细胞投影到空间转录组学数据上的方法(如SIMO或CellTrek),而不是任何生成式方法,并使用多种不同方法以确保结论对所选方法具有稳健性。虽然生成式深度学习方法在转换转录组学技术方面前景广阔,但在真实使用场景中的基准测试不足,无法确定这些方法是否会导致错误或误导性的结论。
整合多组学数据
空间转录组学数据可被视为多组学数据,因为图像和空间坐标可被视为另一层待整合的数据。然而,多组学数据更常特指同时捕获mRNA并进行测序,以及捕获DNA(通常用于ATAC assay,测量全基因组范围内的开放染色质)的单细胞数据。虽然最初为单细胞开发,但等效的检测技术也已用于空间分辨分析。然而,目前只有同步单细胞RNA测序和ATAC测序被开发成简单的现成平台,因此是迄今为止最常用的多组学技术。
流行的单细胞多组学数据整合和分析方法包括ArchR、Signac和MOFA,它们执行数据标准化、降维和聚类。Signac和ArchR还能识别相关的开放染色质峰及其附近相关的基因表达,从而用于推断基因调控网络。这些方法都是基于统计学的方法,ArchR和Signac使用潜在语义索引进行数据嵌入,MOFA使用贝叶斯概率模型进行联合因子分析。
深度学习方法在整合多组学数据方面有几个优势。它们能够内在地对齐不同的输入数据,使得ATAC峰不必在整合前就分配给特定基因。它们可以通过正则化从数据中学习不同模态的可比表示,而不必使用启发式的标准化策略。最后,其架构可以是数据类型无关的,允许相同的结构用于许多不同的数据模态。深度学习多组学方法的通用结构始于模态特定的自编码器或变分自编码器,然后将模态特定的嵌入组合成单一表示。
MultiVI通过惩罚模型在同一细胞在不同模态中的表示差异,然后使用每个细胞的平均表示,从而扩展了scVI架构以处理多组学数据。这使得能够高效整合配对和非配对数据集。Cobolt具有非常相似的架构,但使用狄利克雷先验并重建原始矩阵,而不是使用解码器估计原始分布。scMVP对每种模态使用自注意力和掩码注意力编码器,并简单地将潜空间拼接起来作为联合嵌入。而GLUE则使用启发式方法推断ATAC峰与RNA基因的关联,将其作为知识图,作为其自编码器拼接后的多组学潜空间的额外解码器输出。
在多个独立基准测试中,对于完美匹配的RNA+ATAC数据,Seurat的加权最近邻网络(WNN)在整合程度(即保留或增强细胞类型身份的同时混合ATAC和RNA模态)方面持续优于其他整合方法,而MultiVI对于部分重叠的数据集持续表现最优。相比之下,当ATAC和RNA数据集来自不同样本时,GLUE表现最佳。值得注意的是,这些结果仅针对低维嵌入的整合水平而言。一项基准测试评估了模态预测能力,虽然MultiVI是表现最佳者之一,但所有方法表现都相对较差(相关性<0.4),这通常是由于对特定细胞群中上调基因的估计过高,这与其他插补方法的基准测试结果一致,即数据平滑通常会导致信号膨胀,产生假阳性。
总体而言,MultiVI和GLUE都是已确立的方法,在基准测试中表现出色,特别是对于数据不完全重叠的单细胞多组学项目是不错的选择。启发式方法,特别是Seurat的WNN方法,对于完全匹配的数据集是很好的选择,但对于非重叠数据集则不足。插补仍然不可靠,不应用于统计分析,但可能有助于识别趋势以供独立验证。虽然深度学习算法已被开发用于单细胞多组学数据的整合和插补,但多组学研究的主要目标——基因调控网络推断——尚未用深度学习方法解决,这可能是未来方法开发的一个机会。
在一项针对精选数据集的独立基准测试中,scJoint、MultiVI和GLUE在单细胞多组学数据整合细胞类型识别方面表现最佳。然而,其他研究发现性能因数据集而异,且MultiVI尤其敏感,根据所讨论的数据集,其表现要么名列前茅,要么较差。
对于空间多组学数据,上述许多单细胞方法也适用;然而,当空间数据包含连续的均质区域时,结合空间信息通常是有益的。目前,唯一为空间多组学数据整合空间位置的方法是SpatialGlue。该方法将空间信息编码为连接空间邻近细胞或点位的图,并使用自编码器结构学习联合嵌入空间。为了整合RNA和ATAC数据,使用独立的图卷积网络编码器将空间图与模态特定的相似性图结合。这些编码通过注意力头组合,生成跨越两种空间