《Advanced Intelligent Systems》:An Integrated and Robust Deep Learning Framework for Denoising and Analyzing Single-Cell Spatial Transcriptomics
编辑推荐:
空间转录组学为在组织空间背景下研究基因表达提供了前所未有的机遇,有助于更深入地理解细胞组织与功能。然而,空间转录组数据常受高丢失噪声、高维度和复杂结构的困扰,给下游分析带来重大挑战。为此,研究人员开发了单细胞空间转录组分析与去噪引擎(scSTADE),这是一种
空间转录组学为在组织空间背景下研究基因表达提供了前所未有的机遇,有助于更深入地理解细胞组织与功能。然而,空间转录组数据常受高丢失噪声、高维度和复杂结构的困扰,给下游分析带来重大挑战。为此,研究人员开发了单细胞空间转录组分析与去噪引擎(scSTADE),这是一种无监督深度学习框架,可同时实现去噪、聚类和识别功能可变基因(FVGs)。scSTADE采用双通道架构,结合线性去噪模块与基于图卷积网络(GCN)的非线性模块,能够捕获线性和非线性表征嵌入。该框架自适应地对不同空间域的基因分布进行建模,并利用组织水平空间背景在多个空间分辨率下识别FVG。在多种平台生成的多样空间转录组数据集上的广泛基准分析表明,scSTADE在多个聚类指标上始终优于八种流行方法。在脑组织数据集中,scSTADE实现了高达15%的性能提升,其推断的区域与已知神经解剖结构高度吻合。在人类乳腺癌数据集中,scSTADE揭示了免疫相关的三级淋巴结构(TLS),预测的FVG得到了基因本体富集、细胞间通讯分析和生存结果的支持。scSTADE还对随机初始化和不同程度的合成丢失噪声表现出高鲁棒性。
论文解读:一种用于单细胞空间转录组学去噪与分析的集成鲁棒深度学习框架
空间转录组学技术的快速发展使研究人员能够在保留空间位置信息的同时大规模解析基因表达谱,弥补了单细胞RNA测序(scRNA-seq)缺失空间背景的局限。然而,该技术在实际应用中仍面临三大核心挑战:一是数据普遍存在高丢失(dropout)噪声,导致大量假零值,干扰下游分析准确性;二是现有方法多将去噪、聚类、基因识别等任务割裂处理,缺乏统一计算流程,易导致误差传递;三是传统空间可变基因(SVG)识别仅关注空间表达模式,未结合细胞类型特异性,难以精准反映组织功能异质性。为解决上述问题,研究人员开发了单细胞空间转录组分析与去噪引擎(scSTADE),相关成果发表于《Advanced Intelligent Systems》。
该研究采用的核心技术方法包括:1. 双通道无监督深度学习架构,整合线性去噪模块与基于零膨胀负二项分布(ZINB)的图卷积网络(GCN)非线性去噪模块,分别捕获全局线性结构与复杂非线性特征;2. 自适应加权共识聚类策略,融合多特征集、多模型的聚类结果生成最终空间域划分,可自动估计最优簇数;3. 功能可变基因(FVG)识别算法,联合筛选差异表达基因(DEG)、跨簇重复出现基因及具有高空间连续性(spot间距小于预设半径)的基因;4. 在12个人类背外侧前额叶皮层(DLPFC)切片、2个乳腺癌组织切片、小鼠海马Slide-seqV2数据集、小鼠嗅球Stereo-seq数据集及人类结直肠癌Visium HD数据集上进行跨平台验证,采用调整兰德指数(ARI)、调整互信息(AMI)等5项指标评估性能。
研究结果
2.1 scSTADE概述
scSTADE输入为基因表达矩阵与spot空间坐标,首先筛选前5000个高变基因(HVG)作为初始特征集,并行通过线性与非线性去噪通道:线性通道基于Pearson相关性构建spot相似性矩阵,经空间邻接平滑后执行谱聚类;非线性通道采用ZINB-GCN模型学习潜在表征并重构表达矩阵,再基于重构结果聚类。最终通过加权共识聚类整合两类结果得到稳定空间域,并基于聚类结果识别FVG——要求基因同时满足跨簇差异表达与高表达spot的空间聚集性。
2.2 scSTADE在聚类基准数据集中优于八种方法
在12个DLPFC切片上与BayesSpace、SpaGCN、STAGATE、DeepST、GraphST、conST、SEDR、BASS八种主流方法对比显示:scSTADE的ARI值范围为0.44~0.86,在7个切片中取得最优ARI,其余切片接近最优;在AMI、归一化互信息(NMI)、Fowlkes-Mallows指数(FMI)、同质性(HOMO)指标上也表现领先。其自动估计的簇数与人工注释无显著差异(p=0.869),且估计偏差低于其他方法,即使未知真实簇数仍能保持高精度。
2.3 线性与非线性去噪整合提升聚类性能
消融实验表明,线性与非线性分支在不同切片上呈现互补优势:线性分支通过空间平滑增强簇内相似性,非线性分支通过ZINB建模有效降低dropout噪声影响。二者加权共识聚类的ARI均高于单一分支或单一特征集,在8个DLPFC切片中取得最高ARI,且重构的表达矩阵比原始信号更平滑连贯,空间域边界更清晰。
2.4 scSTADE对随机初始化与dropout噪声具有鲁棒性
10次独立运行结果显示,scSTADE在7个DLPFC切片中ARI中位数最高,且在8个切片中ARI标准差小于0.3,稳定性优于其他对比方法。在人工添加10%~30% dropout噪声的测试中,scSTADE始终保持最高且最稳定的ARI,证明其可有效应对数据稀疏性挑战。
2.5 scSTADE高效识别不同空间分辨率的FVG
在DLPFC切片S151673中,scSTADE识别出761个FVG,基因本体(GO)富集显示其显著参与突触组织与神经元过程,代表性基因SNCG、HOPX、YWHAG、CA2的表达模式与已知皮质分层结构完全吻合。与传统SVG方法相比,基于FVG的聚类ARI更高,且FVG数量更稳定。在人类结直肠癌Visium HD数据集(数十万spot)中,scSTADE识别的免疫富集簇FVG显著富集免疫相关通路,验证了其在大规模数据中的适用性。在小鼠脑区数据中,FVG同样与Allen参考图谱的解剖结构高度一致。
2.6 scSTADE识别小鼠脑区新型FVG
在小鼠后脑切片中,scSTADE鉴定出2645个FVG,其表达模式对应皮质与海马锥体层、特定区域簇等解剖结构,GO富集显示其参与轴突与突触功能;在前脑切片中,FVG可细分多个功能亚区,如OTX2、SPOCK3等基因分别标记不同簇,为脑区功能研究提供了精准分子标记。
2.7 scSTADE推进乳腺癌空间转录组学的生物学意义解析
在两个乳腺癌Visium切片中,scSTADE分别识别出免疫富集簇(簇13与簇7),高表达PTPRC、CD3D、CD79A等免疫标志物,细胞间通讯分析显示其MHC-I、MHC-II、CD86等通路活性显著升高,符合三级淋巴结构(TLS)特征。基于簇13标记基因构建的TLS特征评分在TCGA-BRCA队列中可显著区分患者预后(p<0.0001),高评分组总生存期更长,证实了其临床相关性。
讨论与研究结论
scSTADE的核心创新在于构建了首个去噪、聚类、FVG识别联合优化的端到端框架,突破了传统分步式流程的信息壁垒。其定义的FVG概念弥补了SVG仅依赖空间模式的不足,更精准反映组织功能异质性。计算效率方面,4000 spot的10x Visium数据集仅需约20分钟完成分析,50000 spot的高分辨率数据集仅需约30分钟,支持大规模应用。当前局限性包括未整合批次校正、未纳入组织学图像特征、缺乏三维重建能力等,未来可通过引入病理基础模型、多组学整合等方向进一步优化。该研究为空间转录组学提供了一种统一、鲁棒且可解释的分析工具,可广泛应用于神经科学、肿瘤微环境、发育生物学等领域的研究,推动从原始空间数据到生物学意义的转化。