空间高清晰度嵌入映射:多模态可解释降维框架提升空间转录组学分辨率

《Nature Cell Biology》:The interpretable multimodal dimension reduction framework SpaHDmap enhances resolution in spatial transcriptomics

【字体: 时间:2026年01月07日 来源:Nature Cell Biology 19.1

编辑推荐:

  本刊编辑推荐:Tang、Chen、Qian等人提出了一种名为SpaHDmap的多模态、可解释降维框架。该框架通过整合组织学图像(Histology Images),显著增强了空间转录组学(Spatial Transcriptomics, ST)数据的空间分辨率,从而能够解析复杂的组织结构。SpaHDmap将非负矩阵分解(Non-negative Matrix Factorization, NMF)融入深度学习框架,能够识别高分辨率空间元基因(Spatial Metagenes),并支持同时分析多样本及多种组织学图像类型。研究在合成、公共及新测序的多种ST数据集上验证了其有效性,表明SpaHDmap是整合ST数据与组织学图像、深入理解复杂组织结构和功能的强大工具。

  
SpaHDmap融合表达与组织学图像实现高分辨率降维
空间转录组学(ST)技术通过捕获具有空间背景的基因表达,彻底改变了组织架构研究。然而,高维ST数据通常空间分辨率有限,且存在显著的噪声和稀疏性,这为解析细微的空间结构和潜在的生物学活动带来了巨大挑战。本文介绍的SpaHDmap是一个可解释的降维框架,它通过整合ST基因表达与高分辨率组织学图像来增强空间分辨率。该框架包含两个主要组件:特征表示和高分辨率嵌入学习。在特征表示组件中,SpaHDmap独立地从ST数据学习低分辨率嵌入,并从图像数据学习像素级视觉特征。低分辨率嵌入是通过对表达数据应用NMF获得的,然后通过图卷积网络(Graph Convolutional Network, GCN)结合图像数据进行去噪和空间扩展。对于图像特征表示,SpaHDmap训练一个多通道U-Net来恢复图像块,然后迁移其主干网络来提取像素级视觉特征。随后,SpaHDmap利用一个多模态融合编码器-解码器,通过同时重建ST基因表达和组织学图像来学习高分辨率嵌入。编码器(特征融合模块)将低分辨率嵌入和像素级图像特征融合并映射到高分辨率嵌入空间。然后,解码器(数据重建模块)基于学习到的嵌入重建基因表达和组织学图像。与NMF类似,嵌入和表达恢复模块中的可学习加载矩阵的所有条目都是非负的,从而允许对数据进行可解释的、基于部分的高分辨率表示。
SpaHDmap在模拟数据中提供更准确的嵌入和空间聚类
研究通过两个模拟研究评估了SpaHDmap的性能,并与七种可解释降维方法进行了比较。在嵌入强度恢复方面,SpaHDmap始终表现出优越的性能,其与真实嵌入强度之间的平均绝对误差(Mean Absolute Error, MAE)通常远小于其他方法。在获得嵌入后,通过应用k-means算法对学习到的嵌入进行聚类,并使用调整兰德指数(Adjusted Rand Index, ARI)比较聚类准确性。SpaHDmap在所有模拟场景中均实现了显著高于其他方法的ARI,证明了其整合ST表达数据和组织学图像的有效性。即使在ST表达数据分辨率较低的情况下,SpaHDmap的嵌入也能忠实地捕捉空间精细结构,从而产生比其他方法更准确的聚类结果,尤其是在具有非常精细结构的子区域中。
SpaHDmap在小鼠脑数据集中恢复可解释的高分辨率嵌入
将SpaHDmap应用于成年小鼠脑冠状切片的10x Visium ST数据集MBC-01,该数据集包含三张免疫组织化学(Immunohistochemistry, IHC)染色图像。SpaHDmap识别出的嵌入在已知的特定脑区中富集。例如,E15主要富集于等皮质(Isocortex)的1、2/3和4层;E18富集于等皮质的4和5层;E9富集于等皮质的6a和6b层;E10富集于齿状回(Dentate Gyrus, DG);E14富集于锥体层CA1和CA2;E16富集于锥体层CA2和CA3。许多这些嵌入也被其他方法识别,但大多数方法给出的嵌入分辨率较低。SpaHDmap的嵌入在四个选定感兴趣区域(Region of Interest, ROI)的放大视图显示,这些嵌入揭示的局部精细结构得到了神经元特异性核结合蛋白(NeuN)或胶质纤维酸性蛋白(GFAP)染色的良好支持。定量比较使用莫兰指数(Moran's I)和吉尔里指数(Geary's C)进一步表明,SpaHDmap的嵌入比其他方法具有更好的空间一致性。
为了进一步研究嵌入维度在特定脑区的富集情况,研究从艾伦小鼠脑图谱(Allen Mouse Brain Atlas)获得了不同脑区上调的基因,并研究了它们在SpaHDmap嵌入维度中的排名。不同脑区的标记基因仅在少数几个嵌入中排名靠前,这意味着这些嵌入与特定的脑区相关。例如,嗅觉区的标记基因仅富集在嵌入E20中,大脑核团的标记基因富集在E13中,丘脑的标记基因富集在E3中。等皮质标记基因在三个嵌入维度(E15、E18和E9)中排名靠前。进一步获得等皮质各亚层的标记基因后发现,等皮质第1、2/3和4层富集于嵌入E15,第5层富集于E18,第6a/6b层富集于E9,表明E15、E18和E9与等皮质的亚层相关。类似地,海马形成(Hippocampal Formation)的标记基因富集在三个嵌入(E10、E14和E16)中,这些嵌入与海马形成的子区域相关。
SpaHDmap在小鼠脑数据中识别精细空间结构
使用来自小鼠脑数据集MBC-01的嵌入,进行聚类分析以检测空间域。与七种最先进的也利用图像的空间域检测方法(包括iStar、SpaGCN和stLearn)进行比较,SpaHDmap、TESLA+NMF和iStar在空间域检测中达到了最高的空间分辨率。总体而言,SpaHDmap识别的空间域与已知的小鼠脑域具有更好的一致性。SpaHDmap的优势在海马形成区域尤为明显,该区域包含精细的空间结构。只有SpaHDmap成功地识别并清晰勾勒出海马形成的子区域及其复杂的拓扑关系。在低分辨率方法中,stLearn和SpiceMix在检测这些局部子区域方面表现最佳。然而,由于分辨率较低,这些方法识别的子区域之间的复杂拓扑关系清晰度较差。高分辨率方法iStar和TESLA+NMF在很大程度上恢复了锥体层CA1、CA2和CA3以及齿状回的颗粒细胞层。然而,iStar错误地将CA1的锥体层和齿状回的颗粒细胞层各分为两个簇,TESLA+NMF将锥体层中的许多点误分类到另一个簇中,并且两种方法都将CA1、CA2和CA3的各层( stratum lacunosum-moleculare, stratum oriens, stratum radiatum)以及齿状回的分子层合并为一个簇。海马锥体层CA1、CA2和CA3以及齿状回颗粒细胞层的已知标记基因在SpaHDmap识别的这三个子区域中高度表达。此外,这些基因的空间表达模式在SpaHDmap恢复的高分辨率表达中比在原始表达中更清晰。
SpaHDmap检测到一个位于脑膜(Meninges)的薄簇C9。脑膜是包裹大脑的重要保护膜,由三层组成:硬脑膜、蛛网膜和软脑膜。蛛网膜和软脑膜共同构成柔脑膜(Leptomeninges)。软脑膜下方是神经胶质界膜(Glia Limitans),主要由星形胶质细胞终足组成。在脑膜内,脑动脉和静脉网络向内穿行至大脑。簇C9高表达星形胶质细胞以及柔脑膜中主要细胞类型的标记基因,包括软脑膜中的脑膜成纤维细胞亚型1(FB1)、蛛网膜中的FB2和FB3,以及血管内的内皮细胞和血管平滑肌细胞(VSMCs),但不表达硬脑膜中细胞类型的标记基因。星形胶质细胞的蛋白标记物GFAP在簇C9中的IHC强度高于其他簇。这些数据表明簇C9由柔脑膜和神经胶质界膜组成。其他几种方法也检测到位于脑膜附近的簇。然而,簇C9更薄,并且表现出更高的GFAP IHC强度以及更高的FB1、FB2和内皮细胞标记物的表达水平,证明C9更匹配柔脑膜和神经胶质界膜的薄层结构。这些结果凸显了SpaHDmap增强嵌入分辨率和捕获精细空间结构的能力。
SpaHDmap在多个肿瘤样本中恢复条件特异性嵌入
将SpaHDmap应用于一个来自患者源性原位异种移植(Patient-Derived Orthotopic Xenograft, PDOX)小鼠模型的声波刺猬(Sonic Hedgehog, SHH)髓母细胞瘤的10x Visium数据集。该数据集包含两个帕博西尼(Palbociclib)处理的样本和两个未处理的样本。直接对表达数据应用NMF揭示了帕博西尼处理样本中存在严重的批次效应。这种批次效应在SpaHDmap衍生的嵌入中被成功去除,如显著更高的归一化kBET和iLISI分数所示。
在SpaHDmap产生的20个嵌入维度中,有10个在正常小鼠大脑中富集,5个在植入的肿瘤中富集,5个在肿瘤-正常组织界面富集,这通过它们在小鼠、人类和人鼠混合点上的高强度以及它们的小鼠和人类基因排名表明。正常的嵌入维度与已知的小鼠大脑结构吻合良好,例如小脑皮层(Cerebellar Cortex, CBX)中的浦肯野层(E4)、颗粒层(E8)和分子层(E9)。星形胶质细胞和小胶质细胞(大脑中的常驻巨噬细胞)已被报道在肿瘤-小鼠脑界面富集。一致地,界面嵌入维度E11和E15分别富集了星形胶质细胞和小胶质细胞的标记基因。
Hovestadt等人确定了SHH髓母细胞瘤中三个重要的转录特征:细胞周期活性(SHH-A)、未分化祖细胞(SHH-B)和分化的神经元样程序(SHH-C)。研究发现嵌入维度E13富集了SHH-A和E2F靶基因,E5富集了SHH-B基因,E6富集了SHH-C和神经元分化基因。值得注意的是,与未处理样本相比,E6在帕博西尼处理的样本中显示出增强的强度。相反,E13和E5在帕博西尼处理的样本中显示出降低的强度,并且这种降低主要发生在肿瘤内部区域,而不是在肿瘤边界。这些结果与帕博西尼可以增强神经元分化、减少细胞增殖,但对肿瘤边界影响较小的观察结果一致,也与CDK4/6抑制剂帕博西尼可以下调E2F介导的细胞周期基因转录,从而诱导G1期阻滞并抑制癌细胞增殖的事实一致。
使用SpaHDmap的嵌入,对四个样本进行了联合聚类分析。正如预期,正常脑区域在所有样本中共享高度相似的簇,而肿瘤区域则更具异质性。在肿瘤区域,相同处理的样本比不同处理的样本共享更多的簇。肿瘤簇标记基因的基因本体(Gene Ontology, GO)富集分析显示,与嵌入维度中的基因富集结果一致,治疗样本和对照样本中的肿瘤簇分别富集了神经元和细胞周期相关的基因特征。
在空间聚类方法中,SpaHDmap和SpiceMix允许对多个样本进行联合分析,从而在样本间产生自然对齐的簇。对于其他方法,跨样本对齐簇更具挑战性。此外,SpaHDmap清晰地表征了小脑皮层的有序层次,包括分子层(C17和C9)、浦肯野层(C13)和颗粒层(C5)。相比之下,其他方法无法清晰勾勒这些层次,尤其是精细的浦肯野层。在低分辨率方法中,SpiceMix在检测小脑皮层层次方面表现最佳,这可能得益于其整合多样本的能力。
有趣的是,SpaHDmap检测到的分子层簇C17邻近肿瘤区域,因此更容易受到肿瘤细胞浸润的影响。一致地,C17显著富集了人类基因,并表现出比其他正常簇更高的侵袭和增殖活性。此外,与未处理样本相比,帕博西尼处理样本中的C17区域减少,这可能归因于帕博西尼减少肿瘤细胞增殖和侵袭的作用。这些分析表明,通过SpaHDmap进行联合高分辨率嵌入学习可以有效地捕获多样本的精细尺度结构,并实现多样本之间的比较分析。
SpaHDmap描绘结直肠癌样本中的肿瘤异质性和免疫活动
将SpaHDmap应用于三个新分析的ST结直肠癌(Colorectal Cancer, CRC)样本(CRC-01、02和03)进行空间簇检测。病理学家注释表明,样本CRC-01包含四个主要空间簇:肿瘤、间质、坏死和肌肉。SpaHDmap在这些更广泛的类别中识别出16个精细的空间子簇,包括6个肿瘤、7个间质、1个坏死和2个肌肉子簇。与现有方法给出的空间簇相比,SpaHDmap给出的簇与H&E图像的一致性更好。例如,只有SpaHDmap在ROI 1中准确区分了坏死和肿瘤,在ROI 2和ROI 3中准确区分了肿瘤和间质。
在肿瘤簇中,T1、T2和T3类似于结直肠癌的CMS2亚型,T6类似于CMS4亚型,T4和T5似乎是CMS2和CMS4之间的中间状态,表明它们是不同的肿瘤空间子簇。值得注意的是,在ROI 1中,肿瘤簇T1和T3在H&E图像上具有清晰的边界,这只有SpaHDmap检测到。H&E图像显示T1比T3富含更多的成纤维细胞。一致地,T1的成纤维细胞和细胞外基质(Extracellular Matrix, ECM)基因表达显著高于T3。通过RCTD进行的反卷积分析也显示T1的肿瘤纯度(0.56)低于T3(0.70)。此外,T1的癌症相关ECM(C-ECM)和侵袭评分显著更高,表明T1可能更具侵袭性。事实上,在癌症基因组图谱(The Cancer Genome Atlas, TCGA)数据中,T1相对于T3上调的基因预测结直肠癌患者的总生存期更差。这些结果共同支持T1和T3是具有重要临床意义的不同肿瘤簇。
类似地,SpaHDmap在样本CRC-02中准确检测到精细结构。样本CRC-03由Stereo-seq技术测序,没有配对的组织学图像。为了应用SpaHDmap和其他依赖图像的方法,根据嘈杂的亚细胞Stereo-seq数据生成了一个伪图像。SpaHDmap通过整合低分辨率bin级表达数据和伪图像,识别出五个肿瘤子簇和两个间质子簇。与其他高分辨率方法iStar和TESLA+NMF相比,SpaHDmap给出的簇与附近组织切片的H&E图像一致性更好。例如,在一个ROI中,SpaHDmap和点水平方法正确区分了间质和肿瘤区域。相反,iStar和TESLA+NMF将大的肿瘤区域误分类为间质,这可能是因为它们是为整合H&E图像而设计的,可能不适合分析从Stereo-seq数据生成的伪图像。
此外,SpaHDmap在肿瘤边界周围识别出一个精细的簇S1。与附近的间质簇S2相比,簇S1更富含C1QC+巨噬细胞。C1QC+巨噬细胞已知具有增加的抗原呈递活性。一致地,与S1高度相关的基因显著富集了抗原呈递基因,表明S1在肿瘤相关炎症中的潜在作用。此外,在TCGA数据集中,S1中高表达的基因与结直肠癌患者总体上更好的生存期相关,表明这个精细簇潜在的临床相关性。这些分析证明了SpaHDmap在准确识别肿瘤样本精细空间结构方面的卓越性能,即使在缺乏配对组织学图像的情况下也是如此。
SpaHDmap的鲁棒性和消融研究
首先评估了SpaHDmap在各种数据扰动下的鲁棒性,包括减少SVG数量、增加数据稀疏性和噪声水平、减少伪点数量以及降低图像分辨率。SpaHDmap的嵌入在这些扰动下基本保持不变,证明了其鲁棒性。例如,即使在高噪声和稀疏度水平下,SpaHDmap也总是能够恢复精细的齿状回结构。
接下来,将SpaHDmap应用于另外两个小鼠脑冠状切片MBC-02和MBC-03,其中MBC-02包含两张IHC图像,MBC-03包含一张H&E图像。发现从MBC-02和MBC-03数据集学习到的嵌入与从MBC-01数据集学习到的嵌入在高分辨率下对齐良好,它们的基因排名也与从MBC-01数据集学习到的嵌入高度相关。基因富集分析进一步证实了从MBC-02和MBC-03数据集学习到的嵌入与特定的脑区相关。此外,分析了两个相邻的小鼠脑后部矢状切面数据集(MPBS-01和MPBS-02)。同样,两个切片都一致地显示出嵌入在特定脑区的富集,脑区标记基因在它们各自的嵌入中 consistently 排名靠前,并且从两个切片学习到的嵌入显示出强烈的对应关系。这些结果表明,SpaHDmap可以从具有各种类型组织学图像的ST数据中稳健地识别高分辨率、可解释的嵌入。
为了评估SpaHDmap组件的重要性,使用MBC-01数据集进行了消融研究。这些研究包括(1)用降维方法SpatialPCA替换NMF组件,(2)移除GCN组件,以及(3)用SPARK-X和BSP替换SVG选择方法。这些分析表明,NMF对于学习嵌入的可解释性至关重要;用SpatialPCA替换NMF会导致可解释性丧失。与SpaHDmap的原始嵌入相比,来自带有SpatialPCA的SpaHDmap的嵌入显示出不太明显的空间模式。此外,GCN组件对于通过利用局部上下文图像和基因表达信息对嵌入进行去噪至关重要。最后,SVG选择方法对SpaHDmap的性能影响最小。
讨论
本研究开发了SpaHDmap,它通过有效整合ST基因表达数据与高分辨率组织学图像,生成高分辨率、可解释的嵌入并识别空间结构。SpaHDmap支持多样本的联合分析以及多种组织学图像类型。这种方法为揭示由于ST技术分辨率限制而以前无法实现的精细空间模式和生物学见解开辟了新的可能性。使用模拟和真实ST数据集进行的广泛基准测试分析表明,SpaHDmap在嵌入学习和空间域检测方面 consistently 优于最先进的方法,特别是在具有复杂空间结构的挑战性场景中。SpaHDmap在计算速度上与现有方法相当,但需要更多的内存使用。
深度学习已广泛用于单细胞RNA测序(scRNA-seq)和ST数据的降维或聚类分析,通常优于传统的统计和机器学习方法。然而,它们的黑箱性质常常阻碍学习特征的可解释性,这对于理解高维scRNA-seq或ST数据中的重要结构至关重要。为了解决这一限制,SpaHDmap引入了一个将NMF与深度神经网络融合的框架,在利用深度学习能力并呈现更高分辨率的同时,实现可解释的降维。正如在小鼠脑和PDOX数据集中的应用所证明的,学习到的嵌入及其相关基因代表了独特的空间表达模式或已知的组织结构,甚至可以揭示与肿瘤治疗相关的重要转录特征,从而促进更直接的数据解释。
SpaHDmap有两个主要的调优超参数:维数和重建损失中的表达损失权重λ。维数可以基于(1)NMF分析中广泛使用的同表征相关系数,以及(2)所得嵌入的可解释性来选择。对于权重参数λ,对带有H&E图像的数据集设置为0.33,对带有IHC图像的数据集设置为0.9。这些经验值是基于所得嵌入与点水平NMF嵌入和高分辨率图像的相似性选择的,旨在保留空间基因表达谱的全局结构,同时捕获图像数据中的精细空间细节。
基于高分辨率嵌入,SpaHDmap能够识别精细的空间结构。在小鼠脑数据中,SpaHDmap识别了海马形成中的精细结构以及柔脑膜和神经胶质界膜的薄层结构。除了物理保护外,脑膜在中枢神经系统稳态、发育、免疫和病理学中发挥着重要作用。准确的脑膜检测对于理解其多样化的功能及其在脑健康和疾病中的参与至关重要。SpaHDmap解析柔脑膜和神经胶质界膜复杂解剖结构的能力突出了其增强对这些重要精细脑结构研究的潜力。
在CRC-01中,我们识别了两个空间相邻的肿瘤簇T1和T3,尽管具有相似的拷贝数谱,但侵袭性和成纤维细胞浸润水平显著不同。这表明T1和T3之间侵袭性的差异更可能与它们不同的成纤维细胞浸润水平相关,而不是它们的遗传差异。癌症相关成纤维细胞可以修饰ECM蛋白,产生僵硬和复杂的纤维组织,从而增加侵袭潜力,甚至可能阻碍药物递送。存在像T1和T3这样具有不同成纤维细胞浸润水
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号