《Nature Communications》:SMART: spatial multi-omic aggregation using graph neural networks and metric learning
编辑推荐:
为解决空间多组学(Spatial Multi-omics)数据整合的挑战,研究人员提出了名为SMART的计算框架。该方法利用图神经网络(GNN)和度量学习,将多种组学模态与空间坐标信息整合到一个统一的潜在空间,实现精准的空间结构(如解剖区域)识别。SMART具备高兼容性、计算高效性和可扩展性,其变体SMART-MS还能支持跨多个组织切片的整合分析,为深入探索组织微环境与异质性提供了通用、高效的解决方案。
随着技术的发展,科学家们已经能够在显微镜下观察组织的形态,也能通过测序技术知道组织样本中有哪些基因、蛋白质在“工作”。但如果能把这两种信息结合起来,看到基因和蛋白在组织内部具体哪个位置活跃,岂不是能让我们对生命过程的理解从“有什么”跃升到“在哪里发生”的全新维度?这正是空间多组学技术的雄心所在。近年来,空间转录组学、空间表观基因组学、空间蛋白质组学等技术的发展,使得在同一张组织切片上同时检测不同模态的组学信息成为可能。这为我们深入分析基因调控、理解细胞间的“邻里关系”以及组织微环境的异质性提供了前所未有的宝贵视角。
然而,机遇总伴随着挑战。如何把这些不同来源、不同维度、不同分布特征的组学数据,与它们所处的空间位置信息有效地整合到一起,形成一个统一、全面且可解释的图谱,是摆在我们面前的一道难题。现有的计算方法要么主要针对单一组学(如空间转录组学),难以融合多模态信息;要么虽然能整合多组学,但并未充分考虑或有效利用空间坐标信息,从而无法准确识别组织内部的功能性空间结构;还有些方法在整合多个模态时,仅仅进行简单的拼接,未能充分利用不同组学间的互补性,或者存在计算复杂、效率不高、难以处理大规模数据等问题。为了克服这些局限,提供一个能灵活、高效且可扩展地整合空间多组学数据的工具,研究人员提出了SMART。
为了开展研究,研究人员利用了多种公开可获取的空间多组学数据集,包括通过10x Genomics Visium CytAssist、MISAR-seq、SPOTS、Stereo-CITE-seq、CUT&Tag–RNA-seq等技术生成的样本。这些数据集涵盖了人类和小鼠的不同组织(如淋巴结、脑、脾脏、扁桃体),包含转录组与蛋白质组、转录组与表观基因组等组合。研究方法的核心是构建基于图神经网络和度量学习的SMART计算框架,通过构建空间邻域图、运用SAGEConv编码器生成节点嵌入、结合重建损失和三元组损失进行优化,最终实现对多组学和空间信息的整合嵌入学习。此外,其变体SMART-MS通过使用Harmony进行批次校正和构建跨切片空间图,实现了跨多个组织切片的数据整合。
总体结构SMART
SMART是一个利用图神经网络(GNN)结合度量学习,将多种组学模态和空间组织分布信息整合到一个统一潜在表示中的计算方法。其核心流程是:首先基于空间坐标通过K近邻算法构建空间邻域图,并对每种组学数据进行主成分分析降维。接着,通过图采样与聚合网络编码器处理空间图和组学特征,生成节点嵌入。之后,利用互近邻算法确定用于度量学习的锚点-正样本对,并结合重建损失和三元组边际损失来优化模型,以生成既能保留原始组学特征,又考虑了空间远近相似性的统一嵌入表示。该方法可处理任意数量和类型的组学层,并能通过其变体SMART-MS整合多个组织切片的数据。
在模拟数据上验证SMART的性能
研究人员首先在具有已知真实标签的模拟三组学数据上评估了SMART。结果表明,与MOFA+、MEFISTO、SpatialGlue、SNF、CellCharter、MISO、Seurat WNN、PRESENT、COSMOS、SpaMultiVAE等多种多组学整合方法相比,SMART在聚类可视化、UMAP图以及多项量化评估指标上均表现最优。它不仅准确识别了所有预设的空间因子,边界清晰,而且在嵌入表示与原始组学特征的距离矩阵相关性、空间自相关性等无监督评估指标上也领先,证明了其整合的有效性和对原始信息的高保真度。
SMART整合空间转录组和蛋白质组数据
在来自10x Visium CytAssist平台的人类淋巴结真实数据集上,SMART与包括Seurat WNN、MOFA+、MEFISTO、SNF、CellCharter、MISO、PRESENT、COSMOS、SpaMultiVAE、scMM、TotalVI、MultiVI在内的多达13种方法进行了比较。以H&E染色标注为金标准,SMART不仅成功识别了皮质、髓窦、髓索、被膜外脂肪等主要解剖结构,还能更精确地检测滤泡、被膜等较小结构,在多种聚类分辨率下均展现出最高的监督评估指标得分,显示了其卓越的识别精度和鲁棒性。
SMART整合空间转录组和染色质可及性数据
在MISAR-seq技术生成的小鼠发育大脑(E11.0, E13.5, E15.5, E18.5)数据集上,SMART再次展示了其整合转录组和表观基因组的能力。在E18.5_S1切片上,SMART清晰地区分出了背侧端脑、间脑、后脑等多个脑区,并能识别出“cartilaga-1”等小结构。在对四个发育阶段切片的整体评估中,SMART在监督聚类指标上综合表现最佳,证明了其在整合空间转录组和染色质可及性数据上的有效性。
SMART实现对空间多组学数据的高效整合
SMART在计算效率和可扩展性方面具有显著优势。在包含近万个点位的CUT&Tag–RNA-seq小鼠脑数据集上,SMART的运行时间和峰值内存使用量均为所有对比方法中最低。在具有从5微米到100微米不同空间分辨率的Stereo-CITE-seq小鼠脾脏数据集上,SMART是唯一能在包含超过75万个点位(Bin10)的超大规模数据集上成功运行的方法,且训练时间仅需56秒,显存占用最低,凸显了其处理海量空间数据的能力。
SMART实现跨多个切片的多组学数据整合
研究人员扩展了SMART,提出了支持多切片分析的变体SMART-MS。在来自三个连续切片的人类扁桃体数据集上,SMART-MS有效地消除了批次效应,准确地识别出生发中心、滤泡区、滤泡间T细胞富集区以及外层的浆细胞/上皮区等结构,其整合结果在生物信号保存和批次效应去除的综合评估中得分最高。在SPOTS小鼠脾脏和Stereo-CITE-seq小鼠胸腺等多切片数据集上,SMART-MS也表现出了良好的泛化能力。
讨论
SMART是一个基于图神经网络和度量学习的无监督深度学习模型,旨在将多种组学与空间坐标信息整合为统一的潜在表示。通过在模拟数据和多种真实数据集上的广泛测试,证明其在空间多组学整合任务上优于现有方法。其模块化、堆叠式的设计使其能够处理任意数量的组学层,具有良好的通用性。SAGEConv架构和高效的训练策略使其在计算效率和可扩展性方面表现突出,能够处理大规模和高分辨率数据。变体SMART-MS进一步将能力拓展至跨多个组织切片的整合分析。
研究也指出了SMART的一些局限。例如,其在连续渐变组织中的边界清晰度可能不如强加空间连续性先验的方法;当前架构尚未显式建模不同组学模态间的相互作用关系;暂不支持组学模态完全不重叠或组成不同的跨切片整合。未来,通过引入跨模态交互建模模块,有望进一步提升整合的准确性和可解释性。
综上所述,这项研究发表于《Nature Communications》,提出的SMART框架为空间多组学数据的整合分析提供了一个通用、高效且可扩展的解决方案。它不仅能够更精确地揭示组织内部的空间功能结构,其高效的计算特性也使其能够应对未来产生的更大规模、更高分辨率的空间多组学数据,有望在发育生物学、肿瘤微环境、神经科学等多个领域推动我们对复杂生命系统的理解。