《Advanced Science》:S3RL: Enhancing Spatial Single-Cell Transcriptomics With Separable Representation Learning
编辑推荐:
本文提出S3RL(可分离空间单细胞转录组表征学习)框架,通过整合基因表达、空间坐标和组织学图像特征,利用可分离表征学习和超球面原型聚类技术,显著提升空间转录组数据的信噪比与空间结构解析能力。该框架在多种组织(人、鼠、植物)和数据平台(10X Visium、Nanostring CosMx等)上实现了空间聚类精度(ARI)最高170%的提升,精准识别肿瘤免疫互作、配体-受体信号梯度等关键生物学模式,为组织发育和疾病机制研究提供了新工具。
2.1 S3RL方法概述
S3RL框架设计用于解决空间转录组学数据稀疏性和技术噪音的挑战。其核心流程包含三个模块:首先通过对比学习(SimCLR)从组织学图像中提取高级语义特征;其次构建带符号边图(正边连接功能相似点位,负边分离转录特征差异大的邻近点位);最后在超球面流形上进行表征学习和聚类,将点位嵌入映射到均匀分布的原型点,确保潜在空间中不同细胞类型形成清晰边界。该端到端框架支持空间域识别、细胞类型反卷积、轨迹推断等多类下游分析。
2.2 人前额叶皮层空间聚类增强层状结构识别
在DLPFC数据集(12个切片)上,S3RL的平均调整兰德指数(ARI)达0.65,较基线方法提升26.8%。其重建数据显著锐化了皮质层标志基因(如PAQR6、MOBP)的表达边界,并通过轨迹分析揭示了层间生物连续性。消融实验验证了视觉语义特征的空间正则化作用(避免“椒盐状”碎片化聚类)和动态原型更新机制对潜在空间可分离性的贡献。
2.4 S3RL提升纳米字符串肺切片细胞类型聚类与基因表达分辨力
在20例肺癌切片中,S3RL平均ARI达0.7274,较最佳基线(Seurat)提升82.4%。重建数据清晰呈现EPCAM(上皮细胞标志)、DCN(肿瘤抑制因子)等基因的空间梯度,并通过TCGA批量RNA-seq相关性验证(14/20切片相关性提升)。基因共表达网络分析显示,S3RL特异性增强ANXA1–FPR1(肿瘤免疫逃逸)和OSM–LIFR(STAT3通路激活)等肺癌相关配体-受体对信号。
2.5 脑与肺组织空间基因表达及细胞通讯解析
在DLPFC切片中,S3RL增强数据揭示小胶质细胞标志基因Cst3在斑块邻近区域表达上调(p=4.2×10?3),而中间神经元Gna14表达下调(p=4.6×10?3)。CellChat分析显示Notch通路(DLL4-NOTCH4)和FGF信号在重建数据中通讯强度显著提升。在肺癌数据中,INSR、FGFR1等基因的肿瘤区域特异性表达模式更清晰,助力肿瘤-免疫相互作用解析。
2.7 神经与肿瘤组织空间架构解析
在小鼠脑前区、人乳腺癌等多组织验证中,S3RL均保持最优聚类性能(雷达图显示ARI全面领先)。在植物组织(大豆子叶)分析中,通过CARD反卷积识别出SC血管薄壁细胞特异性表达模块,富集到半纤维素代谢等通路,并结合PlantRegMap发现HD-ZIP、NAC等转录因子家族调控网络,证实框架跨物种适用性。
2.8 人肺癌功能景观与调控轨迹重建
基于10X Visium人肺癌数据,S3RL重建的组织结构精准匹配肿瘤细胞、巨噬细胞等空间分布。功能模块分析将空间可变基因分为三类:Metagene1(上皮-间质转化/缺氧相关)、Metagene2(免疫浸润区)、Metagene3(细胞周期/代谢重编程)。伪时间轨迹分析显示,增强数据中COL1A2–ITGA3(ECM重塑)、SPP1–ITGB4(肿瘤迁移)等基因对的时序协调性显著提升。
2.9 淀粉样斑块周边空间表达模式揭示
在小鼠海马体STARmap-PLUS数据中,S3RL重建数据清晰呈现小胶质细胞在斑块邻近区域的趋化聚集(p<0.01),而中间神经元远端分布。基因距离相关性分析发现Cd86(r=?0.466)、Trem2(r=?0.424)等免疫活化标志与斑块距离负相关,凸显神经-免疫互作的空间极化特征。
3-4 讨论与方法
S3RL通过多模态信息融合与可分离表征学习,克服了现有方法依赖物理邻近性、潜在空间簇间重叠度高等局限。其超球面聚类约束与动态原型更新机制,在保持计算效率(单切片约20秒)的同时,为组织空间生物学提供了高精度、可解释的分析工具。未来可扩展至多组学数据整合与单细胞RNA-seq联合建模,进一步深化对复杂微环境的解析能力。