《PLOS Computational Biology》:SpaConTDS: A multimodal contrastive learning framework for identifying spatial domains by applying tuple disturbing strategy
编辑推荐:
本文提出了一种创新的多模态对比学习框架SpaConTDS,通过整合强化学习与自监督多模态对比学习,创新性地采用元组扰动策略生成正负样本,有效解决了空间转录组(ST)数据分析中多模态整合与弱模态平衡的难题。该框架在多种分辨率和平台数据上实现了最先进的空间域识别精度,在去噪、轨迹推断等下游任务中表现优异,且无需先验对齐即可实现多组织切片整合与批次效应校正,为空间生物学研究提供了强大工具。
SpaConTDS识别异质组织的形态结构
研究首先在HER2阳性乳腺癌肿瘤(HER2+)数据集上评估了SpaConTDS的空间聚类性能。与包括ConST、STAGATE、GraphST在内的10种先进空间聚类方法相比,SpaConTDS在所有七个切片中取得了最高的中位数调整兰德指数(ARI)和标准化互信息(NMI)。特别是在D1切片中,SpaConTDS达到了0.74的最高ARI,其空间域划分与人工标注高度一致。值得注意的是,在数据点较少且缺失率高达85.3%的A1和G2切片中,所有方法的性能均有所下降,这凸显了数据稀疏性对模型性能的限制。
为了进一步验证模型的普适性,研究将其应用于10x Visium平台产生的人背外侧前额叶皮层(DLPFC)数据集。在全部12个切片上,SpaConTDS取得了第三高的中位数ARI,但其表现最为稳定,四分位距范围最窄,表明其对切片特异性变异不敏感,可靠性更高。在切片151671(包含4110个点,19020个基因)上,SpaConTDS清晰再现了白质(WM)与皮层各层之间的空间关系,其UMAP可视化显示出更清晰的簇间边界,PAGA轨迹从第3层到白质呈现出理想的线性进展,揭示了皮层发育的线性关系。
SpaConTDS促进人类乳腺癌肿瘤微环境研究
在人类乳腺癌数据集上的应用表明,SpaConTDS识别的空间域与病理学标注具有最优的一致性(ARI=0.53)。尤为重要的是,SpaConTDS在“IDC_2”区域内部分辨出两个不同的亚簇(亚簇2和15),这可能代表了功能不同的肿瘤生态位。差异表达基因(DEG)分析显示,亚簇2显著上调与细胞增殖和迁移相关的基因(如SHISA2),表现出快速生长的侵袭性表型;而亚簇15则高表达与生存和耐药性相关的基因(如CTTN),提示其可能为具有增强转移潜能的治疗耐药亚群。基于此,研究初步提出将“IDC_2”区域细分为“侵袭-增殖亚型”和“耐药及转移前亚型”。
在浸润性导管癌(IDC)特异性数据集的分析中,SpaConTDS取得了最佳的戴维森堡丁指数(DB=0.57),表明其聚类结果具有最优的紧密度和分离度。SpaConTDS是唯一能准确区分“未分类肿瘤”区域和主要“非肿瘤区域”与邻近肿瘤区域边界的方法,与病理学金标准标注表现出显著的一致性。对MUC1、TCEAL4等肿瘤相关基因的表达分析证实,SpaConTDS去噪后的基因表达模式具有更清晰的空间边界、更好的空间连续性以及与病理标注更强的吻合度。
SpaConTDS无需先验空间对齐即可整合多组织切片
针对空间转录组技术因捕获面积有限而需进行多切片整合的挑战,研究评估了SpaConTDS在垂直切片(4个连续DLPFC切片)和部分重叠切片(人胎盘床数据集)上的整合能力。在垂直切片整合中,SpaConTDS实现了优异的整合性能,即使对于相距300微米的切片也能保持良好的对齐,显著提高了空间域识别精度。在部分重叠切片整合中,SpaConTDS成功协调了多切片数据集,同时有效校正了批次效应,准确捕捉了切片间约50%和超过90%的组织重叠关系,并保留了独特空间域的分子特征。相比之下,STAGATE存在批次效应校正不足的问题,而Scanpy则存在过度校正的问题。
SpaConTDS在高分辨率ST数据中展现鲁棒性和可扩展性
在10X Genomics Xenium平台产生的高分辨率数据上,SpaConTDS再次证明了其跨平台的通用性。SpaConTDS(DB=1.12)是唯一能准确识别导管原位癌(DCIS#1和#2)区域的方法,而GraphST和Scanpy等方法则存在误分类或识别不全的问题。有趣的是,SpaConTDS进一步将DCIS#2区域细分为两个亚簇(簇4和簇11)。DEG分析表明,与肿瘤生长和增殖相关的基因PTN在簇4中显著上调,而与局部炎症相关的免疫调节因子SERPINA3在整个DCIS#2区域普遍表达但在簇间存在水平差异。去噪后的基因表达模式显示出更强的空间连续性和与组织学图像更好的一致性。
SpaConTDS识别斑马鱼黑色素瘤近端组织的精细区域
利用10x Visium阵列完整捕获成年斑马鱼横截面的优势,研究评估了SpaConTDS解析肿瘤边缘精细区域的能力。SpaConTDS成功识别出先前研究中提出的肿瘤与正常组织之间的“过渡”界面区域。在切片A中,簇8和簇10分别精确划定了肌肉界面和肿瘤界面子区域。基因表达谱分析显示,簇10(肿瘤近端界面)显著过表达BRAFhuman、HMGB2A等肿瘤相关基因,反映了肿瘤衍生因子诱导的旁分泌介导的重编程。而簇8则高表达肌肉特异性基因(如AK1, ATP2A1L),保持了正常的肌源性功能。这揭示了肿瘤微环境影响的梯度变化,为研究肿瘤侵袭前沿和微环境重塑提供了高分辨率空间图谱。
图像特征提取的有效性与重要性
为了专门评估SpaConTDS的图像特征提取能力,研究仅使用DLPFC切片151673的组织学图像数据进行聚类。结果表明,SpaConTDS(ARI=0.16)优于stLearn(ARI=0.11),能够更精确地识别白质和第6层,并保留反映真实空间组织的关键纹理模式。在IDC数据集上的进一步评估显示,SpaConTDS能更准确地识别侵袭性肿瘤边缘和未分类肿瘤区域。这些结果强调了将图像衍生特征与转录组数据进行审慎整合,并借助适当的加权机制(如自适应超参数kemb)对于实现稳健空间域表征的重要性。
消融实验系统地评估了SpaConTDS中每个组件的贡献。忽略任何模态或移除超参数kemb都会导致性能显著下降,证实了多模态融合以及平衡各模态贡献的必要性。损失函数的三部分(对比损失LossCL、图连接预测损失Lossadjrecon和基因表达重建损失Lossrecon)中任意一部分的缺失都会引起性能衰退。在基因模态正样本构建中,利用邻居信息增强的方法被证明是有效的。在负样本构建中,基于伪标签的元组扰动策略和自适应的α扰动调整对于模型整体有效性至关重要。
讨论与展望
研究指出,深入探索空间转录组数据中的多模态信息对于理解组织异质性至关重要。SpaConTDS通过整合强化学习与多模态对比学习,采用创新的样本构建策略,在学习包含模态间交互和全局语义的融合表征方面表现出色。与ConGI等现有方法相比,SpaConTDS在样本构建、模态编码器、目标函数等方面的差异使其在聚类和广泛数据分析任务中表现更优。
未来工作方向包括将SpaConTDS扩展到更多ST平台(如Stereo-seq, Slide-seqV2),评估其在缺乏图像信息的数据上的性能;增强其仅基于H&E染色图像进行准确空间域识别的特征提取能力;以及针对未来可能出现的亚细胞分辨率数据,通过图稀疏化、轻量级模型和知识蒸馏等技术优化其计算效率,以应对数据量增长带来的计算挑战。