《PLOS Computational Biology》:AugGCL: Multimodal graph learning for spatial transcriptomics analysis with enhanced gene and morphological data
编辑推荐:
本文提出AugGCL框架,通过邻域信息聚合(NIA)机制整合基因表达相似性与空间邻近性构建加权图,采用双流加权图卷积网络(GCN)融合增强基因特征与图像形态学信息,有效解决空间转录组学(ST)数据稀疏性、组织边界模糊等挑战。在人类背外侧前额叶皮层(DLPFC)、乳腺癌和小鼠胚胎等数据集上验证显示,该方法在空间域识别精度和基因表达重建清晰度方面显著优于基线方法,为组织结构解析和疾病机制研究提供有力工具。
AugGCL框架概述
AugGCL工作流程包含数据预处理、空间图构建、邻域信息聚合、图神经网络建模和下游分析四个关键阶段。该框架通过针对性增强基因和图像数据,提升空间结构解码和基因表达重建能力。其核心创新在于将基因表达相似性与空间邻近性动态结合生成加权图结构,并利用双流GCN实现多模态特征融合。
空间图构建与邻域信息聚合
空间图基于细胞间欧氏距离构建邻接矩阵,通过余弦距离计算细胞间基因表达相似性,结合空间邻域信息生成加权增强表达矩阵。具体通过指数函数加权融合空间邻近性与表达相似性,显著缓解基因表达稀疏性问题,同时保持组织边界清晰度。
多模态图神经网络设计
模型采用双编码器结构:基因编码器处理增强基因特征矩阵与加权基因邻接矩阵,图像编码器处理图像特征矩阵与加权图像邻接矩阵。通过两层GCN(隐藏单元512)和ELU激活函数进行特征传播,最终融合基因与图像特征输出潜在表示用于空间聚类。损失函数包含基因重建损失(MSE)、图像重建损失和正则化损失,通过加权优化提升多模态协同性能。
在人类DLPFC组织中的性能验证
在12个人类DLPFC组织切片(包含6个皮质层和白质WM)的测试中,AugGCL的调整兰德指数(ARI)中位数最高且四分位距最小,显著优于StLearn、SpaGCN等基线方法。如图2D所示,对样本151507的聚类结果(ARI=0.67)与真实皮层分层结构高度一致,UMAP可视化显示嵌入空间中细胞簇分离清晰。对比基线方法,AugGCL能有效避免层间混合和边界模糊问题。
生物学验证分析
差异表达分析发现CXCL14、RELN、PTN、CNN3等基因在DLPFC中表达变化显著。GO富集分析表明Layer2上调基因主要富集于化学突触传递、谷氨酸受体信号通路等神经传导相关功能。增强后的基因表达可视化(如RELN、PCP4等)相比原始数据呈现出更清晰的空间聚类模式,印证了方法在提升表达模式分辨率方面的优势。
乳腺癌数据集的应用效能
在乳腺癌数据集中,AugGCL的ARI(0.61)和NMI(0.73)均优于对比模型。火山图识别出SERPINA3、KLK6、MGP等与肿瘤亚型相关的关键基因。空间聚类结果精准区分浸润性导管癌(IDC)、健康组织和肿瘤边缘区域(图4D),尤其在肿瘤微环境边界识别方面表现出色。
小鼠胚胎发育数据解码
对E9.5小鼠胚胎数据,AugGCL(ARI=0.36, NMI=0.58)在AGM、脑、心脏等关键发育区域的识别精度优于SEDR、GraphST等方法。对心肌标志基因Myh7的表达重建显示,增强后的图像在心脏区域表达模式更连续清晰(图5D),证实其对发育过程中空间转录模式的解析能力。
讨论与展望
AugGCL通过邻域信息聚合与多模态图卷积的协同设计,突破了传统方法在表达稀疏性和复杂组织结构解析中的瓶颈。其在皮层分层、肿瘤边界和胚胎发育谱系识别中的稳健表现,奠定了该方法在空间生物学研究中的工具价值。未来可进一步拓展至单细胞分辨率空间转录组数据整合及动态组织演化分析等领域。