《Cell Systems》:Interpretable data integration for single-cell and spatial multi-omics
编辑推荐:
本研究针对当前单细胞/空间多组学整合方法难以揭示基因-调控元件连接关系的问题,开发了特征引导最优传输算法FGOT。该方法通过引入基因组位置先验知识,同步解析细胞异质性和转录调控链接,为现有整合方法提供事后可解释性,并在PBMC、BMMC和小鼠脑空间多组学数据中验证了其在细胞状态特异性顺式调控元件鉴定方面的优越性。
随着单细胞和空间测序技术的迅猛发展,科研人员如今能够在单细胞分辨率下深入解析组织和细胞的异质性。单细胞RNA测序(scRNA-seq)和单细胞转座酶可及染色质测序(scATAC-seq)等技术可以分别定量单个细胞的转录组和表观基因组,而空间测序技术更是能同时获取分子表达信息和空间位置信息。这些多组学数据为理解细胞命运决定的转录调控机制提供了前所未有的机会。
然而,当前的多组学数据整合方法主要面临两大挑战。现有整合方法如Seurat、LIGER、MOFA等通常将多组学数据投影到共享潜在空间,但未能揭示转录组和表观组特征之间的内在联系——这正是推断转录调控链接的关键信息。另一方面,基于相关性或回归的调控推断方法(如Cicero、ArchR、DIRECT-NET等)无法解析不同时空状态下细胞的特异性转录调控规律,缺乏识别细胞特异性或细胞类型特异性顺式调控元件(cis-regulatory elements, CREs)的能力。
为了解决这些问题,Yang等人开发了一种名为特征引导最优传输(Feature-guided optimal transport, FGOT)的计算方法,该研究成果发表在《Cell Systems》期刊上。FGOT创新性地将数据整合和细胞特异性转录调控链接推断相结合,能够同时揭示细胞异质性及其相关的转录调控关系。
研究团队主要采用了特征引导最优传输算法框架,结合基因组位置先验知识构建特征引导图,开发了基于锚点的minibatch算法提高计算效率。该方法适用于配对/非配对的单细胞多组学数据以及配对的空间多组学数据。通过对外周血单核细胞(PBMC)、原代骨髓单核细胞(BMMC)以及小鼠脑空间多组学数据的分析验证,证明了FGOT在数据整合和调控链接推断方面的优异性能。
FGOT准确整合模拟多组学数据并识别调控链接
在三个模拟数据集上的测试表明,FGOT能够成功混合不同批次的数据并正确对齐相同细胞类型,在批次效应去除和生物学保守性方面均优于SCOT、Moscot和Seurat方法。即使在先验网络中加入大量噪声链接的情况下,FGOT在细胞类型水平和单个细胞水平上识别调控链接的曲线下面积(AUC)值仍接近1,表现出极高的准确性。
FGOT以可解释方式整合配对单细胞多组学数据
在外周血单核细胞(PBMC)10k数据集上的应用显示,FGOT能够将同一细胞类型的细胞对齐在一起,而不同细胞类型的细胞则分散分布。与SCARlink、DIRECT-NET、Cicero、ArchR和SnapATAC等方法相比,FGOT在识别naive B、CD4 naive T和CD8 naive T细胞的调控链接方面具有更高的AUC值。特别值得注意的是,FGOT鉴定的功能CREs在相应细胞类型中显示出更强的H3K27ac信号。
FGOT揭示非配对单细胞多组学数据的细胞类型特异性调控链接
在原代骨髓单核细胞(BMMC)非配对数据集上的应用进一步证明了FGOT的稳健性。尽管转录组和表观组数据之间存在较大的批次效应,FGOT仍能成功整合数据并识别细胞类型特异性调控链接。与Signac和ArchR相比,FGOT在计算基因活性得分方面表现更优,其预测结果与转录组数据的平均表达水平更为一致。
FGOT解析空间调控景观 using 空间ATAC-RNA-seq数据
在小鼠P22脑空间多组学数据上的应用表明,FGOT能够识别清晰的脑结构,并揭示空间特异性的调控模式。通过分层连锁不平衡评分回归分析发现,FGOT鉴定的功能CREs在抑郁障碍相关遗传变异中显著富集,这与前扣带皮层在抑郁障碍中的已知作用一致。
该研究的创新之处在于将最优传输理论与基因组先验知识相结合,突破了传统多组学整合方法的局限性。与先前的最优传输应用不同,FGOT引入了特征间关系的先验知识,指导不同组学数据间细胞或点的连接推断。此外,FGOT还提供了对现有整合方法的事后解释策略,能够基于这些方法的嵌入结果进一步揭示细胞状态/空间特异性转录调控链接。
值得注意的是,FGOT目前主要针对单供体数据集内的多组学数据整合和调控推断进行了优化。对于涉及多个供体的研究,建议独立应用于每个供体数据集以保留供体特异性调控模式。跨供体整合策略将是未来工作的重要方向。
综上所述,FGOT为在细胞和空间异质性背景下揭示转录调控机制提供了一个强大的计算框架。该方法不仅能够高精度地整合多组学数据,还能识别细胞状态特异性甚至细胞水平的调控链接,为理解发育、疾病和细胞命运决定中的转录调控机制开辟了新途径。随着单细胞和空间多组学技术的不断发展,FGOT有望成为解析复杂生物学过程中基因调控网络的重要工具。