scDCL:一种基于双重对比学习的多视图单细胞RNA测序聚类方法
《Computational Biology and Chemistry》:scDCL: A multi-view single-cell RNA sequencing clustering method based on dual contrastive learning
【字体:
大
中
小
】
时间:2026年03月04日
来源:Computational Biology and Chemistry 3.1
编辑推荐:
单细胞RNA测序聚类框架scDCL通过ZINB掩码自编码器去噪学习特征,构建K近邻与扩散图多视角结构,结合图卷积网络与双对比学习优化嵌入表示,有效平衡细胞内特性与全局结构,实验验证其性能优于现有方法。
林刚|孟华|陈旭旭|王宇
西南交通大学数学学院,四川,611756,中国
摘要
单细胞RNA测序(scRNA-seq)已成为解析细胞异质性和发现新型细胞状态的关键工具。尽管基于深度学习的scRNA聚类算法显著提高了细胞分辨率和计算效率,但它们仍然面临着scRNA-seq数据固有的挑战:高稀疏性、强非线性和极端维度。现有方法面临一个关键权衡:基于自动编码器的方法能够捕捉细胞内在特征,但忽略了细胞间的全局关系;而基于图神经网络(GNN)或对比学习的方法则侧重于结构信息,但会丢失细胞特异性特征。为了解决这个问题,我们提出了scDCL,这是一个新的scRNA-seq聚类框架,它整合了基于ZINB的掩码自动编码器(MAE)、GNN和双重对比学习,以协同捕获细胞内在和全局结构特征。首先使用ZINB-MAE对数据进行去噪并学习初始表示,然后构建多个图来模拟细胞间关系。拉普拉斯滤波将这些图与原始数据结合,生成平衡局部和全局信息的多视角特征。这些多视图特征被输入到GNN中,通过双重对比学习生成四个嵌入,双重对比学习包括内部表示损失以增强聚类的紧凑性和分离性,以及外部表示损失以确保结构一致性。最终的聚类结果是对优化后的集成表示进行聚类得到的。在公共数据集上的广泛实验表明,我们的集成框架比现有方法具有更好的聚类性能。
引言
细胞是生物体的基本功能单位,具有高度专业化的特性,驱动生理过程。尽管在分子水平上通过随机转录调控维持了内在的同质性,但细胞群体仍表现出显著的异质性(Syed等人,2019年)。解码这种异质性对于理解发育、分化和疾病进展至关重要(Angerer等人,2017年)。
传统的批量RNA测序平均了整个细胞群体的转录谱,捕捉了宏观表达趋势,但掩盖了关键的细胞间转录异质性。单细胞RNA测序(scRNA-seq)技术的出现彻底改变了转录组学,实现了单细胞分辨率下的分析。尽管具有变革潜力,但scRNA-seq分析仍受到固有技术障碍的困扰:有限的RNA捕获效率导致高稀疏性,数据本身具有高维度、大量的零计数噪声和复杂的非线性依赖性。这些特性为构建稳健的scRNA-seq计算模型带来了重大挑战。
为了表征细胞异质性,已经开发了许多针对scRNA-seq数据的聚类方法。早期的方法主要依赖于线性降维。例如,pcaReduce(?urauskien?和Yau,2016年)将主成分分析(PCA)与K-means聚类相结合,根据相关概率密度函数迭代合并簇对。然而,像PCA和非负矩阵分解(NMF)这样的线性技术在本质上是有限的,无法捕捉scRNA-seq数据中固有的复杂非线性流形结构。因此,它们通常产生次优的低维嵌入,不利于有效的下游聚类。
因此,基于深度学习的方法因能够学习非线性表示而受到关注。Rashid等人(2021年)开发了一种变分自动编码器(VAE),将单细胞基因组数据投影到低维特征空间,增强了(隐藏的)肿瘤亚群的识别能力。然而,由于其简单的先验,它在处理复杂的高维scRNA数据集时存在困难。后续的进展,如Svensson等人(2020年)和Gr?nbech等人(2020年)、Tian等人(2024年)引入的高斯混合VAE,提高了编码器的性能,使得能够对更复杂的scRNA数据集进行聚类。一个重要的突破是引入了零膨胀负二项分布(ZINB)模型(Eraslan等人,2019年),该模型用负对数似然替代了传统的均方误差(MSE)损失,显式地模拟了scRNA-seq数据的稀疏性和过度分散性,从而产生了更稳健的聚类结果。在此基础上,Tian等人(2019年)开发了scDeepCluster,结合了KL散度和ZINB以改进降维和聚类效果。然而,它忽略了细胞间的成对关系。Chen等人(2020年)通过scziDesk解决了这一限制,他们在潜在空间中使用了加权软K-means算法(Shi等人,2025年)来聚类相似的细胞类型。此外,他们的模型还借鉴了tSNE(van der Maaten和Hinton,2008年)和DEC的自训练框架(Xie等人,2016年)的思想,加强了小批量中细胞间的相似性,但忽略了细胞间的全局相互作用。
为了纳入高阶结构信息,图卷积网络(GCNs)被广泛采用。Wang等人(2018年)开发了scCDG,这是一种结合了GCNs的自动编码器,增强了抗噪声能力,但其表示能力较弱,限制了其性能。Zheng等人(2017年)、Ren等人(2019年)、Tran等人(2021年)构建了一个多模态自动编码器框架,结合了基因调控信号(LTMG模型)、GCNs和迭代优化,强调了生物学相关性和全局信息传播,在基因插补方面表现出色。然而,基于GCN的自动编码器在邻居间无差别地传播信息,可能导致细胞类型混淆和由于噪声图构建而产生的误导性聚类结果。为了缓解这个问题,Cheng和Ma(2022年)提出了一种具有图注意力机制的自优化聚类方法。他们的方法构建了细胞图(Hu等人,2024年),应用网络去噪来过滤噪声边,并使用图注意力自动编码器学习整合基因表达和细胞关系的低维嵌入(Qi等人,2020年,Tian等人,2018年,Hu等人,2023年)。尽管如此,他们的低维嵌入仍然无法完全保留原始基因表达特征。
最近,对比学习(Meng等人,2025年;Ciortan和Defrance,2021年)作为一种强大的scRNA-seq聚类工具出现,通过增强簇内紧凑性和簇间可分性来发挥作用。例如,scNAME(Wan等人,2022年)结合了掩码编码器来提高AE对scRNA-seq噪声的鲁棒性,并结合对比学习来挖掘基因相关性和细胞内在结构。然而,scNAME忽略了细胞间关系,导致表示不完整。像scGCL(Xiong等人,2023年)和scMMN(Shu等人,2024年)这样的方法通过结合对比学习和GCNs来纳入全局结构信息,但它们忽略了细胞特异性特征,导致表示和聚类性能不佳。因此,一个关键的未解决挑战在于协同捕获细胞内在的语义特征和全局拓扑结构,而不妥协任何一方。
为了解决这些限制,我们提出了scDCL,这是一个端到端的聚类框架,它协同整合了掩码自动编码器和图卷积网络。具体来说,考虑到scRNA-seq数据通常表现出高稀疏性和过度分散性,我们假设潜在表达遵循零膨胀负二项分布。基于这一统计先验,我们使用基于ZINB的掩码自动编码器(MAE)来提取去噪的、考虑分布的潜在嵌入。与通常直接从噪声原始数据构建结构图的常规流程不同,scDCL采用了“去噪-然后构建图”的范式。通过在精炼的潜在空间上构建拓扑图,我们确保捕获的细胞关系在生物学上是真实的,并且对dropout伪影具有鲁棒性。具体来说,我们通过结合扩散映射(DM)图和KNN图,超越了标准的欧几里得假设。这种方法恢复了全局流形轨迹和连续的生物过程,这些过程往往被传统的基于邻近性的视图所忽略。然后利用这些多视角的结构先验通过拉普拉斯滤波过滤原始数据,作为输入到GCNs中以生成四个不同的特征嵌入。为了进一步细化这些表示,我们实现了双重对比学习机制,它既增强了特征,又起到了结构规整的作用。通过联合优化簇级对齐和实例级可区分性,scDCL保持了结构完整性并防止了表示崩溃。理论分析和广泛实验表明,scDCL在各种基准数据集上始终优于现有方法。scDCL的总体架构如图1所示。
总结来说,本工作的主要贡献如下:
- 我们提出了scDCL,这是一个新的scRNA-seq聚类框架,它将基于ZINB的掩码自动编码器的重建能力与图卷积网络的结构感知相结合。
- 我们提出了一种多视角特征提取策略,利用KNN和扩散映射图作为拓扑过滤器。通过拉普拉斯滤波生成四个不同的特征嵌入,scDCL可以同时表征局部细胞相似性和全局流形趋势,解决了scRNA-seq数据中的异质性问题。
- 我们利用双重对比学习来共同优化表示的一致性,并最大化通过拉普拉斯滤波构建的多个视图之间的特征区分性。
- 在大多数基准数据集上,提出的scDCL在性能上优于八种比较方法,显示出更高的鲁棒性和准确性。
部分摘录
总体架构
所提出的scDCL融合了自动编码器、图卷积网络(GCNs)和双重对比学习。如图1所示,scDCL的处理流程分为四个主要阶段:
- 特征提取和去噪:我们首先使用基于零膨胀负二项分布的掩码自动编码器(ZINB-MAE)处理原始基因表达矩阵。ZINB-MAE有效处理了数据的稀疏性和过度分散性,学习了稳健的低维特征嵌入。
- 结构图
对比实验
为了验证我们方法的有效性,我们将其与其他10种方法进行了比较:PCA+K-means、DCA+K-means、scMMN、scMAE(
结论
我们提出了一种新的scRNA-seq聚类框架,通过共同利用样本特定特征和全局结构信息,显著推进了表示学习。所提出的方法结合了基于ZINB的自动编码器、多视图图构建和双重对比学习框架,有效捕获了局部拓扑模式和全局数据分布,从而获得了稳健且语义丰富的细胞表示。在多个实验中
CRediT作者贡献声明
林刚:撰写——原始草稿、方法论、数据整理、概念化。孟华:撰写——审阅与编辑、监督、方法论。陈旭旭:撰写——审阅与编辑、可视化。王宇:撰写——审阅与编辑。
未引用的参考文献
Gutierrez等人(2022年),Kumar等人(2023年),Le-Khac等人(2020年),Zhang等人(2021年)
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号