单细胞RNA-seq(scRNA-seq)能够高分辨率地描述细胞多样性,并阐明发育和病理过程(Josephides & Chen, 2025; Kolodziejczyk, Kim, Svensson, Marioni, & Teichmann, 2015; G. Li, et al., 2023; Nagayama, et al., 2022; Z. Wang, et al., 2024)。然而,下游分析仍受到极端数据稀疏性、高维度和技术噪声的挑战,这些因素掩盖了微妙的转录差异,阻碍了对细粒度细胞状态的解析,尤其是在复杂系统中(Kharchenko, 2021; Lin, Tian, Wei, & Hakonarson, 2022; Song, et al., 2020)。传统的流程——通常是静态神经架构或固定投影后进行聚类——往往在早期训练中无法捕捉到精细结构,在后期则过度拟合虚假模式,从而限制了准确性和泛化能力(Shaheen, Mrabah, Ksantini, & Alqaddoumi, 2025)。
基于图的方法通过将细胞-细胞关系建模在非欧几里得空间中部分解决了这些问题(Baran, et al., 2019; J. Li, Chen, Pan, Yuan, & Shen, 2022; Lou, Li, Wan, & Li, 2024)。例如,图注意力网络(GATs)可以根据特征相似性自适应地加权细胞邻域。然而,大多数实现依赖于在整个训练过程中固定的注意力范围、嵌入容量和损失权重(An, et al., 2022; Zhao, et al., 2025)。这种刚性可能导致过度平滑和优化不稳定,特别是在表示噪声较大的早期阶段。同时,使用静态Kullback–Leibler(KL)散度指导聚类的自监督框架容易受到确认偏置的影响,从而过早地强化错误的分割(Abdelnour, et al., 2022; Baron & van Oudenaarden, 2019; Hartley, et al., 2020; Klemm, Shipony, & Greenleaf, 2019; Stark & Scott, 2023; Vogel & Marcotte, 2012)。
为了克服这些限制,我们引入了DAGCL(动态注意力增强图嵌入与课程学习)。现有的深度聚类框架通常在静态学习范式下运行,其中网络架构、损失权重系数和正则化强度在整个训练过程中保持不变。这种静态方法迫使模型从一开始就同时学习低级特征表示和高级结构簇。然而,在训练的早期阶段,图拓扑通常包含噪声,潜在特征尚未成熟。过早施加强结构约束或聚类压力会导致过早过拟合、错误传播和次优收敛。
与这些静态方法不同,DAGCL将深度聚类视为一个从粗到细的进化过程。DAGCL不是强加固定的表示复杂性,而是采用了一种新颖的动态课程策略,随时间主动调节网络的注意力强度和监督严格性。
(i)早期阶段。模型优先学习稳定、低方差的内容特征(基因表达),同时施加较弱的结构约束,有效过滤掉dropout噪声。(ii)后期阶段。随着课程的进展,模型逐渐引入更强的图注意力和聚类压力,以解析更精细的生物学细节。这种有节奏的学习策略使模型的复杂度与嵌入空间的成熟度保持一致,防止了标准图神经网络(GNNs)中常见的“过度平滑”现象。
DAGCL的核心是一个双分支架构,它通过一个时间依赖的参数将内容重建与结构学习解耦。这与Sinkhorn正则化分配模块相结合,后者用全局平衡的、熵正则化的分配替代了标准的Softmax预测。这确保了聚类结果尊重细胞群体的全局几何结构,防止所有细胞聚合成一个簇的平凡解。
总之,我们的工作通过三个独特贡献区别于现有的图聚类方法:
(1)完全动态的课程范式。与仅重新加权训练样本的先前方法不同,DAGCL是第一个同时动态调节网络内部注意力权重和损失景观的方法。这确保了监督压力与特征成熟度在时间上保持一致,从而缓解了确认偏置。
(2)解耦的双流编码。我们引入了一种并行架构,明确地将内在基因表达学习与拓扑图学习分开。通过独立优化然后动态融合这两种视图,我们避免了早期图噪声导致的特征退化。
(3)几何感知的概率细化。我们提出了一个结构受限的聚类模块,将Sinkhorn最优传输与von Mises–Fisher(vMF)方向建模相结合。这为标准K-means或基于欧几里得的软分配提供了一种数学上稳健的替代方案,确保了全局一致性和簇平衡。
通过将课程动态嵌入到基于图的框架中,DAGCL为单细胞分析建立了一个新原则:模型复杂度应与数据表示共同进化。在多种物种和组织上的广泛基准测试表明,DAGCL在聚类准确性(ARI)和生物学可解释性方面始终优于基线方法。