聚类是机器学习中的基本任务,其目标是将未标记的样本分组到不同的簇中,以最大化簇内的相似性和簇间的差异性。现有的深度聚类研究大致可以分为基于结构先验(MacQueen, 1967)、分布先验(Jiang, Zheng, Tan, Tang, & Zhou, Mukherjee, Asnani, Lin, Kannan, 2019)和增强不变性先验(Deng, Huang, Chen, Wang, Lai, 2023, Li, Hu, Liu, Peng, Zhou, Peng, 2021)的方法。尽管这些方法在粗粒度数据集上取得了显著成果,但在细粒度的现实世界场景中常常遇到困难(Deng, Huang, Chen, Wang, Lai, 2023, Li, Hu, Liu, Peng, Zhou, Peng, 2021)。细粒度分析通常指的是对高度相似的子类别进行详细和精确的分析或分类。在细粒度场景中,由于环境变化或数据收集不一致,同一簇内的类别可能会随时间动态演变(Kim, Ha, 2022, Krause, Stark, Deng, Fei-Fei, 2013, Nilsback, Zisserman, 2008)。特别是,基于内在特征的方法严重依赖于数据的浅层特征或单模态表示。在细粒度场景中,由于类间差异微妙和类内方差复杂,传统方法难以对这类高度相似的样本进行建模,导致决策边界模糊和解决方案退化。例如,在野生动物监测中,区分密切相关的鸟类物种(如各种莺类)依赖于羽毛图案、喙形或叫声的细微差异(Wah et al., 2011)。然而,子类别之间的高相似性往往会导致决策边界模糊和频繁的误分类。同样,在医学成像中,识别肿瘤亚型或疾病变异(例如,区分良性和恶性病变,即使视觉差异很小)也会引入复杂的类内方差(DeAngelis, 2001)。这些方差源于患者特定的解剖结构、成像伪影或环境噪声等因素,导致聚类结果不一致,模型退化为简单的分组。因此,开发能够辨别细微语义差异的鲁棒无监督技术对于在这些领域做出更准确和高效的决策至关重要。
以往关于细粒度聚类的研究(Chen, Duan, Houthooft, Schulman, Sutskever, Abbeel, 2016, Kim, Ha, 2022, Singh, Ojha, Lee, 2019)旨在通过生成模型学习一个适合聚类的嵌入空间。近年来,随着标注数据的日益丰富,各种基于标记数据集的监督模型得到了发展(Huang, Yang, Shen, Liu, Zhan, & Ye, Ye, Ming, Zhan, Chao, 2022, Zhang, Lu, Chen, Zhan, Ye, 2025)。虽然现有的细粒度聚类方法主要集中在改进传统无监督方法以适应细粒度任务上,但它们往往忽略了从这些监督模型中重用知识的潜力来辅助细粒度聚类。将现有的监督模型应用于细粒度聚类面临的问题是,学习到的模型是在现有数据集上训练的,这会导致任务不一致性。
在本文中,我们提出了一种新的细粒度聚类方法来解决上述问题。为了消除任务不一致性,我们采用了一个结合了低秩优化和对比学习的框架。具体来说,我们首先使用低秩分解构建了一个细粒度特征学习框架。然后,我们证明了通过某些对比学习策略,低秩优化可以转化为一个模型重用问题。通过将对比聚类框架与现有训练模型的零样本预测能力相结合,并采用稀疏的低秩约束,我们利用模型对高置信度类别的指导,对轻微扰动的样本进行动态优化,从而在潜在空间中形成紧凑且具有区分性的簇分布。我们的主要贡献如下:
(1) 我们提出了一种新颖的模型重用框架,该框架利用低秩方法通过模型辅助的稀疏化来学习适合聚类的特征嵌入,使细粒度数据集能够形成清晰的簇边界,而不会陷入退化解。
(2) 我们从理论上证明了我们的稀疏化操作可以限制增强矩阵的秩,从而获得一致且高置信度的预测结果。
(3) 我们在三个标准基准数据集以及额外的消融实验上的实验表明,所提出的方法显著优于现有方法。