图像分类一直是人工智能和计算机视觉中的基本任务[[9], [10], [11], [12], [13], [17], [18], [19], [20], [21], [22], [23], [24], [25], [26], [28]。随着技术和计算能力的迅速发展,图像数据变得越来越大规模和复杂[1], [2], [3], [4], [5], [6], [7], [8], [9], [10], [11], [12], [13], [14], [15], [16], [17], [18],应用场景也变得更加开放和动态。为了应对这种开放世界环境带来的挑战,提出了新类别发现(NCD)[12],以便在部分监督下从未经标记的数据中识别新类别。广义类别发现(GCD)[30], [31], [32], [33], [34], [35], [36]进一步扩展了这一设置,要求模型同时识别已知类别并发现新类别。然而,GCD仍然受限于其对静态训练数据的依赖,因此不适用于涉及连续数据流的现实世界场景。为了克服这一限制,引入了持续广义类别发现(CGCD)[38],它旨在从依次到达的未经标记的数据中逐步发现新类别,同时保持识别先前学习到的类别的能力(图1)。
尽管CGCD在现实世界应用中具有重要的实用价值,但它仍然面临三个关键挑战。在每个会话中,传入的未经标记的数据包含已知类别和新类别,这些类别在特征空间中通常具有重叠的分布。PromptCCD [4]使用高斯混合提示模块增强特征表示,但它没有明确建模已知类别和新类别之间的分离,使其容易受到特征纠缠的影响。在增量会话中学习新类别严重依赖于伪标签,而这些伪标签不可避免地包含噪声。MetaGCD [34]提出了一个基于元学习的框架,可以快速适应新实例,但它仍然基于聚类分配伪标签,而不进行迭代细化。在增量过程中,模型无法访问之前的会话中的样本,导致先前学习到的类别的表示退化,从而产生严重的灾难性遗忘问题。尽管PA [14]试图通过学习基于代理的类别表示来减轻灾难性遗忘,但它缺乏明确的结构性约束来保持会话间的类别可分性。
大多数现有方法依赖于简单的置信度阈值或最大类别概率来区分已知类别和新类别。然而,这样的启发式策略本质上对特征分布的重叠和分布变化非常敏感,导致决策边界不稳定,两种类别之间的误分类频繁发生。此外,在处理新类别发现时,许多方法采用一次性聚类结果作为伪标签,而不进行任何后续细化过程。这使它们容易受到噪声或边界样本的影响,从而导致原型漂移和表示一致性下降。此外,为了减轻增量会话间的灾难性遗忘,一些研究采用样本重放或知识蒸馏来保留先前获得的知识。然而,在现实的无重放场景中,由于存储或隐私限制,这些技术往往不可行。
在本文中,我们提出了一种结合正交原型和置信度感知标签细化(OPCR)的CGCD方法。具体来说,在初始步骤中,在球形正交空间中预定义了一组相互正交的伪目标,并使用匈牙利算法将这些向量分配给已知类别。在每个增量步骤中,我们使用极值理论(EVT)来建模已知类别的尾部分布,并使用韦伯分布来估计区分已知样本和新样本的拒绝概率。然后对新样本进行聚类以获得初始伪标签,进一步通过基于Top-k距离的选择机制进行细化,以产生稳定的新类别原型。所有样本随后在正交空间中进行优化,其中正交性损失和对比学习将特征拉向相应的原型。由于预定义的正交伪目标在会话间保持固定,并作为所有类别表示的稳定锚点,模型保持了一致的类别间结构,并有效抑制了灾难性遗忘,而无需依赖重放。伪标签和原型分配在整个过程中不断更新。
我们的贡献可以总结如下:
- (1)
我们引入了一个球形正交空间,预定义了一组相互正交的伪目标向量,为每个类别提供结构化、不重叠的表示目标,从而提高类别间的可分性。
- (2)
我们提出了一种伪标签增强机制,首先通过特征分布建模识别新样本,然后通过样本-原型距离细化它们的伪标签,以提高标签的可靠性和类别的可区分性。
- (3)
在三个通用和三个细粒度基准测试上的评估证实了我们方法的有效性和竞争力。
本文的其余部分组织如下。第2节回顾了关于持续学习、广义类别发现和持续广义类别发现的相关工作。第3节详细介绍了所提出的OPCR框架。第4节报告了在多个通用和细粒度基准测试上的全面实验结果和消融研究。第5节提出了结论和未来的研究方向。