OPCR:通过正交原型和基于置信度的标签细化实现持续性的广义类别发现

《Neurocomputing》:OPCR:Continual generalized category discovery via orthogonal prototypes and confidence-aware label refinement

【字体: 时间:2026年02月10日 来源:Neurocomputing 6.5

编辑推荐:

  正交原型与置信度感知标签重定义框架解决持续广义类别发现中的灾难性遗忘问题,通过构建球形正交空间约束类间分离,利用EVT模型和Top-k距离优化伪标签可靠性,实现已知类别表征保留与新型类别发现。

Ningge Hu|Xiao Li|Zihao Zhao|Bo Xu|Jiaqing Liu|Xuezheng Fan
西安电子科技大学计算机科学与技术学院,710071,中国

摘要

持续广义类别发现(CGCD)旨在从未经标记的数据流中持续发现新类别,同时保留对已知类别的知识。然而,现有方法由于在增量阶段缺乏监督,常常会出现对已知类别的严重灾难性遗忘。为了解决这一挑战,我们提出了一个基于正交原型置信度感知标签的新框架。具体来说,我们使用预定义的、相互正交的伪目标构建了一个球形正交空间,这使得模型能够在学习已知类别的同时为新类别保留空间。在增量学习过程中,采用基于类别概率的拒绝策略来区分已知样本和新样本,然后通过聚类和置信度驱动的细化来分配伪标签。在伪标签的引导下,所提出的正交性损失鼓励所有样本与其分配的类别原型对齐,包括已知类别和新类别。这有助于保留已知类别的表示并减轻灾难性遗忘。广泛的实验表明,OPCR在平均性能上优于最先进(SOTA)方法。

引言

图像分类一直是人工智能和计算机视觉中的基本任务[[9], [10], [11], [12], [13], [17], [18], [19], [20], [21], [22], [23], [24], [25], [26], [28]。随着技术和计算能力的迅速发展,图像数据变得越来越大规模和复杂[1], [2], [3], [4], [5], [6], [7], [8], [9], [10], [11], [12], [13], [14], [15], [16], [17], [18],应用场景也变得更加开放和动态。为了应对这种开放世界环境带来的挑战,提出了新类别发现(NCD)[12],以便在部分监督下从未经标记的数据中识别新类别。广义类别发现(GCD)[30], [31], [32], [33], [34], [35], [36]进一步扩展了这一设置,要求模型同时识别已知类别并发现新类别。然而,GCD仍然受限于其对静态训练数据的依赖,因此不适用于涉及连续数据流的现实世界场景。为了克服这一限制,引入了持续广义类别发现(CGCD)[38],它旨在从依次到达的未经标记的数据中逐步发现新类别,同时保持识别先前学习到的类别的能力(图1)。
尽管CGCD在现实世界应用中具有重要的实用价值,但它仍然面临三个关键挑战。在每个会话中,传入的未经标记的数据包含已知类别和新类别,这些类别在特征空间中通常具有重叠的分布。PromptCCD [4]使用高斯混合提示模块增强特征表示,但它没有明确建模已知类别和新类别之间的分离,使其容易受到特征纠缠的影响。在增量会话中学习新类别严重依赖于伪标签,而这些伪标签不可避免地包含噪声。MetaGCD [34]提出了一个基于元学习的框架,可以快速适应新实例,但它仍然基于聚类分配伪标签,而不进行迭代细化。在增量过程中,模型无法访问之前的会话中的样本,导致先前学习到的类别的表示退化,从而产生严重的灾难性遗忘问题。尽管PA [14]试图通过学习基于代理的类别表示来减轻灾难性遗忘,但它缺乏明确的结构性约束来保持会话间的类别可分性。
大多数现有方法依赖于简单的置信度阈值或最大类别概率来区分已知类别和新类别。然而,这样的启发式策略本质上对特征分布的重叠和分布变化非常敏感,导致决策边界不稳定,两种类别之间的误分类频繁发生。此外,在处理新类别发现时,许多方法采用一次性聚类结果作为伪标签,而不进行任何后续细化过程。这使它们容易受到噪声或边界样本的影响,从而导致原型漂移和表示一致性下降。此外,为了减轻增量会话间的灾难性遗忘,一些研究采用样本重放或知识蒸馏来保留先前获得的知识。然而,在现实的无重放场景中,由于存储或隐私限制,这些技术往往不可行。
在本文中,我们提出了一种结合正交原型和置信度感知标签细化(OPCR)的CGCD方法。具体来说,在初始步骤中,在球形正交空间中预定义了一组相互正交的伪目标,并使用匈牙利算法将这些向量分配给已知类别。在每个增量步骤中,我们使用极值理论(EVT)来建模已知类别的尾部分布,并使用韦伯分布来估计区分已知样本和新样本的拒绝概率。然后对新样本进行聚类以获得初始伪标签,进一步通过基于Top-k距离的选择机制进行细化,以产生稳定的新类别原型。所有样本随后在正交空间中进行优化,其中正交性损失和对比学习将特征拉向相应的原型。由于预定义的正交伪目标在会话间保持固定,并作为所有类别表示的稳定锚点,模型保持了一致的类别间结构,并有效抑制了灾难性遗忘,而无需依赖重放。伪标签和原型分配在整个过程中不断更新。
我们的贡献可以总结如下:
  • (1)
    我们引入了一个球形正交空间,预定义了一组相互正交的伪目标向量,为每个类别提供结构化、不重叠的表示目标,从而提高类别间的可分性。
  • (2)
    我们提出了一种伪标签增强机制,首先通过特征分布建模识别新样本,然后通过样本-原型距离细化它们的伪标签,以提高标签的可靠性和类别的可区分性。
  • (3)
    在三个通用和三个细粒度基准测试上的评估证实了我们方法的有效性和竞争力。
本文的其余部分组织如下。第2节回顾了关于持续学习、广义类别发现和持续广义类别发现的相关工作。第3节详细介绍了所提出的OPCR框架。第4节报告了在多个通用和细粒度基准测试上的全面实验结果和消融研究。第5节提出了结论和未来的研究方向。

部分摘录

持续学习

持续学习(CL)旨在训练能够从一系列任务或不断演变的数据分布中获取知识的模型,同时保留之前学到的知识。在图像分类的背景下,一个广泛研究的设置是类别增量学习(CIL),其中新类别随着时间的推移而出现,模型必须学会分类迄今为止看到的所有类别。基于重放的方法保留了一部分之前看到的样本,并将它们与当前任务数据一起训练,以保持

问题表述

在CGCD设置中,学习过程包括两个主要阶段:初始阶段和持续类别发现阶段。初始阶段,称为会话0,涉及在大型标记数据集上进行训练,其中表示已知类别的数量。之后,持续类别发现阶段被组织成个连续会话。在每个会话中,模型接收一个未经标记的数据集,其中包含来自之前的

数据集和评估协议

为了全面评估所提出方法的有效性,我们在六个基准数据集上进行了实验,包括三个通用图像识别数据集:Caltech-101 [8]、CIFAR100 [1] 和 Tiny-ImageNet [18],以及三个细粒度分类数据集:CUB [31]、Stanford-Cars [16] 和 Aircraft [22]。每个会话的聚类性能使用聚类准确率(ACC)进行定量评估,定义如下:
其中,表示

结论

在本文中,我们提出了一种名为OPCR的CGCD方法,有效解决了三个核心挑战:已知类别和新类别的分离、伪标签的可靠性以及先前学习到的类别的灾难性遗忘。具体来说,我们引入了一个球形正交空间,其中预定义了一组成对正交的伪目标,使得所有类别的表示具有结构化和区分性。此外,还提出了一个基于置信度的伪标签细化

CRediT作者贡献声明

Ningge Hu:撰写——原始草稿、可视化、验证、软件、方法论、调查、概念化。Xiao Li:撰写——审阅与编辑、监督、软件、调查、概念化。Zihao Zhao:撰写——审阅与编辑、验证、监督、方法论、调查、概念化。Bo Xu:可视化、验证、监督。Jiaqing Liu:撰写——审阅与编辑、验证、软件、方法论、概念化。Xuezheng Fan:撰写——审阅

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

致谢

本工作得到了陕西省自然科学基金(项目编号2025JC-YBMS-720)、中央高校基本科研业务费(项目编号QTZX25118)、国家自然科学基金(项目编号62176197)和陕西省杰出青年科学基金(项目编号2025JC-JCQN-083)的支持。
Ningge Hu于2019年在中国上海的上海师范大学获得计算机科学与技术学士学位。她目前在中国陕西省西安的西安电子科技大学攻读计算机科学与技术硕士学位。她的研究兴趣包括新类别发现和计算机视觉。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号