编辑推荐:
长尾数据中的标签噪声问题,提出两阶段主动清理策略:第一阶段通过Balanced Class-Centered Contrastive Learning(BCCL)增强特征表示并识别潜在噪声;第二阶段采用不确定性主动学习采样重新训练。实验表明在CIFAR10-LT和Red-Mini ImageNet数据集上显著优于SOTA方法,尤其在高噪声场景下分类性能提升5.17%。
Xiao Lin|Zeyu Rong|Yan Li|Qizhe Yang|Ping Li|Wei Huang
上海师范大学信息、机械与电气工程学院,中国上海
摘要
长尾数据在现实世界应用中无处不在,由于类别分布不平衡和标签噪声水平高,它带来了重大挑战。以往处理带标签噪声的长尾数据的方法往往需要较高的计算成本和人工投入。为了解决这些问题,我们提出了一种新颖的两阶段主动标签清洗策略,该策略将主动学习扩展到传统标签获取之外,以高效识别和纠正错误标记的样本,同时最小化标注成本。具体来说,在第一阶段,我们提出了一种平衡类别中心的对比学习(BCCL)方法,以提高特征表示质量并识别长尾数据集中的潜在标签噪声。BCCL通过一种新的损失函数实现这一点,该函数将对比学习与类别中心的加权平均相结合。第二阶段采用基于不确定性的主动学习排序采样,对潜在的标签噪声样本进行重新训练,重点关注高不确定性实例,以确定需要重新标注的最终噪声样本。我们的两阶段主动标签清洗策略减少了需要重新标注的数据量,通过迭代重新标注最终提高了分类性能,同时优化了标注资源的使用并减少了标注工作量。实验结果表明,我们的方法在不同噪声比和不平衡程度下都具有很强的鲁棒性,在多个数据集上有效增强了噪声数据的区分能力,并在长尾数据上实现了更优的分类性能,特别是在高噪声场景下。在CIFAR10-LT数据集上,不平衡比为10且对称噪声为0.6的实验中,我们的性能显著优于现有的PCSE方法,相对提高了5.17%。此外,在真实噪声的长尾数据集Red Mini-ImageNet上,不平衡比为100且对称噪声为0.4时,我们的准确率达到38.37%,超过了现有基准。
引言
在深度学习领域,使用大规模标记数据对于提高模型性能至关重要(He等人,2016年)。传统的深度学习模型通常假设训练数据的标签是准确的,但在存在广泛标签噪声的情况下,这一假设并不成立。在现实世界场景中,标记数据不可避免地包含标签噪声,这可能是由于人类注释者的主观错误、自动标注工具的局限性以及数据本身的固有歧义等原因造成的。标签噪声的存在可能导致模型学习到错误的特征,从而损害其泛化能力(Zhang等人,2021年)。这个问题在长尾数据中尤为突出,因为标签噪声问题更为严重。长尾数据的特点是分布偏斜,少数类别(头部)包含了大部分数据,而大量类别(尾部)的样本数量明显较少。例如,在图像分类任务中,不同类别的图像数量可能差异很大——“猫”或“狗”这样的类别可能有数千个样本,而“穿山甲”或“矮袋鼠”这样的罕见类别可能只有少数样本(Wang等人,2025b)。大多数类别中样本的稀缺性加剧了标签噪声对模型学习的影响。可用样本数量有限使得模型难以学习到稳健的特征,而标签噪声进一步增加了错误特征提取的可能性。尾部类别的样本通常复杂、罕见或模糊,这增加了标注难度和噪声的发生率(Branco等人,2016年)。此外,模型训练往往偏向于头部类别数据的丰富性,导致忽略了尾部类别的噪声问题,进一步降低了模型在这些类别上的泛化能力。
传统的标签噪声处理方法,如基于噪声的建模技术,在长尾数据集上取得的成功有限,尽管在平衡数据集上取得了一些成功(He等人,2025年)。这些方法通常假设噪声在所有类别中均匀分布,并且每个类别的样本数量相当。然而,在长尾数据集中,尾部类别的样本数量极少,噪声的比例往往较高,导致噪声分布不均匀。传统方法难以准确模拟这种不均匀的噪声分布,从而对尾部类别的噪声处理不够理想。此外,这些方法往往过度关注头部类别数据,而忽略了尾部类别的独特特征,进一步降低了模型在尾部类别上的性能。大多数现有研究优先考虑头部类别样本,忽视了尾部类别样本的潜在价值和特定属性。
现有的处理长尾数据集标签噪声的方法大致可以分为重新加权和平采样(Chen等人,2025年)、设计鲁棒损失函数(Zhang等人,2023年)、半监督学习和自我训练(Fang等人,2023年)、数据清洗和过滤技术(Liu等人,2024年;Zhang等人,2022年)。重新加权和平采样方法试图通过修改样本权重或采样策略来解决类别不平衡问题。然而,这些方法可能会过度拟合尾部类别的噪声,增加计算成本,并导致头部类别的重要信息丢失。半监督学习和自我训练方法通过利用未标记数据和伪标签来扩展训练集。然而,对尾部类别的预测往往缺乏可靠性,引入了额外的噪声。数据清洗和过滤方法侧重于识别和去除噪声样本,但它们可能会无意中丢弃尾部类别的有效样本,从而加剧类别不平衡。
为了解决这些挑战,我们提出了一种针对长尾数据中标签噪声问题的新颖两阶段主动标签清洗策略。传统的主动学习旨在迭代选择最有价值的数据来提高模型性能,而我们的主动标签清洗框架则迭代选择包含标签噪声的数据进行重新标注或删除,以改进模型性能(图1)。
所提出的方法优化了模型对长尾样本的分类能力,同时强调了模型的鲁棒性,并优化了其在长尾数据分布下的性能。此外,该方法创新地将主动学习整合到标签校正过程中。通过利用主动学习,该方法能够主动识别可能被错误标记或在多次迭代过程中需要进一步澄清的样本。然后,这些潜在的错误标签由人类专家的专业知识进行纠正,从而不断提高标签的质量、可靠性和准确性。这种迭代校正过程显著提高了长尾数据的标签质量,确保了有限标注资源的更有效利用,并降低了整体标注和模型训练成本。我们在多个数据集上进行了实验,证明了所提出框架的有效性和优越性,与现有最先进(SOTA)方法相比。
我们工作的主要贡献总结如下:
- •
我们提出了一种针对长尾数据集的平衡类别中心对比学习(BCCL)。BCCL通过结合对比学习和类别中心的加权平均来增强特征表示学习。这种方法确保了特征空间内类别的更均匀分布,从而减少了对头部类别的偏见,并提高了与异常类别的分离度。
- •
我们还提出了一种基于不确定性的主动学习排序采样方法用于二次采样。通过蒙特卡洛dropout和洗牌注意力机制来处理初始阶段的潜在错误标记。利用不确定性估计,确定需要重新标注的最终噪声样本。这种方法显著降低了标注成本,同时提高了整体采样率。
- •
所提出的两阶段主动标签清洗策略通过有效处理标签噪声,扩展了主动学习的应用范围。与现有方法相比,我们的方法在多个数据集上表现出更好的性能,尤其是在高噪声条件下。
本文的其余部分组织如下。第2节我们回顾了标签噪声学习、长尾学习和针对标签噪声的主动学习的相关工作,特别关注长尾噪声数据的方法。第3节详细介绍了我们提出的方法,包括整体框架、BCCL和基于不确定性的主动标签清洗采样策略。第4节展示了在多个基准数据集上进行的全面实验,包括与最先进方法的比较、消融研究以及在不同噪声和不平衡设置下的性能分析。最后,第5节总结了本文并讨论了未来研究的潜在方向。
节选
标签噪声学习
在机器学习中,处理带噪声标签是一个重大挑战,目标是训练出即使在训练数据中有标签噪声也能保持稳定性能的模型。噪声标签可能导致模型过拟合错误信息,从而损害泛化能力。
已经提出了各种方法来解决这个问题。在噪声建模领域,研究人员通过估计噪声转移矩阵来细化模型预测,以减轻噪声标签的影响(Li等人,2022a)。
方法
在本节中,我们首先描述了我们的两阶段主动标签清洗框架,然后详细介绍了平衡类别中心对比学习(BCCL)。最后,我们介绍了基于不确定性的主动学习排序采样。整体框架如图2所示。
数据集
为了全面评估我们方法的效果,我们使用五个数据集进行了实验:MNIST(Cohen等人,2017年)、FashionMNIST(Xiao等人,2017年)、CIFAR-10(Krizhevsky和Hinton,2009年)、SVHN(Netzer等人,2011年)和Red-Mini ImageNet(Jiang等人,2020年)。为了模拟现实场景,我们首先通过对某些类别的样本数量进行减少,使数据集呈现长尾分布,从而创建出类似于现实世界应用中的不平衡数据集。
结论与局限性
在本文中,我们提出了一种两阶段主动标签清洗框架,以解决长尾数据集中的标签噪声问题。通过设计对比学习和类别中心的加权平均,我们的方法有效提高了长尾数据的特征表示质量,确保了长尾类别在潜在空间中的代表性。此外,我们提出了基于不确定性的主动学习排序采样,将主动学习整合到了
CRediT作者贡献声明
Xiao Lin:写作——审阅与编辑、撰写原始草稿、验证、软件开发、资源收集、研究调查、资金获取、正式分析、数据管理。Zeyu Rong:写作——审阅与编辑、撰写原始草稿、方法论设计、正式分析、概念化。Yan Li:写作——审阅与编辑、监督、资源管理。Qizhe Yang:写作——审阅与编辑、监督、资源管理。Ping Li:写作——审阅与编辑、监督、资源管理。Wei Huang:写作——审阅与
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。