作为计算机视觉的核心驱动力,深度学习在各种关键任务中取得了突破性应用。例如,基于编码器-解码器和注意力机制的图像修复方法[1]、[2]有效地解决了传统网络中信息丢失导致的模糊和边缘伪影问题。在超分辨率中结合变换器和通道注意力[3]在轻量级架构内实现了重建质量和计算效率之间的良好平衡。同样,结合差分卷积和混合注意力[4]精确地解决了分割细小、不规则裂纹的挑战。此外,多模态跟踪框架[5]、[6]利用跨模态特征增强和融合策略充分利用了RGB和热红外数据之间的互补性,显著提高了复杂场景下的跟踪鲁棒性。尽管这些模型表现优异,但它们对大规模、高质量标注数据的依赖仍然是一个重大瓶颈,在实际应用中,标注往往耗时、劳动密集且成本高昂。
半监督学习(SSL)旨在通过利用丰富的未标记数据来增强模型训练,以缓解标签稀缺问题。SSL中最常见的两种范式是伪标签[7]、[8]和一致性正则化[9]。伪标签技术基于自我训练原则,将高置信度的模型预测作为未标记样本的人工目标。这些样本随后被纳入训练流程中,以迭代地改进模型。相反,一致性正则化约束模型在相同输入的不同扰动版本上产生稳定的预测,从而提高泛化能力。
在这些基础上,Mean Teacher[10]引入了教师-学生框架,以强制模型变体之间的一致性,显著提高了鲁棒性。MixMatch[11]随后统一了伪标签、一致性正则化和数据增强,为SSL设定了新的基准。FixMatch[12]进一步改进了这一范式,利用弱增强和强增强视图之间的跨一致性,以显著的效率实现了最先进(SOTA)的结果。最近,SoftMatch[13]使用截断高斯加权和分布对齐(DA)优化了伪标签的数量-质量权衡。
尽管取得了这些进展,但大多数主流SSL方法都是在类分布平衡的理想化假设下运行的。然而,在实践中,真实世界的数据本质上是长尾的,类不平衡现象普遍存在。在这种情况下,SSL模型容易生成偏向多数(头部)类的伪标签,导致少数(尾部)类的性能严重下降[14]、[15]。这项工作解决了更为实际和具有挑战性的类不平衡半监督学习(CI-SSL)问题。
为了缓解这些偏差,已经提出了几种CI-SSL框架。DARP[16]将伪标签细化视为一个凸优化问题,以使预测与估计的真实分布对齐。LA[17]基于类别先验应用逻辑回归调整来扩大稀有类的边际。ABC[18]引入了一个通过均匀采样训练的辅助平衡分类器来抵消标签偏斜。FGBC[19]结合了基于图的传播和灵活的阈值以及类感知的MixUp来减轻尾部类的过拟合。LCGAD[20]使用残差偏差吸引子将分布偏差与表示学习解耦。CDMAD[21]使用中性输入估计每个类别的偏差以消除预测偏差,而LCGC[22]采用一致性梯度冲突学习进行逻辑回归细化。最后,MW-FixMatch[23]结合了一个元加权网络来适应不平衡场景中的损失重新加权。
尽管在类不平衡半监督学习(CI-SSL)方面取得了显著进展,现有方法仍然面临关键限制。大多数方法以整体、类不可知的方式生成伪标签,仅依赖全局预测分数而不考虑特定类别的特征。这种全局分配加强了多数类的主导地位,而少数类则代表性不足,导致累积的监督偏差和特征学习效果下降。为了解决这个问题,我们提出从多二进制视角重新概念化CI-SSL,将多类任务分解为K个一对所有(OVA)的二进制子任务。通过隔离每个目标类的偏差,该框架实现了有针对性的偏差缓解,并增强了尾部类的表示学习。
我们的框架首先将CI-SSL任务分解为个不同的二进制不平衡子任务。我们采用了一个多二进制分类头,其中每个类别都映射到一个专用的OVA子分类器。对于这些分类器的优化,我们受到了非对称损失(ASL)[24]的启发——这是一种对Cross-Entropy(CE)的稳健替代方案,它通过不对称地调整类别权重来解决对易样本的过度敏感性和对难例的忽视。具体来说,我们为每个二进制子任务的正面和负面组件分配了不同的关注参数。ASL的详细实现细节将在第3.1节中进一步阐述。然而,这种架构仍然存在两个主要挑战。
首先,原始数据集的固有不平衡在每个二进制子任务中被放大,特别是当未标记数据分布未知时。在这种情况下,静态权重因子是不够的,极其稀有的类别很难从未标记数据中提取出区分性特征。其次,模型的伪标签仍然本质上偏向多数类,这个问题在难度不同的多二进制子任务中更加严重。如图1所示,虽然ASL的性能优于标准CE,但在纠正分布级偏差方面的效果仍然有限。
为了克服这些障碍,我们引入了多二进制视角(MBP)。在训练多二进制头时,我们用一种新的调整损失(ADL)替换了标准的二元交叉熵(BCE)。ADL结合了双重调整策略(DAS),该策略利用标记的类别先验和模型对未标记数据的经验预测来校准逻辑值。此外,我们通过伪标签计数估计未标记分布,并分配一个类别级动态阈值(CWDT)——该阈值来自分布估计和模型置信度的组合——来过滤高质量的伪标签。这些精细的标签反过来有助于更准确地迭代估计未标记分布。最后,多二进制头与标准分类器结合在双分支架构[25]、[26]中。如图1所示,与CE和ASL相比,MBP在分布匹配和不匹配的情况下都显著提高了少数类的召回率,同时没有牺牲多数类的性能。在CIFAR-10/100[27]和STL-10[28]上的广泛实验表明,MBP在各种不平衡配置中始终优于最先进的CI-SSL方法。
为了解决传统多类框架中全局优化范式的固有缺陷,即多数类主导过程且统一校正策略无法提供精确的类别级偏差缓解,我们提出了一种解耦的优化策略。本文的主要贡献如下:
1.我们从多二进制分类的角度重新思考CI-SSL,将多类不平衡半监督任务分解为多个OVA二进制不平衡半监督子任务。这种分解有效地适应了每个子任务中正面和负面样本之间的极端不平衡。
2.我们设计了一种调整损失(ADL),并结合了双重调整策略(DAS)。DAS利用标记的数据分布和未标记数据的经验预测概率来动态调整逻辑值,从而缓解由分布不匹配引起的伪标签偏差。
3.我们提出了一种类别级动态阈值(CWDT)方法,该方法根据伪标签分布估计每个类别的未标记样本数量,并为每个类别设置自适应阈值。这确保了为多数类和少数类生成高质量的伪标签。