半监督学习(SSL)已成为机器学习中的一个重要研究方向,因为它解决了许多现实世界应用中标记数据有限的问题(Berthelot, Carlini, Cubuk, Kurakin, Sohn, Zhang, Raffel, 2020; Berthelot, Carlini, Goodfellow, Papernot, Oliver, Raffel, 2019; Sohn et al. (2020)。许多现有的SSL方法在假设数据分布平衡的情况下表现出强大的性能(Cai, Hao, Yang, Zhao, & Yang (2023))。然而,在实践中这一假设经常被违反(Johnson & Khoshgoftaar (2019); Najafi, Maeda, Koyama, & Miyato (2019); Saito, Kim, & Saenko (2021); Wang, Lian, Miao, Liu, & Yu (2021b)),因为长尾分布在现实世界中广泛存在(Chen, Zhu, Li, & Gong (2020); Guo & Wang (2021); Oliver, Odena, Raffel, Cubuk, & Goodfellow (2018); Yang et al. (2022); Zhu, Niu, Hua, & Zhang (2022))。在长尾分布下,头部类别包含大量样本,因此往往获得稳定且高置信度的预测,而尾部类别则面临严重的数据稀缺问题,通常与低置信度的预测相关联(Menon et al. (2021); Park, Hong, Heo, Yun, & Choi (2022); Wu, Liu, Huang, Wang, & Lin (2021); Zhang & Pfister (2021))。因此,在这种条件下训练的模型会表现出对头部类别的明显偏差(Dong, Zhou, Yan, & Zuo (2023); Jin, Li, Lu, Cheung, & Wang (2023); Li et al. (2024b); Zhang, Kang, Hooi, Yan, & Feng (2023))。这些挑战激发了人们对长尾半监督学习(LTSSL)研究的兴趣。
已经提出了许多LTSSL方法来应对上述挑战(Fan, Dai, Kukleva, & Schiele (2022); Guo, Zhang, Jiang, Li, & Zhou (2020); Kong et al. (2023); Lee, Shin, & Kim (2021); Li, Tao, Han, Zhan, & Ye (2024a)。这些方法大多基于FixMatch框架(Sohn et al. (2020)开发,而有些方法也与MixMatch或ReMixMatch兼容(Berthelot, Carlini, Cubuk, Kurakin, Sohn, Zhang, Raffel, 2020, Berthelot, Carlini, Goodfellow, Papernot, Oliver, Raffel, 2019)。一般来说,基于MixMatch框架的方法在LTSSL场景中的性能较差。尽管FixMatch和ReMixMatch在准确性上相当,但由于FixMatch的算法复杂性较低,因此在LTSSL场景中通常更受欢迎。尽管FixMatch在实证性能上表现强劲,但它采用的高置信度阈值在处理长尾数据分布时存在显著的限制(Chen et al. (2023); Lai, Wang, Gunawan, Cheung, & Chuah (2022); Sohn et al. (2020); Wei, Sohn, Mellina, Yuille, & Yang (2021))。
具体来说,当在长尾数据上训练时,模型预测天然倾向于头部类别,导致头部类别样本的置信度分数较高,而尾部类别样本的置信度分数较低(Gao, Zhao, Li, & Guo (2023); Li et al. (2024c); Shi et al. (2024)。这种差异被称为固有偏差。由于FixMatch依赖于固定的高置信度阈值来过滤未标记样本,尾部类别样本更有可能被排除在训练之外(Sohn et al. (2020)。因此,在训练过程中头部和尾部类别之间的不平衡进一步加剧,这种过滤策略的重复应用逐渐放大了固有偏差。这种现象被称为迭代偏差。由于这种偏差放大机制,FixMatch并不是LTSSL场景的最佳解决方案(见图1)。
为了解决上述限制,提出了一个名为SNMatch的稳健LTSSL框架。该方法的提出是基于这样一个观察:在长尾场景中,预测置信度分数遵循偏态分布(Azzalini (1985)。基于这一洞察,SNMatch明确地对置信度分布进行建模,并近似其潜在的概率密度函数(PDF)。SNMatch不是采用硬性的二进制阈值,而是根据样本的置信度分数为它们分配自适应的非零权重。因此,所有样本,包括来自尾部类别的低置信度样本,都能够参与训练过程。
基于这一框架,引入了截断偏度估计器(TSE),该估计器利用偏态PDF中的主要指数项和积分项。TSE首先应用一个截断点为高置信度样本分配全额权重,同时对低置信度样本进行动态加权。然而,偏态分布的均值通常小于众数和中位数。为了防止将过大的权重分配给不可靠的伪标签,基于均值的截断被分位数统计替换,从而得到更高且更稳健的截断点。通过同时保持伪标签的质量和样本的多样性,SNMatch有效地减轻了FixMatch引起的迭代偏差。本工作的主要贡献总结如下:
•受偏态分布和分位数统计的启发,我们提出了SNMatch,这是一个简单且稳健的框架,可以无缝集成到现有的LTSSL算法中以减轻模型偏差。
•提出了TSE,它为样本分配权重以促进多样性,增强尾部类别的表示。此外,引入了一种稳健的选择策略,用分位数替换均值以选择高置信度样本。
•在多个LTSSL数据集上进行了广泛的实验,这些数据集具有不同的分布设置。结果一致表明,SNMatch有效解决了FixMatch框架引起的迭代偏差。