SNMatch：一种适用于长尾半监督学习的统一多样化样本选择框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年02月14日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　长尾半监督学习、SNMatch框架、FixMatch改进、自适应权重分配、分位数统计

太原科技大学计算机科学与技术学院，中国山西省太原市030024

摘要

近年来，由于长尾数据分布在现实世界中的普遍性，长尾半监督学习（LTSSL）受到了越来越多的关注。大多数现有的LTSSL方法采用FixMatch框架，该框架依赖于一个固定的高置信度阈值来选择伪标签。然而，这种框架往往会因为尾部类别样本的预测概率较低而将它们排除在外，导致模型更偏向头部类别样本。为了解决这一限制，我们提出了SNMatch，这是一个基于偏态分布和分位数的新框架，它在有效选择高置信度样本的同时保留了重要的尾部类别实例。具体来说，SNMatch首先使用偏态分布来建模预测概率，以捕捉数据中的固有偏差。然后，我们提出了截断偏度估计器（TSE）来动态地为样本分配权重，从而在训练过程中实现样本的多样性和少数类别样本的贡献。此外，TSE还利用分位数来稳健地选择样本。对于所提出的TSE，提供了严格的理论分析。广泛的实验表明，SNMatch在多个数据集和实验设置中均优于现有的最佳实践。

引言

半监督学习（SSL）已成为机器学习中的一个重要研究方向，因为它解决了许多现实世界应用中标记数据有限的问题（Berthelot, Carlini, Cubuk, Kurakin, Sohn, Zhang, Raffel, 2020; Berthelot, Carlini, Goodfellow, Papernot, Oliver, Raffel, 2019; Sohn et al. (2020）。许多现有的SSL方法在假设数据分布平衡的情况下表现出强大的性能（Cai, Hao, Yang, Zhao, & Yang (2023)）。然而，在实践中这一假设经常被违反（Johnson & Khoshgoftaar (2019); Najafi, Maeda, Koyama, & Miyato (2019); Saito, Kim, & Saenko (2021); Wang, Lian, Miao, Liu, & Yu (2021b)），因为长尾分布在现实世界中广泛存在（Chen, Zhu, Li, & Gong (2020); Guo & Wang (2021); Oliver, Odena, Raffel, Cubuk, & Goodfellow (2018); Yang et al. (2022); Zhu, Niu, Hua, & Zhang (2022)）。在长尾分布下，头部类别包含大量样本，因此往往获得稳定且高置信度的预测，而尾部类别则面临严重的数据稀缺问题，通常与低置信度的预测相关联（Menon et al. (2021); Park, Hong, Heo, Yun, & Choi (2022); Wu, Liu, Huang, Wang, & Lin (2021); Zhang & Pfister (2021)）。因此，在这种条件下训练的模型会表现出对头部类别的明显偏差（Dong, Zhou, Yan, & Zuo (2023); Jin, Li, Lu, Cheung, & Wang (2023); Li et al. (2024b); Zhang, Kang, Hooi, Yan, & Feng (2023)）。这些挑战激发了人们对长尾半监督学习（LTSSL）研究的兴趣。

已经提出了许多LTSSL方法来应对上述挑战（Fan, Dai, Kukleva, & Schiele (2022); Guo, Zhang, Jiang, Li, & Zhou (2020); Kong et al. (2023); Lee, Shin, & Kim (2021); Li, Tao, Han, Zhan, & Ye (2024a）。这些方法大多基于FixMatch框架（Sohn et al. (2020)开发，而有些方法也与MixMatch或ReMixMatch兼容（Berthelot, Carlini, Cubuk, Kurakin, Sohn, Zhang, Raffel, 2020, Berthelot, Carlini, Goodfellow, Papernot, Oliver, Raffel, 2019）。一般来说，基于MixMatch框架的方法在LTSSL场景中的性能较差。尽管FixMatch和ReMixMatch在准确性上相当，但由于FixMatch的算法复杂性较低，因此在LTSSL场景中通常更受欢迎。尽管FixMatch在实证性能上表现强劲，但它采用的高置信度阈值在处理长尾数据分布时存在显著的限制（Chen et al. (2023); Lai, Wang, Gunawan, Cheung, & Chuah (2022); Sohn et al. (2020); Wei, Sohn, Mellina, Yuille, & Yang (2021)）。

具体来说，当在长尾数据上训练时，模型预测天然倾向于头部类别，导致头部类别样本的置信度分数较高，而尾部类别样本的置信度分数较低（Gao, Zhao, Li, & Guo (2023); Li et al. (2024c); Shi et al. (2024）。这种差异被称为固有偏差。由于FixMatch依赖于固定的高置信度阈值来过滤未标记样本，尾部类别样本更有可能被排除在训练之外（Sohn et al. (2020）。因此，在训练过程中头部和尾部类别之间的不平衡进一步加剧，这种过滤策略的重复应用逐渐放大了固有偏差。这种现象被称为迭代偏差。由于这种偏差放大机制，FixMatch并不是LTSSL场景的最佳解决方案（见图1）。

为了解决上述限制，提出了一个名为SNMatch的稳健LTSSL框架。该方法的提出是基于这样一个观察：在长尾场景中，预测置信度分数遵循偏态分布（Azzalini (1985）。基于这一洞察，SNMatch明确地对置信度分布进行建模，并近似其潜在的概率密度函数（PDF）。SNMatch不是采用硬性的二进制阈值，而是根据样本的置信度分数为它们分配自适应的非零权重。因此，所有样本，包括来自尾部类别的低置信度样本，都能够参与训练过程。

基于这一框架，引入了截断偏度估计器（TSE），该估计器利用偏态PDF中的主要指数项和积分项。TSE首先应用一个截断点为高置信度样本分配全额权重，同时对低置信度样本进行动态加权。然而，偏态分布的均值通常小于众数和中位数。为了防止将过大的权重分配给不可靠的伪标签，基于均值的截断被分位数统计替换，从而得到更高且更稳健的截断点。通过同时保持伪标签的质量和样本的多样性，SNMatch有效地减轻了FixMatch引起的迭代偏差。本工作的主要贡献总结如下：

•

受偏态分布和分位数统计的启发，我们提出了SNMatch，这是一个简单且稳健的框架，可以无缝集成到现有的LTSSL算法中以减轻模型偏差。

•

提出了TSE，它为样本分配权重以促进多样性，增强尾部类别的表示。此外，引入了一种稳健的选择策略，用分位数替换均值以选择高置信度样本。

•

在多个LTSSL数据集上进行了广泛的实验，这些数据集具有不同的分布设置。结果一致表明，SNMatch有效解决了FixMatch框架引起的迭代偏差。

长尾学习

由于开放环境数据中长尾分布的普遍性，近年来长尾学习方法受到了越来越多的关注。根据技术贡献，现有的长尾学习方法可以分为三类（Zhang et al. (2023)。类别重新平衡方法旨在通过修改训练过程中的采样策略、损失函数或预测输出来减轻模型对头部类别的偏差，从而实现更平衡的

初步介绍

设数据集定义为

D = D_{l} \cup D_{u}

其中标记的训练集为

D_{l} = {(x_{i}^{l}, y_{i})}_{i = 1}^{N}

其中

x_{i}

表示标记样本，

y_{i} \in {1, 2, \dots,, C}

\sum_{k = 1}^{C}

未标记的训练集定义为

D u = x_{j}^{j = 1}

其中

x_{j}

表示与标记集共享相同标签空间的未标记样本

\sum_{k = 1}^{C}

实验

本节在三个基准数据集CIFAR10-LT、CIFAR100-LT和STL10-LT上进行了全面实验，以评估所提出的SNMatch框架的有效性。本文在各种未标记数据分布下评估了算法的性能，以更好地模拟现实世界的半监督场景。

结论

本文提出了SNMatch，这是一个旨在解决LTSSL挑战的新框架。大多数现有的优秀LTSSL方法都是基于FixMatch框架开发的，而FixMatch往往会放大模型在LTSSL中的偏差。为了解决这个问题，SNMatch对预测置信度分布进行建模，并为所有样本（包括低置信度样本）分配自适应权重。此外，SNMatch用分位数替换均值来选择更高质量的伪标签，提供了一个更稳健的替代方案

CRediT作者贡献声明

Jianghui Cai： 方法论，撰写——原始草案。Yan Li： 形式分析，验证，撰写——审阅与编辑。Haifeng Yang： 构思，撰写——审阅与编辑，资金获取。Meihong Su： 软件。Yanting He： 撰写——审阅与编辑。Chenhui Shi： 可视化。Jiaxing Wang： 撰写——审阅与编辑。Yi Chen： 撰写——审阅与编辑。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能会影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

长尾学习

初步介绍

实验

结论

CRediT作者贡献声明

利益冲突声明

热点排行