《Neurocomputing》:Intrinsic dimensionality as a model-free measure of class imbalance
编辑推荐:
本文提出基于数据内在维度(ID)的新型不平衡衡量方法,模型-free且独立于样本数量。实验表明,ID在多种长尾数据集上显著优于传统重采样和损失重加权方法,结合样本数量可进一步提升性能。
Cagri Eser|Zeynep Sonat Baltaci|Emre Akbas|Sinan Kalkan
计算机工程系,中东技术大学,安卡拉,06810,土耳其安卡拉
摘要
在分类任务中,不平衡通常通过各类别样本的数量来量化。然而,这种方法忽略了冗余样本的存在以及类别之间学习难度的固有差异。另一种方法是使用复杂的度量指标,如训练损失和不确定性,但这些指标依赖于机器学习模型的训练。本文提出使用数据内在维度(ID)作为一种易于计算、无需模型的不平衡度量方法,可以无缝集成到各种不平衡缓解策略中。我们在五个不同数据集上的实验表明,ID在性能上始终优于文献中使用的基于样本数量的重新加权和技术。此外,我们发现将ID与样本数量结合使用可以进一步提高性能。我们的代码和模型可在以下链接获取:
https://github.com/cagries/IDIM。
引言
基于学习的视觉识别容易受到训练数据集中类别间差异的影响。其中一个差异是各类别样本的数量(在文中简称为“类别数量”):数据集通常表现出类别数量的长尾分布[1]、[2]、[3]、[4],这促使人们使用类别数量作为各种不平衡缓解策略的度量指标[5]、[6]、[7]——参见图1(a)。
与学习动态更相关的另一个不平衡方面是类别的固有可区分性或学习难度[4]、[8]、[9]、[10]。尽管基于难度的度量方法更为成熟且有前景,但它们需要多个训练阶段,因为首先需要训练一个机器学习模型来量化类别间的不平衡[1]。
在本文中,我们介绍了一种基于数据内在维度(ID)的无模型、无样本数量的不平衡度量方法(见图1(c))。ID估计[11]、[12]、[13]是一个成熟的研究领域,旨在估计嵌入在高维空间中的低维数据流形的隐含维度。
我们首先证明了按类别计算ID可以揭示类别间的固有差异(例如,见图2)。对于给定的数据集,只需为每个类别计算一次ID即可。然后,我们将基于ID的度量方法整合到基于重采样、损失重新加权和支持调整的各种不平衡缓解策略中。接着,我们将基于ID的不平衡缓解方法与其他方法进行比较,并评估结合了ID的增强训练与最先进方法的效果。
为什么选择数据ID?流形学习理论表明,高维数据往往位于低维流形上[14]、[15]、[16]、[17]。我们的结果证实,在多类别数据集中,每个类别的数据流形都有特定的ID[18]。数据ID量化了这种真实维度。统计学习理论[19]指出,达到目标泛化误差所需的有效样本数量与(真实)数据维度成正比。因此,一个类别的数据ID——独立于其样本大小——可以作为建模该类别所需数据量的代理指标[12]。与仅依赖类别数量(完全忽略了数据的内在属性)相比,我们认为类别的ID能更好地捕捉数据的底层结构,从而提高不平衡缓解策略的鲁棒性,这一点我们通过实验得到了验证。此外,我们对ID估计的分析(第4节)表明,数据ID对样本数量、样本噪声和外维度的变化具有鲁棒性,这些特性正是我们期望从长尾数据分布的不平衡度量指标中获得的。
主要贡献。(1) 我们提出了一种基于数据ID的新的类别不平衡度量方法。我们认为这为类别不平衡研究提供了新的视角,因为它补充了基于样本数量和类别难度的现有度量方法。(2) 我们展示了基于ID的度量方法可以轻松集成到不同的不平衡缓解策略中。(3) 我们证明了基于ID的度量方法能够量化类别间的语义不平衡,这是基于样本数量的方法所无法捕捉到的。(4) 在不同的数据集上,我们报告了与使用类别数量作为度量方法相比的显著改进。例如,将数据ID纳入渐进式平衡采样中,准确性提高了(见图1(d)),而且几乎不需要额外的成本。
部分摘录
长尾视觉识别
长尾识别方法通过以下主要类别来缓解不平衡的影响:重采样方法[6]、[7]、损失重新加权方法[8]、[9]、[21]、[22]、边际(logit)调整方法[23]、[24]以及其他方法[25]、[26]、[27]。详细回顾见附录B.1,常见方法的正式定义见第5节。
FisherS:ID估计的背景
我们首先介绍我们使用的(数据)内在维度(ID)估计方法,即[29]中提出的FisherS方法,用于估计各个类别的ID。正如我们通过实验分析的那样,我们的方法和结论不依赖于具体的ID估计方法。
本质上,FisherS利用了维度优势的概念,即高维样本中的点可以通过线性不等式与样本集的其余部分区分开来
ID作为类别不平衡的度量
为什么选择基于ID的不平衡度量方法?类别不平衡分析和缓解方法需要量化类别间的不平衡程度。如引言中所讨论的,数据ID定义上提供了数据流形的真实维度(复杂性)的度量。统计学习理论[19]指出,达到目标泛化误差所需的有效样本数量与(真实)数据维度(复杂性)成正比。因此,一个类别的数据ID——独立于其样本大小——可以作为建模该类别所需数据量的代理指标[12]。与仅依赖类别数量的方法不同,后者完全忽略了数据的内在属性,我们认为类别的ID能更好地捕捉数据的底层结构,从而提高不平衡缓解策略的鲁棒性,这一点我们通过实验得到了验证。此外,我们对ID估计的分析(第4节)表明,数据ID对样本数量、样本噪声和外维度的变化具有鲁棒性,这些正是我们期望从长尾数据分布的不平衡度量指标中获得的特性。
实验与结果
数据集我们通过CIFAR-10-LT和CIFAR-100-LT、Places-LT以及ImageNet-LT数据集来评估我们的方法,这些数据集在长尾视觉识别研究中常用,还有语义不平衡的SVCI-20数据集。有关数据集的详细信息,请参见附录D.1。
评估指标与以往的研究类似,我们使用top-1分类准确率作为评估指标:,其中是验证集中的样本数量,是正确预测的样本数量。
训练与
结论
以往的研究通过依赖类别数量或训练多阶段复杂模型来解决不平衡问题。在本文中,我们提出了“数据内在维度(ID)”作为不平衡的另一种度量方法。我们展示了数据ID可以以无需模型、无需训练且独立于样本数量的方式衡量不平衡,使其在多种不平衡缓解方法中具有很高的实用性和灵活性。我们的实验表明,数据ID取得了与现有方法相当或更好的结果
CRediT作者贡献声明
Cagri Eser:撰写——审稿与编辑、撰写——初稿、可视化、软件、方法论、调查、形式分析。Zeynep Sonat Baltaci:撰写——审稿与编辑、软件。Emre Akbas:撰写——审稿与编辑、撰写——初稿、监督、项目管理、方法论。Sinan Kalkan:撰写——审稿与编辑、撰写——初稿、监督、项目管理、方法论。
利益冲突声明
作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:
Sinan Kalkan报告称设备、药品或物资由土耳其高等教育委员会提供。Emre Akbas报告称设备、药品或物资由土耳其高等教育委员会提供。如果还有其他作者,他们声明没有已知的利益冲突或个人关系。
致谢
本项工作得到了土耳其高等教育委员会研究大学支持计划的支持,作为中东技术大学(METU)的科学研究项目(“视觉识别新技术”,项目编号ADEP-312–2024-11485)。我们还要感谢METU-ROMER(机器人与人工智能中心)提供的计算资源。
Cagri Eser是一位资深计算机视觉工程师和机器学习研究员。他在中东技术大学(METU)获得了计算机工程学士学位和硕士学位。他的研究兴趣包括计算机视觉、深度学习和自动驾驶车辆,特别关注不平衡的多模态学习。