《Computer Vision and Image Understanding》:ADuLTS: Appearance Descriptions under Long-Tailed Scenarios with diverse synthesized images
编辑推荐:
长尾分类、少数类样本不足、大语言模型生成描述、Stable Diffusion图像合成、CLIP过滤优化、联合对比学习训练、长尾场景性能提升
作者:SeungJu Cha、Seunghee Choi、Kwanyoung Lee、Dong-Jin Kim
韩国汉阳大学,王西姆尼路(Wangsimni-ro),首尔04763
摘要
与ImageNet和CIFAR这样的类别平衡的数据集不同,现实世界的数据通常呈现出不平衡的分布特征:大多数图像样本集中在少数几个主要类别中,而少数类别仅占数据的一小部分。如果使用这种不平衡分布的数据训练现有的图像分类模型,训练结果可能会偏向于主要类别。最近,使用平衡数据集的监督对比学习(SCL)方法在图像分类领域取得了有效的成果。然而,当将SCL应用于数据不平衡的图像分类模型时,由于缺乏少数类别的表示,分类性能会下降。随着生成模型合成逼真图像技术的成功发展,为了解决少数类别的表示不足问题,我们提出了“长尾场景下的外观描述”(ADuLTS)方法,该方法利用预训练的大型语言模型(LLM)来生成少数类别的样本。通过让LLM描述每个类别的语义外观,我们合成了新的图像以缓解样本短缺的问题。此外,我们提出了一种简单而有效的联合训练网络,在使用我们的平衡数据集(包含真实图像和生成图像)进行训练时,可以减少特征分布的差异。我们的方法在长尾场景下显示出明显的分类性能提升,尤其是在CIFAR10-LT、CIFAR100-LT和mini ImageNet-LT中样本较少的少数类别上。
引言
深度神经网络的进步推动了图像分类领域的广泛研究,在ImageNet等大规模数据集上取得了显著进展(Deng等人,2009年)。与通常类别分布均匀的大规模数据集不同,现实世界的数据集(Lin等人,2014年;Van Horn等人,2018年)往往遵循“长尾”分布。这种分布的特点是:主要类别的数量较少但样本数量较多,而少数类别的数量较少且样本数量极少。这种类别不平衡反映了现实世界数据的自然变异性和多样性,给图像分类带来了独特的挑战。特别是在数据集具有长尾分布的情况下训练传统分类模型,往往会导致结果偏向于主要类别(Gao等人,2023年)。这种偏见会导致少数类别的分类性能下降,因为主要类别的大量样本主导了模型的学习过程。
以往的方法提出了重加权(Lin等人,2017年;Cao等人,2019年;Ren等人,2020年)和重采样(Buda等人,2018年;Byrd和Lipton,2019年;Pouyanfar等人,2018年)等方法来应对不平衡数据导致的性能下降。然而,这些方法可能会对少数类别过拟合,从而影响模型的泛化能力。这是因为这些方法旨在最小化不平衡数据对模型的影响,而不是从根本上解决“数据不平衡”问题本身。
最近,利用监督对比学习(SCL)(Khosla等人,2020年)在传统分类任务中提升了性能。尽管监督对比学习在传统分类任务中的表现优于仅使用交叉熵损失的方法,但直接将SCL应用于不平衡数据集会显著降低长尾分类的性能(Cui等人,2021年),因为少数类别的特征不足。尽管有一些研究试图通过修改SCL损失本身来解决SCL带来的挑战(Cui等人,2021年;Zhu等人,2022年;Wang等人,2021年),但这些方法仅对样本进行简单的增强处理(如翻转、调整大小或颜色抖动)。然而,这些通过简单增强方法合成的样本仍然缺乏多样性,限制了少数类别的特征泛化能力。
在本文中,为了增加少数类别的样本数量以获得多样化的特征用于SCL,我们使用了最新的生成模型(Rombach等人,2022年)来创建高保真度的图像样本。我们的工作受到了最近一项研究的启发(Sar?y?ld?z等人,2023年),该研究表明合成数据可以在一般的图像分类任务中替代真实数据。尽管Sar?y?ld?z等人(2023年)的研究表明用合成数据替代平衡数据集具有潜力,但利用合成数据来补充更真实数据集的有效性仍然相对较少被探索。在本文中,我们特别研究了这一点,尤其是在少数类别样本不足的长尾分类任务上。我们通过实验发现,在训练过程中简单地将生成图像和真实图像结合使用只能带来微弱的性能提升,主要是由于特征分布的差异。此外,我们还发现利用SCL可以缩小合成图像与真实数据之间的特征分布差异,扩大少数类别的特征表示范围。
在这项工作中,我们提出了一种专为长尾分类设计的新型图像合成方法。需要注意的是,使用能够准确描述所需图像外观的细节提示可以提高生成质量(Li等人,2023年),我们利用了“长尾场景下的外观描述”(ADuLTS)来生成高度多样化和语义上有意义的图像。具体来说,我们设计了问题模板来指导GPT-3(Brown等人,2020年)生成多样化的描述。接下来,我们将这些描述作为Stable Diffusion(Rombach等人,2022年)的输入提示来生成图像。为了收集与每个类别具有更好语义对齐的高质量图像,我们进一步应用了基于CLIP的过滤方法,该方法利用了CLIP的零样本分类能力(Radford等人,2021年)。由于真实图像和合成图像之间的分布相似性,这些高质量图像带来了更好的分类性能(Yuan等人,2023年)。为了弥合真实图像和合成图像之间的差距,我们引入了一种联合训练方法,使生成图像的特征分布与真实样本对齐。具体来说,我们提出了一个由对比学习分支和分类分支组成的双分支框架。我们使用监督对比学习来最小化生成图像和真实图像之间的特征分布差异,确保有效的特征表示学习。对比学习调整了特征分布,而分类分支则细化了类别边界,提高了对少数类别的泛化能力。
我们的贡献可以总结如下:首先,我们提出了一种新颖的图像生成方法,用于在训练数据集中丰富少数类别图像的特征,该方法利用了预训练的GPT-3和Stable Diffusion(Rombach等人,2022年)。特别是,我们定义了一组专门用于长尾问题的外观描述。其次,为了收集具有语义特征的高质量图像,我们设计了一种基于CLIP的过滤方法。第三,我们提出了一种简单的训练方法,该方法利用了传统的监督对比学习(SCL)(Khosla等人,2020年),减少了真实图像和合成图像之间的特征差异。最后,通过广泛的实验和消融研究,我们证明了在SCL训练过程中结合合成图像和真实数据的有效性,在CIFAR10-LT、CIFAR100-LT和mini ImageNet-LT等长尾场景下取得了显著的性能提升。
部分内容
长尾分类
在长尾场景中,以往的方法通常采用重加权(Lin等人,2017年;Cao等人,2019年;Ren等人,2020年)和重采样(Buda等人,2018年;Drummond等人,2003年;Byrd和Lipton,2019年;Pouyanfar等人,2018年;Van Hulse等人,2007年)等技术来提升性能。重加权策略涉及修改损失函数,以解决少数类别样本不足的问题,为这些类别分配更高的权重,而为主要类别分配较低的权重。
提出的方法
我们的方法包括两个主要阶段:图像生成和联合训练。这两个阶段分别如图1和图2所示。首先,在图像生成阶段,我们使用GPT-3(Brown等人,2020年)和问题模板生成外观描述,以利用关于每个对象的大量知识。然后,我们使用这些描述作为Stable Diffusion(Rombach等人,2022年)的输入提示来合成多样化的图像。
数据集
CIFAR10-LT & CIFAR100-LT。原始的CIFAR10和CIFAR100数据集包含50,000张训练图像和10,000张验证图像。所有图像的分辨率为32 × 32。CIFAR10-LT和CIFAR100-LT是CIFAR10和CIFAR100的子集,应用了不平衡因子。该超参数用于设置长尾数据集中的样本最大数量和最小数量。设置不平衡因子后,数据集中的样本数量发生了变化。
结论与局限性
结论。在这项工作中,我们解决了将监督对比学习应用于长尾场景的挑战。为了弥补少数类别的表示不足,我们使用生成图像来平衡数据集。我们引入了ADuLTS方法,该方法生成具有多样化语义特征的提示,指导Stable Diffusion生成逼真的图像。此外,我们应用了基于CLIP的过滤方法来去除降低分类性能的噪声图像。最后,我们开发了一种联合训练方法。
CRediT作者贡献声明
SeungJu Cha:可视化、概念化、写作——审阅与编辑、方法论、初稿撰写、调查。
Seunghee Choi:写作——审阅与编辑。
Kwanyoung Lee:写作——初稿撰写、监督、审阅与编辑。
Dong-Jin Kim:写作——审阅与编辑、监督。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文的研究结果。
致谢
本研究部分得到了信息与通信技术规划与评估研究所(IITP)的资助,该研究所由韩国政府(MSIT)资助(项目编号:RS-2020-II201373,汉阳大学人工智能研究生项目),以及韩国国家研究基金会(NRF)的资助(项目编号:RS-2025-00558449)。