《Neurocomputing》:Fine-grained image classification driven by Gaussian sampling and metric learning
编辑推荐:
本文提出基于高斯采样不确定性的三元损失函数TL-GSU,结合改进的BNNeck特征减少结构,有效提升细粒度图像分类精度,并在三个数据集上验证其优于传统方法。
徐颖|张德鑫|蔡大森
深圳大学机电控制工程学院,中国广东省深圳市月海街道,518060
摘要
三元组损失在分类任务中得到广泛应用,尤其是在细粒度图像分类中。然而,在细粒度图像分类过程中,简单三元组样本的比例较大,使用原始的三元组损失无法充分利用数据信息来更新网络参数。本研究提出了一种称为“具有高斯采样不确定性的三元组损失”(TL-GSU)的度量学习方法,旨在捕捉数据中的细粒度特征及其不确定性。具体而言,TL-GSU通过使用同一类别的另一个样本的数据分布(用多维高斯分布表示)来重新构建三元组损失框架。所提出的损失函数TL-GSU定义为经典三元组损失的期望值,其中锚点样本来自从训练集中派生的多变量高斯分布。此外,还提出了一种改进的特征降维结构,以降低细粒度视觉分类流程中的计算成本。所提出的TL-GSU在三个数据集上进行了全面验证:Stanford Cars、Stanford Dogs和CUB-200–2011。结果证明了该方法的有效性。
引言
图像分类是一个快速发展的研究领域,受益于各种卷积神经网络(CNN)的最新方法[1]、[2]、[3]、[4]。细粒度视觉分类(FGVC)[5]、[6]、[7]、[8]、[9]是从图像分类衍生出来的,它更具挑战性,因为它需要在同一基本类别(如柯基犬、哈士奇、贵宾犬等)下识别多个子类别。FGVC的核心挑战在于有效捕捉微妙的差异特征。主要的解决方案是度量学习方法。一方面,传统的度量学习方法[10]旨在学习样本在线性空间中的距离表示;另一方面,以三元组损失为代表的深度度量学习方法直接学习非线性特征。
度量学习最常见的形式涉及学习点之间的欧几里得距离或马氏距离[11],而源自度量学习的深度度量学习在近年来在计算机视觉领域表现出了出色的性能。该领域的代表性模型是三元组网络[12],其核心思想是使用距离来定义相似性。该模型通过学习三元组关系来完成分类或检索任务。这种模型的相似性约束最初是为签名验证[13]设计的。但同样的方法也被应用于各种任务的特征表示中,特别是在面部识别[14]、[15]、车辆或人员重新识别[7]、[8]、[9]、[16]、[17]、面部验证[18]、医学诊断[19]等领域。尽管这些方法取得了成功,但它们需要在训练数据中定义精确的相似性或距离,这给FGVC带来了劣势。
不确定性建模可以有效解决信息不完整的问题。在计算机视觉领域,一些方法通过条件随机场和粒子滤波[20]来构建不确定性。现有方法将特征空间中的每个训练样本视为一个固定点,因此没有考虑特征提取过程中的测量误差或噪声的影响[21]。如图1(a)所示,在经典三元组损失中,简单的负三元组情况会导致损失计算为零,无法提供区分两个不同类别的梯度。然而,向网络提供具有区分性的训练样本对于提高网络的学习能力非常重要[10]。如果不考虑相似样本的分布,并对所有类别采用相同的边界间隔,不仅不合理,而且在样本量较小时还会增加模型过拟合的风险。
此外,之前的深度度量学习研究没有统一的基准,不同的流程结构和训练技巧会夸大该方法的有效性。观察到这两个目标的目标并不一致,因为每个类别的特征分布在不同的子空间中。一些论文和开源项目中提出了有效的工作。Wen等人[22]通过联合训练softmax损失和对比损失,在分类任务上取得了优异的性能。Sohn等人[23]提出了N对损失,以充分利用训练批量处理中的上下文信息,其中N-1个负样本可以与正样本进行交互。Wang等人[24]提出了角度损失,通过建立角度约束而不是距离约束来构建正负样本对之间的角度关系。
本研究旨在探索不同样本对之间相对相似性的表征,从而最大化数据的利用。所提出的方法假设样本来自高斯分布,而不是固定样本,如图1(b)所示,实现了数据不确定性的建模。与传统方法不同,采用三元组采样策略可以批量采样这种组合,即使锚点位于同一类别样本分布的边缘,也能大大丰富数据的多样性。
总之,本文的创新点和贡献包括:
(1)我们提出了一种新的三元组损失函数,称为“具有高斯采样不确定性的三元组损失”(TL-GSU)。TL-GSU将锚点样本视为受数据集全局概率分布影响的概率分布。
(2)提出了一种基于BNNeck的流程,该流程在不同子空间中联合优化分类损失和排名损失。这种结构可以在保持准确性的同时实现特征降维。
(3)我们提出了一个改进的基准,为所有比较方法提供了一个相对公平的评估平台。实验表明,与经典三元组损失、N对损失和角度损失相比,所提出的方法在Stanford Cars、Stanford Dogs和CUB-200–2011数据集上获得了更高的模型预测准确性。
部分摘要
三元组损失
首先简要描述传统的三元组损失,一组训练图像用个类别表示,其中是每个图像对应的类别标签。在每次训练迭代中,采样一个包含个图像三元组的mini-batch集,表示为,其中是来自特定类别的锚点图像,与一对正和负图像相关联。理想情况下,对于每个锚点,它与任何不同类别的的距离应该大于...
提出的方法
在本节中,我们首先改进了基于BNNeck的网络结构以实现特征降维;其次,提出了一种名为“具有高斯采样不确定性的三元组损失”(TL-GSU)的新颖三元组损失变体,以改进传统的深度度量学习。在这种变体中,锚点不再是多维三元组嵌入空间中的特定点,而是从一组多变量高斯分布函数中采样的。
实验
进行了两项实验,以验证所提出的深度度量学习流程在三个公共基准数据集上的有效性。
1.实验1验证了所提出的降维结构的有效性,即带有PRelu激活函数的256维全连接层。
2.实验2验证了基于第3.1节提出的降维结构的具有高斯采样不确定性(TL-GSU)的三元组损失与其他方法的优越性。
结论
本文提出了一种用于FGVC任务的新损失函数和修改后的流程。首先,修改后的流程在骨干网络后添加了一个256维全连接层、PRelu激活函数和批量归一化层,将ResNet50提取的1024维特征降维到256维,从而降低了计算成本,同时保持了与ResNet50相当的效果;此外,它还解决了联合训练导致的损失函数冲突问题。
CRediT作者贡献声明
徐颖:撰写——审稿与编辑、验证、监督、项目管理、方法论、资金获取、正式分析、概念化。张德鑫:撰写——审稿与编辑、原始草稿撰写、可视化、方法论、调查、数据管理、概念化。蔡大森:原始草稿撰写、监督、方法论、正式分析、数据管理、概念化。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
徐颖1997年获得吉林工业大学控制工程学士学位,2005年和2009年分别获得吉林大学电气与计算机工程硕士和博士学位。自2013年以来,她一直在中国深圳大学的机电控制工程学院任教。她目前的研究兴趣包括智能控制、模式识别、车辆动态建模和智能助手。