《Pattern Recognition》:Adversarial supervised contrastive feature learning for cross-modal retrieval
编辑推荐:
跨模态哈希中,现有方法存在特征相关性捕捉不足和二值相似性矩阵忽略多标签信息的问题。本文提出基于对抗监督对比学习的框架,利用预训练CLIP模型提取多模态特征,通过自注意力机制融合特征并引入对抗训练增强跨模态相关性,同时采用图卷积网络建模多标签语义关系,有效缓解语义鸿沟。
作者:徐新 | 郭一康 | 任守刚
单位:南京农业大学人工智能学院,中国南京
摘要
跨模态哈希方法由于效率高且内存消耗低,在信息检索领域引起了广泛关注。对比学习的最新进展显著提升了这些哈希技术的检索性能。然而,这些方法仍存在两个主要缺点:(1)大多数现有方法将多模态数据转换为统一的汉明空间以减少语义差距,但这可能无法捕捉到跨模态之间的强特征相关性;(2)语义相似性被表示为二进制值,忽略了多个标签之间的语义关系。为了解决这些问题,我们提出了一种新颖的对抗性监督对比特征学习方法用于跨模态哈希。具体而言,我们利用预训练的CLIP模型提取多模态特征,并应用对比学习来有效整合这些特征。此外,我们还引入了一种对抗性特征学习机制来增强不同模态特征之间的相关性。实验结果表明,我们提出的方法具有高效性和有效性。
引言
随着多媒体数据(包括图像、文本和视频)的爆炸性增长,跨模态检索变得越来越受欢迎。跨模态检索的目标是利用一种类型的数据作为查询,返回其他模态中的相关数据。一个典型的例子是图像-文本匹配,它旨在检索与给定图像最相关的文本,反之亦然。跨模态检索促进了各种下游任务的发展,如视觉问答[1]和视觉字幕生成[2]。
然而,跨模态检索面临重大挑战,因为来自不同模态的多媒体数据具有不一致的特征分布和表示。为了弥合这种异构性,一个直观的解决方案是学习一个共同的空域,将多模态数据投影到该空域中并比较它们的相似性[3]。文献中开发了许多基于实数值的共学习方法,这些方法在各种应用中展示了良好的效果。然而,使用实数值存储跨模态数据既占用大量内存,又降低了检索效率。
跨模态哈希(CMH)被引入以提高检索效率并减少存储需求。在这种方法中,通过离散哈希码来表示共同表示,从而利用XOR操作高效计算相似性。CMH大致可分为两类:无监督方法和有监督方法。无监督方法的主要目标是从数据中派生哈希函数。代表性方法包括跨媒体哈希[4]、跨视图哈希[5]、无监督深度跨模态哈希[6]以及具有模态交互的无监督跨模态哈希[7]。尽管这些方法简单易实现,但它们没有利用监督信息,导致学习到的表示缺乏清晰度和精确性。最近,已经开发了有监督方法,包括浅层学习方法[8]、[9]、[10]和深度学习方法[11]、[12]、[13]。
尽管跨模态哈希取得了显著进展,但仍有一些问题需要进一步研究。首先,现有的基于深度学习的跨模态哈希方法依赖于与模态无关的预训练模型来提取高级特征,这些模型无法捕捉不同模态特征之间的相关性。某些方法使用预训练的CLIP模型作为预处理步骤。然而,这些方法仅以无监督方式进行操作,可能导致性能不佳。其次,为了解决模态之间的差异,大多数现有方法使用相似性矩阵来确保相似样本彼此靠近,而不同样本相距较远。然而,这些方法主要利用类标签中的粗粒度语义,通常表示为二进制相似性矩阵,从而忽略了内在的多标签信息,限制了它们的有效性。此外,大多数方法使用线性投影将不同模态映射到共同空间,无法捕捉复杂的特征相关性。
为了克服上述挑战,我们提出了基于CLIP模型的对抗性相关学习方法用于跨模态哈希。首先,我们使用预训练的CLIP模型[14]提取特定模态的特征。由于CLIP模型是在大规模多模态数据集上训练的,我们期望提取的特定模态特征之间能够相互关联。然后,我们利用自注意力机制融合多模态特征以生成统一的哈希码。此外,我们采用图卷积网络来充分利用多个标签。实验结果表明,我们提出的方法有效且高效。
本文的其余部分安排如下:第2节总结了跨模态哈希的相关工作;第3节介绍了所提出的方法;第4节展示了实验结果;第5节给出了结论。
相关工作
相关工作
已有大量研究致力于解决跨模态哈希问题。这些方法大致可分为两类:浅层学习方法和基于深度学习的方法。
大多数浅层学习方法旨在学习一个联合的潜在汉明子空间,以关联不同模态的实例。这些方法的一个关键挑战是捕捉不同类型数据之间的相关性。Kumar和Udupa[5]提出通过保留某些信息来学习哈希码
符号说明
在介绍我们的方法之前,我们首先介绍一些符号。训练数据由对图像和文本组成,其中每对(xi, ti)与c个标签相关联,这些标签表示为c维二进制向量yi,如果(xi, ti)与第j个标签相关联,则yi(j)=1,否则yi(j)=0。监督标签矩阵表示为。
模型构建
本节介绍了我们提出的模型的详细信息。我们的方法包括两个部分
实验
在本节中,我们使用两个多媒体数据集MIRFlickr [41]和MS-COCO [42]来评估我们提出方法的有效性。此外,我们进行了两项跨模态检索任务:使用图像查询在文本视图中搜索相关文本(I2T)和使用文本查询在图像视图中搜索相关图像(T2I),以评估比较算法的检索性能。实验设置和结果在下面详细描述。
结论
在本文中,我们提出了一种新颖的监督对比特征学习框架用于跨模态检索。该方法将对比学习与对抗性特征学习相结合,有效捕捉不同模态之间的强相关性。此外,为了更好地弥合语义差距,我们引入了图卷积网络来显式建模标签相关性。整个框架可以端到端地进行训练。
CRediT作者贡献声明
徐新:撰写 – 审稿与编辑,形式分析。郭一康:撰写 – 原始草稿,调查。任守刚:形式分析,概念化。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
致谢
本工作得到了苏州大学计算机信息处理技术省级重点实验室(项目编号KJS2164)的支持。