用于大规模图像检索的深度四边形注意力哈希算法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Digital Signal Processing》：Deep Quadrangle Attention Hashing for Large-scale Image Retrieval

【字体：大中小】 时间：2026年03月24日 来源：Digital Signal Processing 3

编辑推荐：

　　动态四边形注意力机制与Householder量化策略提升图像检索性能，实验验证在MIRFLICKR-25K、NUS-WIDE和MS COCO数据集上显著优于现有方法。

张梦茹|秦启兵|侯金奎|黄磊|张文峰

中国日照曲阜师范大学计算机科学学院

摘要

在互联网快速发展的时代，图像数据的指数级增长需要高效且准确的检索方法。深度哈希作为一种多媒体检索技术应运而生，因为它具有存储效率和计算速度的优势。本文介绍了深度四边形注意力哈希（DQAH），这是一种新颖的深度哈希框架，旨在解决固定窗口视觉变换器（ViTs）在处理不同对象大小、形状和方向时的局限性。通过将传统的窗口注意力扩展到更灵活的四边形形式，DQAH动态调整窗口配置以捕获丰富的上下文信息，显著提升了特征表示和检索性能。此外，我们提出了霍斯勒离散量化策略，在保持语义相似性的同时最小化量化误差。在三个公共数据集上的广泛实验表明，DQAH的性能优于现有方法，在MIRFLICKR-25K数据集上的mAP值提高了10%，并在NUS-WIDE和MS COCO数据集上超越了竞争对手，无论哈希码长度如何。这项工作不仅推动了深度哈希领域的发展，还为大规模图像检索应用提供了实用的见解。

引言

随着互联网的快速发展，网络上的多媒体信息量呈爆炸性增长。面对这些海量数据，检索所需信息已成为一个重大挑战[1]、[2]。为了解决这个问题，一些研究人员提出了近似最近邻（ANN）算法，该算法迅速引起了广泛关注[3]。由于其在存储效率和计算性能方面的显著优势，哈希学习被广泛用于处理大规模数据[4]。哈希学习的主要目的是将高维数据映射到低维离散空间，同时保留原始特征空间中的语义信息[5]、[6]、[7]。

现有的哈希方法通常分为两类：监督哈希[8]、[9]、[10]、[11]和无监督哈希[13]、[14]、[15]。它们之间的根本区别在于训练过程中是否使用标记数据集。无监督哈希方法利用未标记的数据集来学习哈希函数并进行紧凑表示学习；而监督哈希方法则依赖于手动标记的数据来学习哈希函数。由于监督方法充分利用了外部标签信息，它们通常在需要准确捕捉语义关系的应用中表现更好[2]。在本文中，我们专注于监督哈希学习，以生成适合高效大规模图像检索的区分性二进制代码。

在哈希学习领域，卷积神经网络（CNN）因其处理复杂图像数据的强大能力而被广泛应用，并逐渐成为主流方法[16]、[17]。与传统的手工特征提取器相比，CNN不仅显著提升了特征学习性能，还通过端到端的方式优化了特征表示。研究人员使用CNN框架通过非线性函数将学习到的特征映射为紧凑的二进制代码[18]。通过集成设计的损失函数，整个网络通过反向传播得到进一步优化，从而提高了图像检索的效率。同时，2020年引入的视觉变换器（ViT）[19]因其卓越的特征提取能力而迅速获得广泛认可，并被广泛应用于各种视觉任务[20]、[21]、[22]、[23]。ViT的核心思想是将输入图像分割成固定大小的块，将这些块嵌入到一个序列中，然后使用变换器模块从序列中提取特征。这种方法有效地捕获了图像的全局语义信息，显著提升了图像检索等任务的性能。

由于卷积核和步长的限制，CNN更适合在特征学习过程中提取局部信息，但在捕获全局信息方面存在一定的局限性。此外，由于卷积核的大小是固定的[24]，CNN难以适应不同大小的图像。所提出的视觉变换器采用了全局自注意力机制，在视觉任务中表现优异。然而，随着输入图像大小的增加，其计算复杂性呈二次方增长，这对处理高分辨率图像构成了重大挑战。基于上述问题，研究人员提出了一种基于局部窗口的注意力机制，并通过分层设计进一步提升了ViT在视觉任务中的性能，例如Swin Transformer[25]，它将输入图像分割成多个不重叠的窗口。每个窗口独立执行自注意力机制，通过在不同层次引入滑动窗口操作来实现窗口之间的信息交互，从而捕获不同尺度的信息。这种方法有效降低了计算复杂性。然而，固定窗口设计可能限制了Transformer处理不同形状和大小图像检测目标的灵活性[25]、[26]、[27]、[28]。图1-(a)突出了手工制作窗口所带来的局限性。在每一层，窗口大小是固定的，只能捕获图像中对象的局部区域。尽管多层处理逐渐扩展了窗口的覆盖范围，但每一层的大小仍然有限，限制了模型灵活适应对象形状和大小的能力。相比之下，图1(b)展示了一个四边形窗口，它可以动态探索原始图像中检测对象的各种特征和语义结构信息。每个注意力头独立操作，使模型能够更有效地捕获对象的不同部分。总之，现有的哈希学习仍有进一步优化的空间。

为了解决这个问题，我们提出了一种新颖的深度哈希框架——深度四边形注意力哈希（DQAH），通过端到端的学习方式生成具有信息量和代表性的二进制代码。具体来说，该框架包括两个主要模块：四边形视觉变换器和目标函数，如图2所示。对于特征提取模块，四边形视觉变换器被设计为更灵活地提取图像特征，有效捕获原始图像中的长距离上下文信息并生成富含语义的特征描述符。在目标函数模块中，提出了霍斯勒离散量化策略，以确保生成的哈希代码具有更强的区分性，从而提高图像检索性能。

总体而言，本工作的主要贡献可以总结如下：

•

首先，通过基础窗口生成和四边形生成，将传统的窗口注意力扩展到更通用的四边形形式，并将其引入分层ViT框架中。通过学习图像特征，该机制动态调整四边形窗口的配置，从而高效捕获不同对象的上下文信息，显著提升特征表示并改进哈希检索性能。

•

其次，为了减少相似性学习与量化过程中的量化惩罚之间的相互作用，提出了霍斯勒离散量化策略，以提高生成二进制代码的可区分性。通过用霍斯勒矩阵参数化正交变换并确定最优变换，嵌入和二进制离散化共同优化，以确保二进制投影后的语义结构保持一致。

•

最后，在三个公共数据集（包括MIRFLICKR-25K、NUS-WIDE和MS COCO）上的全面实验表明，我们提出的方法在图像检索方面优于其他现有方法。

本文的其余部分如下。第2节简要概述了相关工作。第3节详细描述了DQAH的工作原理。第4节通过比较实验展示了DQAH框架的有效性。第5节给出了相关结论和未来工作方向。

章节片段

方法论

本节从两个方面详细总结了提出的DQAH框架：四边形视觉变换器和目标函数。

实验

为了评估DQAH框架的有效性，我们在三个大型数据集（MIRFLICKR-25K²、NUS-WIDE³和MS COCO⁴）上进行了广泛实验，将其图像检索性能与典型的深度哈希方法进行了比较。

结论与未来工作

在本文中，我们提出了一种称为深度四边形注意力哈希（DQAH）的深度监督哈希框架，它显著提升了图像特征提取能力并改善了图像检索性能。该模型包括两个模块：四边形视觉变换器和目标函数。在特征表示方面，DQAH利用四边形注意力机制自动从数据中学习四边形配置，从而更好地处理

CRediT作者贡献声明

张梦茹：确定想法、分析数据、实验、撰写-修订；秦启兵、侯金奎：提供指导观点、润色论文并进行全面评估；黄磊：指导论文和数据分析；张文峰：修订论文和实验指导。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。

联系信箱：

粤ICP备09063491号

摘要

引言

章节片段

相关工作

方法论

实验

结论与未来工作

CRediT作者贡献声明

利益冲突声明

热点排行