随着移动互联网和移动设备的快速发展,社交媒体、电子商务和数字医疗等领域每天都会产生大量的图像数据。这种指数级的增长提供了丰富的信息资源,同时也对大规模图像的高效存储、管理和检索提出了严峻挑战。在这种背景下,深度哈希技术因其低存储成本、快速查询速度和高计算效率而成为大规模图像检索领域的重要研究方向(Rane, Paramesha, Choudhary, Rane, 2024; Wang, Liu, Kumar, Chang, 2015)。其主要目标是将高维图像特征映射到紧凑的二进制汉明空间中,同时最大限度地保留原始数据的语义相似性结构,从而在检索准确性和效率之间取得平衡(Lu, Zheng, Li, 2016; Qin, Xie, Zhang, Wang, Huang, 2023b; Rodrigues, Cristo, Colonna, 2020; Zhao, Huang, Wang, Tan, 2015)。
一般来说,哈希方法可以分为两大类:浅层哈希和深度哈希。浅层哈希依赖于手动设计的特征和预定义的映射函数来生成紧凑的二进制代码(Cui, Zhu, Li, Yang, Nie, 2019; Zhang, Chen, Saligrama, 2016),代表性的方法包括谱哈希(SH)(Weiss, Torralba, & Fergus, 2008)、迭代量化(ITQ)(Gong, Lazebnik, Gordo, & Perronnin, 2012)和局部敏感哈希(LSH)(Jafari, Maurya, Nagarkar, Islam, & Crushev, 2021)。然而,这些方法在捕捉复杂语义结构方面存在局限性,因此处理高维图像数据的效率较低。近年来,深度学习的进步展示了神经网络在图像特征提取方面的强大表示能力(Han, Qin, Zhang, & Huang, 2025)。越来越多的研究人员将特征提取和哈希编码整合到一个统一的端到端框架中,显著提高了生成哈希码的区分性和鲁棒性(Cheng, Qin, Zhang, Huang, Nie, 2025; Huo, Qin, Dai, Wang, Zhang, Huang, Wang, 2024a; Huo, Qin, Zhang, Huang, Nie, 2024c; Luo, Wang, Wu, Chen, Deng, Huang, Hua, 2023)。根据训练过程中是否利用语义标签信息,深度哈希方法还可以进一步分为监督学习和无监督学习(Deng, Yang, Liu, Li, Liu, Tao, 2019; Yang, Lin, Chen, 2017)。无监督哈希通常通过利用内在数据结构或关系(例如重建误差)来学习哈希函数,但它无法捕捉高层次的语义信息。相比之下,监督哈希有效地利用图像类别标签等语义信号来指导模型学习更具区分性的二进制表示,在复杂场景下显著提高了检索性能(Cheng, Qin, Zhang, Huang, & Nie, 2026)。代表性的经典监督哈希方法包括二进制重建嵌入(BRE)(Kulis & Darrell, 2009)、最小损失哈希(MLH)(Norouzi & Blei, 2011)和带核的监督哈希(KSH)(Liu, Wang, Ji, Jiang, & Chang, 2012)。因此,本文优先考虑使用监督深度哈希方法来实现高效准确的大规模图像检索。
在深度哈希任务中,通常采用三元组损失函数来指导具有语义区分性的二进制表示的学习,通过强制锚点正样本和锚点负样本对之间的相对距离约束(Shen, Chen, Liu, Zheng, Sun, Pan, 2024a; Song, Li, Long, Wang, Ling, 2018b; Zhou, Qin, Hou, Dai, Huang, Zhang, 2024)。然而,这种方法遇到了两个关键限制:一方面,三元组空间的规模呈组合爆炸式增长,为O(n^3),而在每次训练迭代中,小批量内只能访问到O(b^3)(其中b远小于n)的三元组,这远远不足以捕捉全局语义结构(参见3.3.1节(Shen et al., 2023);另一方面,大部分采样到的三元组提供的区分信息有限。即使采用增加批量大小和硬采样或半硬采样等先进采样技术,优化过程仍然缓慢,训练效率也较低(Movshovitz-Attias, Toshev, Leung, Ioffe, & Singh, 2017)。为了克服这些挑战,将基于代理的学习方法引入到监督哈希中作为一种有效机制。通过用一组紧凑的代表性代理来表示语义相关的样本组,这种机制提供了一个更加结构化且可扩展的优化空间,从而在大规模和复杂的语义约束下实现高效监督(Shen, Wu, Wang, Zheng, 2024b; Tu, Mao, Ji, Wei, Huang, 2023a)。图1展示了所提出的DNCPH框架的动机。所提出的基于邻域的组件代理损失(NCP损失)将优化空间重构为一个紧凑且语义一致的代理空间,从而实现更稳定的收敛,并缓解了传统基于三元组的方法在大规模多媒体检索中遇到的性能瓶颈。
受此启发,我们提出了一种新的深度哈希框架,称为基于邻域的组件代理哈希(DNCPH),用于生成既具有语义区分性又具有计算效率的紧凑二进制代码,如图2所示。具体来说,该框架包括两个核心模块:特征提取和哈希学习。对于特征提取,使用预训练的卷积神经网络(CNN)架构来获取具有深度语义信息的图像特征。对于哈希学习,设计了基于邻域的组件代理损失(NCP损失),通过引入可学习的代理来重构代理空间中的三元组计算,从而实现更稳定和高效的优化。此外,理论证明该损失函数是三元组损失的一个紧上界,并且实证表明,随着训练的进行,这个上界的紧密度会逐渐提高,进一步验证了使用NCP损失来优化原始损失的有效性。
总结来说,本文的主要贡献如下:
•首先,通过将基于代理的表示机制嵌入到语义邻域空间中,我们提出了一种新的端到端深度哈希框架,称为基于邻域的组件代理哈希(DNCPH),该框架能够有效捕捉复杂的多标签语义相关性,并构建紧凑且具有区分性的二进制嵌入。
•其次,通过引入一组可学习的代理来近似原始数据点的分布,设计了基于邻域的组件代理损失(NCP损失),以重新定义代理空间中的三元组损失优化,显著提高了哈希学习过程的稳定性和效率。
•第三,我们严格证明了所提出的NCP损失是三元组损失的一个紧上界,并且进一步分析表明,随着训练的进行,这个上界的紧密度会逐渐提高,为基于代理的优化机制的有效性提供了强有力的理论支持。
•最后,在包括MIRFLICKR-25K、NUS-WIDE和MS-COCO在内的三个公共图像检索数据集上进行的广泛实验表明,所提出的DNCPH框架始终优于现有的深度哈希方法。
本文的其余部分安排如下。第2节简要回顾了代表性的哈希方法,包括监督学习和无监督学习方法。第3节介绍了我们提出的DNCPH框架,包括特征提取和哈希学习。第4节展示了在三个基准数据集上的实验结果,证明了我们的DNCPH的优越性。最后,第5节总结了本文并讨论了未来的研究方向。