基于历史可靠性的双重对比哈希算法，用于在标签存在噪声的情况下实现鲁棒的跨模态检索

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月01日 来源：Neurocomputing 6.5

编辑推荐：

　　跨模态哈希在噪声标签和模态差距共存时通过历史损失引导的标签可靠性估计和双对比学习模块提升检索鲁棒性，实验验证其优于现有方法。

王睿|黄海啸|彭立康|苏超|钟子杰|饶大|吴文远|彭德忠|王旭

四川大学计算机科学学院，成都，610065，中国

摘要

跨模态哈希作为一种有效的范式，通过将异构数据映射到紧凑的二进制代码中，实现了大规模多模态检索。然而，现有方法容易受到噪声标签的影响，而在现实世界中，由于众包、自动注释和人为错误，噪声标签非常普遍。标签噪声不仅会误导监督过程，还会加剧固有的模态差异，从而降低检索准确性和泛化能力。为了解决这些挑战，我们提出了一种名为“基于历史可靠性的双重对比哈希”（HRDCH）的新框架。具体来说，HRDCH引入了（1）一种基于历史损失的标签可靠性估计机制，该机制利用时间损失轨迹自适应地识别可靠的监督数据；以及（2）一种双重对比差距减小哈希模块，该模块将监督对比学习与无监督对齐相结合，以增强跨模态的语义一致性。这种联合设计有效地抑制了噪声标签的影响，同时缩小了模态差异。在四个基准数据集（NUS、MS-COCO、Flickr和IAPR）上进行的广泛实验表明，HRDCH在各种噪声比率和哈希代码长度下始终优于现有的最佳方法。特别是在极端噪声条件下，HRDCH表现出卓越的鲁棒性，显著提高了平均精度。这些结果突显了我们框架在鲁棒多模态检索方面的有效性和泛化能力。

引言

随着来自社交媒体平台、电子商务系统、监控网络和医疗档案等不同来源的多模态数据的爆炸性增长，跨模态检索信息的能力变得越来越重要[29]、[30]、[36]、[40]。与单模态检索不同，单模态检索中查询和目标共享相同的数据类型，而跨模态检索允许用户使用文本查询搜索图像，根据图像检索描述性文本，甚至结合异构模态以实现更丰富的交互。这些能力在许多实际应用中至关重要，包括多媒体搜索引擎、推荐系统和数字资产管理系统，这些系统同时需要效率、可扩展性和鲁棒性。

为了支持大规模检索，跨模态哈希已成为一种特别有效的范式。通过将异构数据编码到共享的汉明空间中的紧凑二进制代码中[2]、[18]、[19]、[22]、[33]，哈希不仅减少了存储开销，还允许通过轻量级的汉明距离计算进行高效的相似性搜索，使其非常适合Web规模的应用。与基于嵌入的其他方法相比，哈希在检索准确性、内存成本和计算效率之间提供了更好的平衡，这解释了其在多模态检索研究中的持续重要性。

早期的跨模态哈希方法依赖于带有手工制作特征的浅层架构，但其有限的表示能力往往在复杂的语义环境中限制了性能。深度跨模态哈希（DCMH）[8]、[12]、[32]、[33]、[39]的出现显著推进了这一研究领域的发展。通过端到端的方式联合学习特征表示和哈希函数，DCMH在可区分性和检索效率方面取得了显著改进。在此基础上，后续工作探索了多种优化目标：基于分类的损失以加强语义一致性，成对或三元组约束[4]以保持相对相似性结构，以及对比学习策略[32]以通过对齐语义相似的实例来减少模态差异。这些方法为跨模态哈希带来了显著的进步。

然而，在实际应用中仍然存在两个未解决的复合挑战。（1）标签噪声。在现实世界的数据集中，标签通常是通过众包、自动注释或手动标记获得的，这些方法不可避免地引入了噪声[1]、[35]。深度网络容易过度拟合这种损坏的监督数据，导致检索准确性的严重下降。（2）噪声下的模态差异。即使是轻微的标签损坏也会破坏跨模态的语义对齐，放大视觉和文本表示之间的内在异质性，限制了学习到的哈希代码的泛化能力（见图1）。在复杂的语义理解任务中，细粒度的语义建模本身仍然具有挑战性[47]。因此，一个鲁棒的跨模态哈希框架必须同时解决噪声监督和模态差异问题。

最近的研究探索了抗噪声的跨模态哈希[26]、[28]、[39]，采用了小损失样本选择、基于置信度的重新加权或自适应学习等策略来减轻损坏注释的影响。尽管这些方法在某种程度上提高了鲁棒性，但它们仍然面临关键限制：许多方法依赖于噪声比率的先验知识或假设特定的噪声类型（例如，对称噪声）；基于过滤的策略可能会丢弃有信息量的但难以处理的样本；大多数方法专注于噪声标签的缓解，而对模态差异的关注不足。因此，这些方法对于实际的多模态检索来说仍然不够充分，因为在实际应用中，噪声监督和模态差异通常同时存在并相互加剧。

为了解决这些挑战，我们提出了一种名为“基于历史可靠性的双重对比哈希”（HRDCH）的新框架，旨在在噪声监督下实现鲁棒的多模态检索。HRDCH的关键思想是将可靠性感知的学习与双重对比目标相结合，确保同时抑制噪声和实现模态对齐。具体来说，HRDCH包括两个互补的模块：（1）“基于历史损失的标签可靠性估计”（HLGRE），它利用时间损失轨迹自适应地评估标签的可靠性，从而充分利用干净和部分正确的标签，而无需对噪声特性进行先验假设；以及（2）“双重对比差距减小哈希学习”（DCGRHL），它将监督对比学习（由估计的可靠性指导）与无监督对比对齐相结合，以保持语义一致性并缩小模态差异，即使在严重的噪声情况下也是如此。通过这种联合设计，HRDCH动态调整其对噪声监督的依赖性，并在高度损坏的环境中保持对齐良好、具有区分能力的哈希代码。

总之，本工作做出了以下贡献：

1.
我们提出了HRDCH，这是第一个同时减轻噪声监督和模态差异的统一跨模态哈希框架。
2.
我们引入了一种基于历史损失的可靠性估计机制，该机制自适应地校准标签信号，避免依赖于先验的噪声知识或僵化的启发式方法。
3.
我们进一步设计了一个双重对比对齐模块，该模块利用可靠的监督和内在的跨模态结构，生成具有区分能力和鲁棒性的哈希代码。
4.
在四个广泛使用的多模态基准数据集上的广泛实验验证了HRDCH的优越性，显示出在不同噪声水平、代码长度和数据集上的一致最佳性能。

章节片段

跨模态哈希

跨模态哈希已成为大规模多模态检索的广泛采用的解决方案，因为它将异构数据映射到紧凑的二进制代码中，从而实现高效的存储和快速的相似性搜索。早期的方法依赖于浅层架构和手工制作的特征，这限制了它们捕捉复杂语义的能力。深度跨模态哈希（CMH）方法[8]、[12]、[32]、[33]、[37]、[39]通过联合学习特征表示和哈希函数，推动了该领域的发展

问题定义

我们关注在噪声监督下的跨模态检索问题，如我们的整体框架图2所示。训练数据集定义为

，其中

表示来自模态

的第

个样本（例如，图像和文本），而

是一个多热标签向量，覆盖了

个语义类别。由于数据集不可避免地包含噪声注释，

的某些条目可能会被损坏或丢失，从而给鲁棒表示学习带来额外的挑战。

我们的目标是学习两个

实验设置

数据集。为了全面评估我们方法的性能，我们在四个常用的跨模态检索数据集上进行了实验：

(1)

NUS-WIDE[3]（NUS）是一个包含269,648张图像的大规模网络图像数据集，这些图像被标注了255个语义概念。按照常见做法，我们选择了属于21个最常见类别的200,421对图像-文本对用于实验。

(2)

MS-COCO[21]（COCO）包含123,287张图像，每张图像都配有一句人类注释的描述性句子

结论

在本文中，我们介绍了基于历史可靠性的双重对比哈希（HRDCH），这是一个旨在解决噪声标签下跨模态检索挑战的鲁棒框架。HRDCH利用基于历史损失的标签可靠性估计来自适应地识别可靠的监督数据，而其双重对比学习模块结合了监督语义和无监督的结构对齐来减少模态差异。通过在对四个数据集的全面实验中

CRediT作者贡献声明

王睿：撰写 – 审稿与编辑，撰写 – 原始草案，可视化，验证，方法论，形式分析。黄海啸：调查，形式分析，数据管理。彭立康：资源，方法论。苏超：方法论，数据管理。钟子杰：可视化，验证。饶大：验证，数据管理。吴文远：可视化。彭德忠：监督，资金获取。王旭：监督，项目管理。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了中国国家自然科学基金（62306197）、四川省科技计划项目（2025ZNSFSC1507）、中国博士后科学基金（2021TQ0223, 2022M712236）和四川大学博士后联合培训计划（SCDXLHPY2307）的支持。

王睿毕业于电子科技大学，获得软件工程硕士学位。他目前正在四川大学计算机科学学院攻读博士学位。他的研究兴趣包括机器学习、多模态融合和多模态学习。

联系信箱：

粤ICP备09063491号

摘要

引言