用于无监督跨模态哈希的非对称簇相似性联合学习

《Neurocomputing》:Asymmetric cluster similarity joint learning for unsupervised cross-modal hashing

【字体: 时间:2026年02月27日 来源:Neurocomputing 6.5

编辑推荐:

  无监督跨模态哈希方法,通过聚类生成伪标签矩阵并分解为潜在语义特征,结合对称性相似度学习与共识表示优化,实现高效可扩展的跨模态检索。

  
作者:詹阳(Zhan Yang)、胡世坚(Shijian Hu)、孙龙志(Longzhi Sun)、郑云晓(Yunxiao Zheng)、尹卓英(Zhuoying Yin)、李一楠(Yinan Li)
中南大学大数据研究院,中国长沙,410083

摘要

跨模态哈希是一种有效的大规模多媒体检索解决方案,其优势在于响应速度快且存储成本低。尽管现有的监督学习方法已经取得了令人满意的效果,但它们对标注数据的依赖性导致了过高的计算开销,从而限制了实际应用。为了解决这一问题,我们提出了一种新颖的ACSCH(Asymmetric Cluster Similarity Joint Learning)架构,用于无监督的跨模态哈希。该架构将聚类学习、融合表示分解和不对称语义哈希整合到一个统一的框架中,无需依赖标签监督。首先,ACSCH通过典型相关分析(Canonical Correlation Analysis)学习不同模态之间的共同潜在表示,并通过聚类生成伪标签。随后对伪标签矩阵进行分解,以获取样本的潜在语义特征,这些特征用于指导共识表示的学习。此外,通过构建一个不对称哈希学习框架,将共同表示和伪标签矩阵关联起来,从而提高生成哈希码的区分能力。在三个基准数据集上的广泛实验表明,ACSCH的性能与最先进的方法相比具有竞争力,分别在平均mAP上提高了6.85%、3.06%和7.44%,展现了高效且可扩展的跨模态检索能力。

引言

多模态数据的普遍存在给传统信息检索方法带来了重大挑战。在这种背景下,跨模态检索成为一项关键任务,它使模型能够跨不同领域进行语义关联[1]、[2]、[3]。然而,弥合异构模态之间的语义差距仍然是一个主要障碍,此外,存储空间开销和检索时间成本也是需要考虑的问题。作为解决方案,跨模态哈希(CMH)[4]、[5]、[6]旨在将来自不同模态的数据映射到一个共同的汉明空间中,通过紧凑的二进制代码实现高效检索。
现有的CMH方法可以根据语义标签分为监督学习[7]、[8]、[9]和无监督学习[10]、[11]、[12]。监督学习方法通过利用标注信息来保持模态间的语义一致性,取得了显著成果,但需要大量高质量的标签,而这些标签通常难以获取且成本高昂。另一方面,无监督学习方法不依赖于标注数据,但存在语义理解有限的问题,导致区分能力不足和二进制代码质量不佳。然而,在现实世界中,大多数数据都是未标注的,因此无监督方法在大规模场景中更为实用。
K均值聚类[13]、[14]、[15]因其简单性和有效性而受到关注,它根据相似性指标将数据分组到K个预定义的簇中。通过迭代地将点分配到最近的质心并更新质心以最小化簇内方差,K均值聚类能够在没有监督信息的情况下识别潜在的组,不仅突显了无监督学习处理大量非结构化数据的能力,也为定量学习和集成方法提供了基础,体现了其在现代数据驱动研究中的持久相关性。
因此,基于聚类的无监督哈希提供了一种有效的方法,可以直接从未标注数据中揭示潜在模式和语义关系。与依赖手动标注样本的监督方法不同,无监督方法使模型能够自主推断数据分布中的内在相关性,支持语义发现和数据探索等广泛应用。在跨模态检索的背景下,这一特性尤为重要,因为无监督CMH在标签成本过高或不可行的实际场景中更具可扩展性和适应性。然而,尽管现有的无监督CMH方法取得了令人鼓舞的进展,但仍存在几个关键挑战限制了检索性能,尤其是未能充分利用本可以提供强大伪监督信号的潜在语义结构。
为了解决监督学习和无监督学习方法的局限性,本文提出了一种新颖的ACSCH(Asymmetric Cluster Similarity Learning)策略,用于无监督的跨模态哈希。其核心思想是通过聚类生成语义监督,而不是依赖真实标签。首先,多模态特征通过典型相关分析(CCA)[16]投影到一个共同的潜在空间中。
接着,利用聚类生成伪标签矩阵,然后对其进行分解以提取实例的潜在语义信息。同时,将这些特征与原始特征对齐,从而学习能够捕捉模态不变语义的共识表示。为了弥合连续表示和二进制代码之间的差距,我们采用了量化感知的目标函数,并实施了信息论约束(如位平衡和独立性),整个过程被构建为一个联合优化问题。与依赖固定伪标签或硬聚类的现有基于聚类的哈希方法不同,我们提出了一个利用分解伪监督的无监督跨模态哈希框架。主要贡献如下:
  • 我们提出了一种簇级相似性构建策略,以替代不稳定的实例级估计,从而产生更可靠的伪监督信号,抵抗噪声和模态特定变化。
  • 我们将伪标签矩阵分解为表示样本隐藏语义的潜在因子矩阵,捕捉不同模态之间的丰富语义结构。
  • 我们开发了一个统一的学习框架,将聚类感知的语义结构整合到共识表示和哈希函数学习中,生成更具区分性和语义一致性的哈希码。
  • 本文的结构如下:第2节回顾哈希学习相关内容;第3节详细解释每个模块,进一步总结目标函数并优化训练过程;第4节将ACSCH与最先进方法进行对比,并通过消融研究评估其有效性;第5节总结结论。

    相关工作

    相关研究

    为了在低存储成本和快速响应的时间内弥合大规模多模态数据之间的语义差距,跨模态哈希成为了一种有前景的解决方案,它旨在学习一种紧凑的二进制表示,以实现高效且可扩展的跨模态检索。此外,CMH可以分为监督学习方法和无监督学习方法。

    符号说明

    数据集包含种模态,其中表示模态的维度,表示实例数量。假设实例最终被映射到汉明空间中的哈希码,保留语义关联,表示哈希码的长度。此外,矩阵和向量分别用粗体和斜体字母表示。表示的转置,tr()表示迹。主要符号列在表1中。

    核化

    采用RBF核函数进行映射

    数据集

    为了全面评估提出的ACSCH的性能,我们在三个基准数据集上进行了跨模态检索任务实验:IAPR-TC12[52]、MIRFlickr[53]和NUS-WIDE[54]。对于IAPR-TC12数据集,训练集包含18,000对图像-文本对;对于MIRFlickr数据集,随机选择了18,015对图像-文本对作为训练集;对于NUS-WIDE数据集,指定了10个公认的概念作为训练集和测试集。

    结论

    本文提出了一种创新的跨模态哈希聚类相似性学习框架,该框架利用CCA将异构数据整合到一个统一空间中,进一步通过聚类生成伪标签,并将相应的矩阵分解为潜在语义因子。为了提高模型的区分能力,基于伪标签矩阵和共识表示建立了不对称哈希学习架构,从而提高了模型的性能。

    CRediT作者贡献声明

    詹阳(Zhan Yang):撰写 – 审稿与编辑、撰写 – 原始草稿、可视化、软件、资源、方法论、研究调查、资金获取、概念化。胡世坚(Shijian Hu):撰写 – 审稿与编辑、撰写 – 原始草稿、监督、软件、方法论、研究调查、概念化。孙龙志(Longzhi Sun):验证、监督、研究调查、形式分析。郑云晓(Yunxiao Zheng):撰写 – 审稿与编辑、软件。尹卓英(Zhuoying Yin):监督、资源、方法论、资金获取。

    利益冲突声明

    作者声明他们没有已知的财务利益或个人关系可能影响本文的研究工作。

    致谢

    本研究部分得到了湖南省自然科学基金(2025JJ40057)和中国国家自然科学基金(62202501)的支持。
    詹阳于2020年在中国长沙的中南大学获得计算机科学与技术博士学位。他目前是中南大学大数据研究院的副教授,研究兴趣包括多媒体检索、计算机视觉和模式识别。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号