用于鲁棒跨模态检索的最优传输滤波方法:支持开放集噪声标签
《Pattern Recognition》:Optimal Transport Filtering for Robust Cross-Modal Retrieval with Open-Set Noisy Labels
【字体:
大
中
小
】
时间:2026年03月05日
来源:Pattern Recognition 7.6
编辑推荐:
跨模态检索在开放集噪声标签下的鲁棒性优化,提出OTS框架结合DRL强化学习模块与OTF最优传输过滤模块,通过语义中心亲和力分析区分闭合集与开放集噪声,有效提升多模态数据检索性能。
Xinliu Liu|Ruitao Pu|Yuan Sun|Yingke Chen|Shudong Huang|Dezhong Peng|Yongsheng Sang|Ziming Wang
四川大学计算机科学学院,成都,610065,中国
摘要
随着互联网的快速发展,跨模态检索(CMR)因其能够连接不同模态而受到越来越多的关注。大多数现有研究假设数据注释是完全准确的,但在实践中这种情况很少见,因为人类非专家和机器注释往往都会引入噪声标签。为了减轻标签噪声的影响,已经提出了各种鲁棒学习方法,并取得了有希望的结果。然而,这些方法通常是在封闭集假设下开发的,即噪声样本仍然位于已知的标签空间内。在现实世界场景中,噪声样本可能来自未见的类别,这被称为开放集噪声标签,在这种情况下,现有方法往往失败。为了解决这一挑战,我们提出了一种名为“具有开放集噪声标签的最优传输过滤(OTOS)”的新CMR框架。具体来说,引入了一个判别强化学习(DRL)模块来增强实例级别的区分能力并减少多模态异质性,而最优传输过滤(OTF)模块利用几何距离有效识别干净样本、封闭集噪声和开放集噪声。此外,为不同类型的实例设计了专门的学习策略,以充分利用封闭集和开放集数据中包含的信息。在三个基准数据集上的广泛实验表明,OTOS在处理具有开放集噪声标签的多模态数据时表现出色。
引言
在最近几十年中,互联网的广泛普及导致了包括图像、文本和音频在内的多种形式的多模态数据的快速增长。为了实现跨模态的有效信息检索,出现了大量关于跨模态检索(CMR)的研究[1]。在现有的CMR方法[2]、[3]、[4]、[5]中,通过额外的语义信号辅助的监督式跨模态检索可以更有效地对齐跨模态表示,从而强制不同模态之间的一致性和区分结构。相比之下,无监督方法主要依赖于数据的内在语义结构,无需外部指导即可隐式发现跨模态相关性。由于存在明确的语义监督,监督方法可以学习更具区分性和语义对齐的表示,最终实现更好的检索性能。然而,监督方法的性能严重依赖于所有注释都是准确的假设。在实践中,生成精确的注释既费力又耗时。为了缓解这个问题,一种常见的替代方法是使用机器生成的标签[6],但这不可避免地会引入标签噪声。此外,已经证明噪声标签会显著降低深度网络的性能[7]。因此,开发能够从噪声标签中有效学习的鲁棒CMR方法非常重要。为了减轻标签噪声的影响,许多研究探索了鲁棒学习机制,包括鲁棒损失函数[8]、噪声转换矩阵估计[9]、干净样本选择[10]和标签校准[11]。尽管这些方法在单模态场景中显示出有希望的结果,但它们不能直接扩展到有效地整合多个模态以处理CMR任务中的噪声标签。为此,跨模态社区也开始探索针对噪声标签的专门策略[12]、[13]、[14]。例如,NLCMR[12]引入了一个邻域对齐模块来学习鲁棒簇和一个邻域对比学习模块,通过配对和相邻实例来利用噪声样本中的信息。与NLCMR不同,RSHNL[14]采用了一种自定进度的调度策略,逐渐将简单/干净样本纳入训练,从而提高了消除噪声标签的鲁棒性。然而,几乎所有现有的鲁棒CMR方法都是明确或隐含地建立在封闭集假设之上,即噪声样本的真实标签仍然属于已知的标签空间,这在现实世界场景中往往不切实际。实际上,噪声样本可能来自以前未见过的类别。这些真实标签位于预定义标签空间之外的样本被称为开放集噪声样本。到目前为止,如何构建一个可以从开放集噪声标签中学习的CMR框架仍然是一个未解决的研究问题。这一困难源于几个关键挑战:1)开放集样本的存在可能会误导模型并阻碍基本跨模态模式的学习。2)模型不仅必须区分干净样本和噪声样本,还必须进一步识别来自未见类别的噪声样本,这大大增加了复杂性。3)从噪声样本中提取有用信息的同时防止错误传播到分布外的样本是一项艰巨的任务。总之,这些挑战使得在开放集噪声标签下的鲁棒CMR比在封闭集情况下要困难得多。
为了解决这些挑战,本文提出了一种名为“具有开放集噪声标签的最优传输过滤(OTOS)”的新CMR框架,该框架可以鲁棒地训练模型以处理开放集噪声标签。如图1所示,OTOS包括两个关键模块:判别强化学习(DRL)和最优传输过滤(OTF)。首先,为了增强不同实例之间的区分能力并减少多模态异质性差距,我们使用DRL来最大化相同实例的对齐并提高与不同实例的分离度。然后,OTF利用最优传输提供的几何意义上的距离来捕捉特征差异和分布模式,从而实现理论上有根据的高质量样本过滤。过滤后,OTF通过评估样本与语义重心之间的亲和力进一步区分封闭集噪声和开放集噪声。最后,所有封闭集实例都被鼓励与相应的语义重心对齐,而开放集实例则被明确地从所有已知重心中推开,以防止它们污染封闭集语义的学习。
总结来说,本文的主要贡献如下:
•我们提出了一种新的CMR框架,该框架能够在开放集噪声标签下鲁棒地学习紧凑且具有区分性的表示。据我们所知,这是首次尝试在开放集噪声标签设置下解决鲁棒CMR问题。
•我们提出了一种最优传输过滤(OTF)模块,该模块利用几何意义上的距离来捕捉特征差异和分布模式,从而有效区分干净样本、封闭集噪声和开放集噪声。
•我们通过在与九种最先进的CMR方法进行全面比较,实证验证了所提出的OTOS的有效性和优越性。
章节片段
具有噪声标签的跨模态检索
具有噪声标签的跨模态检索(CMRNL)旨在在不可靠的注释存在的情况下实现语义对齐并减少异质性差距。为此,CMR社区探索了几种鲁棒训练策略,包括鲁棒损失函数[13]、[14]、[15]、[16]、样本选择[14]和标签校准[18]。例如,MRL[15]引入了一种鲁棒损失函数,其中干净样本自然会产生较小的损失,而噪声样本
最优传输理论
最优传输(OT)旨在以最小的成本将一个概率分布转移到另一个概率分布。在这里,我们提供了OT的初步概述,这是后续技术的基础。关于OT的更全面讨论可以在[29]中找到。
给定是维度为d的概率单纯形。考虑两个质量分别为。它们的经验概率度量是
提出的方法
为了在开放集噪声标签设置下实现鲁棒的跨模态检索,我们提出了OTOS,这是一个能够有效区分干净样本、封闭集噪声样本和开放集噪声样本的框架。OTOS基于两个关键组件:判别强化学习(DRL)模块和最优传输过滤(OTF)模块。这些组件的详细信息将在以下部分中介绍。
数据集
为了验证我们提出的OTOS的有效性,我们在三个基准数据集上进行了广泛的实验,包括INRIA-Websearch [32]、Wikipedia [33]和XMedia [34]。此外,还提供了这三个数据集的简要介绍:
•INRIA-Websearch:该数据集包含超过70,000对图像-文本对。在我们的实验中,我们使用了包含14,698对、100个语义类别的子集。根据之前的工作[15],我们将其随机分为三个子集:
结论
在本文中,我们揭示并研究了一个在跨模态检索(CMR)社区中很少被探索但实际上非常重要的问题,即在开放集噪声标签下进行学习。为了解决这一挑战,我们提出了一种名为“具有开放集噪声标签的最优传输过滤(OTOS)”的新CMR框架,该框架包括两个关键模块:判别强化学习(DRL)和最优传输过滤(OTF)。具体来说,DRL模块增强了
手稿准备过程中生成式AI和AI辅助技术的声明
在准备这项工作时,作者使用了GPT来完善表达。使用该工具/服务后,作者根据需要审查和编辑了内容,并对已发表文章的内容负全责。
CRediT作者贡献声明
Xinliu Liu:项目管理、方法论、调查、形式分析、概念化。Ruitao Pu:写作——原始草稿、资源、方法论、调查、形式分析、数据管理、概念化。Yuan Sun:验证、监督、项目管理、方法论、调查、形式分析、概念化。Yingke Chen:概念化。Shudong Huang:形式分析、数据管理。Dezhong Peng:项目管理、资金获取,
利益冲突声明
作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:
如果没有其他作者,他们声明没有已知的财务利益或个人关系可能影响本文报告的工作。
致谢
本工作得到了中国国家自然科学基金(项目编号62372315)、四川省科技计划项目(项目编号2024ZDZX0004)和中央政府指导地方科技发展基金(项目编号2025ZYDF101)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号