探索标签共现度量与图对比学习方法，用于具有部分标签的多标签图像识别

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月13日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　多标签图像识别中，针对现有三元标签模型在特征提取和标签共现对齐上的不足，提出新度量方法和图对比学习，构建LCE模型，实验验证其有效性。

李浩成|杨志静|程宇|凌静|阮浩贤|卢永义

广东工业大学信息工程学院，中国广东省广州市510006

摘要

具有部分标签的多标签图像识别（MLR-PL）因其仅使用正确但有限的注释即可进行识别而受到了广泛的研究关注。在该领域中，基于三元标签的模型是现有MLR-PL方法的一个主要分支。三元标签表示每个类别的注释可以是三种状态之一：正面、未知或负面。尽管在这一分支上已经取得了一些进展，但目前的基于三元标签的MLR-PL模型仍然存在两个关键限制：它们无法在整个网络架构中实现显著的图像特征提取，并且缺乏对图像特征和标签共现的有效对齐。为了解决这些缺点，我们提出了一种新的标签共现度量和一种新的图对比学习方法。所提出的度量方法即使在标签分布不平衡的情况下也能准确且稳健地测量标签共现。所提出的图对比学习方法利用这种度量来构建相应的图，利用其拓扑结构作为监督信号，在端到端训练过程中对齐图像特征和标签共现。基于这些基础，我们引入了LCE（Label Co-Occurrence Exploring）模型，该模型集成了所提出的标签共现度量和图对比学习方法。LCE通过一系列模块成功地在其整个网络架构中提取了多级显著图像特征。在MS-COCO 2014和Pascal VOC 2007数据集上进行的广泛实验有力地证明了所提出的标签共现度量和图对比学习方法的有效性。

引言

多标签图像识别（MLR）具有丰富的应用，包括天气识别[1]、道路场景识别[2]和面部表情处理[3]。受到单标签图像识别发展轨迹的启发，现有的MLR方法[4]、[5]主要基于深度卷积神经网络[6]构建。尽管近年来取得了显著进展，但这些方法的有效性取决于能否访问大规模、无噪声的数据集。无疑，为每张图像收集正确且详尽的标签是一项耗时且劳动密集型的工作。这种固有的困难大大增加了构建大规模干净数据集的挑战，并提高了注释成本。相比之下，为每张图像获取正确但有限的标签是一个更可行的替代方案。具有部分标签的多标签图像识别（MLR-PL）正是为了解决高注释成本而设计的一种技术。在这里，部分标签（PL）指的是图像被标注为正确但不完整标签的数据集。图1提供了一个MLR-PL的示例。

从训练方法的角度来看，现有的MLR-PL方法可以分为非端到端MLR-PL模型和端到端MLR-PL模型。非端到端MLR-PL模型[7]、[8]通常通过解决各种优化问题来实现MLR-PL。然而，它们经常受到解决这些优化问题的难度限制，主要适用于小规模数据集。因此，最近的研究工作集中在设计支持大规模数据集和端到端训练的MLR-PL模型上。在端到端MLR-PL模型中，根据标签表示方式，现有方法可以进一步分为基于三元标签的模型和基于二元标签的模型。三元标签表示每个类别的注释可以是三种状态之一：正面、未知或负面。相比之下，二元标签将每个类别的注释限制为两种状态：正面或非正面。在基于三元标签的MLR-PL模型中，研究方向包括高质量伪标签生成[9]、[10]、损失函数设计[11]、[12]、标签校正方案[13]、[14]和提示学习[15]、[16]。与基于三元标签的MLR-PL模型相比，基于二元标签的MLR-PL是近年来的新兴方法[17]、[18]。与基于三元标签的MLR-PL模型类似，基于二元标签的MLR-PL模型的研究方向也包括损失函数设计。然而，基于二元标签的MLR-PL模型采用了不同的方法：一些模型[17]将未知状态视为负面状态，而其他模型[18]将负面状态视为未知状态。本文主要关注基于三元标签的MLR-PL模型。

尽管上述方法取得了一些进展，但仍存在几个限制。首先，现有方法[9]、[10]未能充分从输入图像中提取与标签相对应的显著图像特征。实证证据表明，图像特征的显著性不仅体现在像素级别，还体现在语义和上下文级别。然而，一些当前方法只能在模型的主干网络中提取与标签相对应的显著图像特征，无法在整个网络架构中有效实现这一点。其次，现有方法[4]、[13]在MLR-PL任务中未能充分利用标签共现。经验表明，由标签共现引导的信息传递可以显著提高模型性能。然而，一些现有工作 rigidly 利用从数据集标签分布中得出的统计信息来测量标签共现。此外，它们忽略了传递的信息特征和标签共现的对齐。这种忽视既忽略了标签共现度量的合理性，也忽略了图像特征和标签共现的一致性。

为了解决上述限制，本文提出了一种新的标签共现度量和一种新的图对比学习方法。具体来说，为了减轻标签分布对标签共现测量的不利影响，我们创新性地应用了余弦度量[19]。这种度量在对抗噪声的同时能够有效适应不平衡的标签分布。为了确保图像特征和标签共现的一致性，我们引入了一种基于余弦度量的图对比学习方法。该技术利用图的拓扑结构构建正对，从而在端到端训练过程中有效对齐图像特征和标签共现。基于这些基础，我们提出了一个名为LCE（Label Co-Occurrence Exploring）的基于伪标签的MLR-PL模型。通过使用ResNet[6]等模块，LCE模型在其主干网络和分支网络中实现了多级显著图像特征提取。同时，它通过所提出的余弦度量和图对比学习方法充分利用了MLR-PL任务中的标签共现。

方法

本节首先从集合论和几何学的角度详细阐述了标签共现及其一致性，然后介绍了所提出的标签共现度量和图对比学习方法及其重要性——这些内容都是基于这些视角的，并最终介绍了基于这些基础的LCE模型。主要符号及其描述列在图1中。

数据集和评估指标

为了进行实验评估，根据既定实践，所提出的LCE模型在MS-COCO 2014[34]和Pascal VOC 2007[35]数据集上进行了评估。MS-COCO 2014[34]数据集包含大约164K张图像，涵盖80个类别，分为训练集（约83K张图像）、验证集（约41K张图像）和测试集（约41K张图像）。Pascal VOC 2007[35]数据集包含大约10K张图像，涵盖20个类别，分为训练集（约5K张图像）和测试集（约5K张图像）

结论

为了解决现有基于三元标签的MLR-PL模型的两个关键限制，即无法在整个网络架构中提取多级显著图像特征以及缺乏图像特征和标签共现的对齐，我们提出了一种新的标签共现度量和一种新的图对比学习方法。基于这些创新，我们进一步引入了LCE模型，该模型能够在整个网络中提取多级显著图像特征

CRediT作者贡献声明

李浩成：撰写——原始草稿，方法论。杨志静：撰写——审阅与编辑，监督。程宇：研究。凌静：撰写——审阅与编辑。阮浩贤：撰写——审阅与编辑，方法论。卢永义：研究。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

相关文献

方法

数据集和评估指标

结论

CRediT作者贡献声明

利益冲突声明

热点排行