视觉投影与特征空间共享驱动的开放词汇多标签分类

《Pattern Recognition》：Feature Space Sharing via Visual Projector for Open-Vocabulary Multi-Label Classification

【字体：大中小】 时间：2026年03月03日 来源：Pattern Recognition 7.6

编辑推荐：

　　为解决开放词汇多标签零样本学习（ML-ZSL）中局部视觉特征利用不足的问题，研究人员提出了基于冻结视觉语言预训练（VLP）模型的轻量级框架VPFSS。该研究设计了局部视觉令牌提取和跨标签特征空间共享机制，在NUS-WIDE和MS-COCO数据集上验证了其在ZSL和GZSL设置下的有效性，为复杂场景下的多目标识别提供了实用方案。

在现实世界的图像理解中，一张图片往往包含多个物体和概念，这使得多标签图像分类至关重要。然而，当模型需要识别在训练阶段从未见过的新类别时，任务就变得更加复杂，这被称为多标签零样本学习（ML-ZSL）。更进一步，在广义零样本学习（GZSL）设置下，模型必须同时预测“已见过”和“未见过”的标签，这面临标签共现、类别不平衡、语义重叠以及需要细粒度局部特征建模等多重挑战。传统的基于语义嵌入的方法主要依赖文本对齐，常常未能充分利用关键的局部视觉信息。而近来基于视觉语言预训练（VLP）模型（如CLIP）的方法虽然展现潜力，但它们通常依赖知识蒸馏或多阶段训练流程，这不仅增加了训练复杂度，还可能使模型表示偏向于全局特征，从而削弱了对多标签识别至关重要的局部细节的捕捉。为了在开放词汇场景下实现更精准、更通用的多标签识别，探索一种既能保留预训练模型强大知识、又能有效建模局部视觉证据的轻量级框架，成为了模式识别领域的一个研究热点。为此，一项名为“通过视觉投影器进行特征空间共享以实现开放词汇多标签分类”的研究在《Pattern Recognition》上发表，旨在解决上述问题。

本研究主要应用了几个关键技术方法：首先，采用冻结的预训练VLP模型（CLIP的ViT-B/16）作为主干网络，以保留其强大的跨模态对齐知识。其次，设计了一个视觉令牌提取模块，该模块结合了轻量级多层感知机（MLP）投影和可变形DETR（Deformable DETR）编码器，旨在从空间特征中生成一组能够编码判别性局部模式的视觉令牌。最后，引入了一个特征空间共享机制，该机制基于相似度最大化，允许提取出的视觉令牌在不同标签间动态复用，从而支持高效的多标签预测和对未见类别的泛化。实验在两个基准数据集NUS-WIDE和MS-COCO上进行。

4.1. 实验数据集

研究在NUS-WIDE和MS-COCO两个公认的多标签图像数据集上进行了验证。NUS-WIDE数据集包含大量网络图片，本研究使用了其81个经过人工验证的标签进行评估。MS-COCO数据集包含80个对象类别，在零样本设置下，被划分为64个已见类别和16个未见类别，未见标签在训练阶段被排除。

4.2. 参数设置

实验使用预训练的CLIP模型（ViT-B/16视觉编码器）作为冻结主干。输入图像统一调整为224×224分辨率。训练使用AdamW优化器，批次大小为64。视觉令牌提取模块使用了196个查询（queries）和6个编码器层。

4.3. 实验对比

通过在NUS-WIDE和MS-COCO数据集上进行ZSL和GZSL评估，结果表明VPFSS框架一致性地超越了多种代表性基线方法。

在NUS-WIDE数据集上，如表2所示，在ZSL设置下，VPFSS在Top-3和Top-5预测的F1分数（分别为41.82%和39.87%）以及mAP（44.06%）上均取得了最佳性能，显著优于依赖知识蒸馏的MKT和近期方法TagCLIP。在更具挑战性的GZSL设置下，VPFSS同样保持了领先，其F1@3（22.69%）和mAP（20.45%）均高于对比方法，证明了其在平衡已见和未见标签预测方面的有效性。和的条形图直观展示了VPFSS相对于MKT在各项指标上的显著提升。

在MS-COCO数据集上，如表3所示，VPFSS在ZSL设置下取得了具有竞争力的F1分数（39.82%），在GZSL设置下则取得了所有对比方法中最高的F1分数（50.19%），展示了其在不同数据集和标签语义下的稳健泛化能力。

4.4. 消融研究

如表4所示，消融实验验证了VPFSS各个核心组件的贡献。移除MLP投影器会导致F1分数下降，表明其对于稳定跨模态对齐的重要性。将可变形DETR编码器替换为普通DETR编码器，导致ZSL性能（F1@3）从41.82%下降至37.45%，证明了可变形注意力机制在提取细粒度局部令牌方面的优势。移除特征空间共享（FSS）模块主要影响了GZSL性能，导致mAP和F1分数均有下降，凸显了该模块对于平衡已见和未见标签预测的关键作用。

4.5. 实验结果可视化

可视化分析进一步支撑了VPFSS的优势。如表5所示，与MKT相比，VPFSS在ZSL和GZSL任务中能够预测出更准确、更多样化的标签，例如能识别出MKT遗漏的“码头”、“树”等场景元素。此外，如图5所示的类激活图（CAM）可视化对比表明，CLIP产生的激活区域较为分散，而VPFSS提取的视觉令牌对应的激活则显著更集中于小丑鱼的身体轮廓、鳍部细节等判别性区域，这证实了VPFSS能够更有效地捕获细粒度的局部视觉特征。

该研究得出结论，所提出的VPFSS框架为开放词汇多标签分类问题提供了一个有效且实用的解决方案。其核心贡献在于通过解耦视觉令牌学习与标签匹配，建立了一个可复用的中间表示。视觉令牌提取模块（结合MLP和可变形注意力）能够捕获细粒度的局部视觉证据，而基于相似度的特征空间共享机制则允许这些证据在不同标签间动态分配。这种设计不仅减少了对知识蒸馏的依赖，简化了训练流程，还显著提升了对未见类别的泛化能力，特别是在平衡已见和未见标签预测的GZSL场景中表现突出。实验在多个数据集和评估协议下验证了该框架的优越性。

研究同时指出了当前方法的局限性，例如对于极小或被严重遮挡的物体，基于图像块（patch）的令牌建模可能无法捕获足够的判别性线索。此外，与大多数基于大规模VLP模型的方法一样，预训练数据的影响无法完全排除。展望未来，研究可以探索更高分辨率的令牌提取策略和自适应注意力机制，以更好地处理细粒度或遮挡对象，并将该框架扩展至开放词汇检测和弱监督多标签学习等相关任务。该工作强调了在开放词汇多标签识别中将表示提取与语义匹配分离的重要性，为构建更灵活、更通用的多标签识别系统提供了新的思路。

热点排行

新闻专题