在CLIP和DINO框架中释放“最优头部”（Optimal Head）的力量，以实现弱监督语义分割

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月13日 来源：Pattern Recognition 7.6

编辑推荐：

　　弱监督语义分割中，现有方法通过平均CLIP/DINO多头自注意力模块的注意力图优化类激活图（CAM），但发现部分头因捕捉无关语义成为噪声源，导致平均后特征 affinity失真。本文提出类 aware 头选择（CAHS）模块，通过CAM引导在CLIP/DINO的多头自注意力中选择最优匹配头，并设计双监督训练过程结合CLIP全局语义与DINO局部细节，同时引入密集CLIP特征对齐模块提升解码器语义精度。实验表明UPOH在PASCAL VOC和MS COCO上达到新SOTA。

邱向林|于思月|张炳峰|张振|塔玛姆·蒂洛|肖吉敏

西安交通大学-利物浦大学，中国苏州

摘要

基于图像级标签的弱监督语义分割方法因较低的标注成本而受到广泛关注。近期的一些方法利用冻结的CLIP和DINO模型来创建高质量的伪标签以进行监督训练。这些方法通常使用CLIP层的注意力机制来细化类别激活图（CAM）。然而，我们的研究表明，在CLIP的多头自注意力（MHSA）模块中，某些头部对精确描述特征语义关系存在噪声，导致通过平均头部注意力得到的层注意力效果不佳。为了解决这个问题，我们提出了一种基于类别的头部选择方法，该方法直接选择与目标类别最匹配的头部来提取用于细化CAM的亲和力，从而避免噪声头部的影响。我们进一步将这种方法扩展到DINO，因为我们也发现了类似的噪声头部问题，并设计了一个双监督过程，该过程利用CLIP捕捉全局语义的能力以及DINO在局部细节上的优势，通过互补的伪标签来发挥它们的协同作用。此外，为了增强解码器中CLIP特征的密集语义，我们将CLIP的像素特征与作为类别原型的相应文本嵌入对齐，从而提高最终预测的准确性。通过整合上述策略，我们提出的方法UPOH充分发挥了CLIP和DINO中最佳头部的作用，提升了WSSS的性能。实验结果表明，我们的方法在PASCAL VOC和MS COCO数据集上取得了新的最佳性能。我们的源代码将公开发布。

引言

弱监督语义分割（WSSS）通过利用图像级标签[1]、边界框[3]或草图[4]等弱监督方式降低了手动标注的成本。在这些弱监督方法中，基于图像级标签的方法最具挑战性，同时也是研究最广泛的。现有的WSSS方法通常分为复杂的多阶段流程和高效但性能较低的单阶段流程。我们的工作专注于优化单阶段训练流程。

图像级WSSS的核心挑战是从给定的图像级标签生成准确的像素级伪标签。以往的单阶段方法通常使用类别激活图（CAM）来生成伪标签，但CAM只能突出区分性区域，无法完全覆盖目标[8]、[9]。由于CLIP[10]具有强大的视觉理解能力，CLIP-ES[6]采用CLIP图像编码器中的固定多层注意力图作为特征亲和力来细化CAM，从而生成高质量的伪标签。为了动态选择有效的注意力图作为亲和力，WeCLIP[7]和WeCLIP+[5]利用解码器的特征相似性作为指导，保留有用的图并去除无用的图。此外，自监督模型DINO[11]、[12]已被证明具有捕捉局部空间特征的能力。WeCLIP+[5]结合了DINO的特征，以更好地选择解码器特征亲和力。

尽管上述方法通过利用CLIP和DINO的先验知识在细化CAM方面取得了显著成果，但它们仍存在一些不足。首先，通过对上述基于CLIP的方法[5]、[6]、[7]的研究，我们观察到它们通常使用CLIP的多头自注意力（MHSA）模块内所有头部注意力的平均值作为CAM细化的特征亲和力。然而，如图1（a）所示，CLIP MHSA中的不同头部注意力可能针对图像的不同视觉概念进行调整。如图1（a）中的红色虚线框所示，某些头部注意力与目标类别的相关性较低，导致错误的响应。例如，与飞机相关的头部注意力可能会错误地激活与天空和人物相关的区域，而这些区域与目标无关。因此，简单地对所有头部注意力进行平均操作会扭曲特征亲和力，妨碍其准确聚焦于与目标类别相关的区域。这个问题最终表现为伪标签中的语义不准确，从而误导分割网络。有趣的是，在DINO中也观察到了类似的现象。图1（b）展示了从DINO MHSA中每个头部的特征派生的头部亲和力。显然，也存在高度噪声且与类别无关的头部特征亲和力，如图1（b）中的红色虚线框所示。因此，通过连接MHSA中的多头部特征获得的DINO的层亲和力也无法有效捕捉准确的特征关系。从信息聚合的角度来看，如果存在一个最佳头部来捕捉最精确的语义亲和力，那么引入任何其他次优头部（即使是部分相关的头部）也会稀释高纯度的语义信号，并在传统的逐层平均或连接过程中产生噪声。

受这些观察结果的启发，我们希望直接使用MHSA中能够捕捉特定类别语义特征关系的最佳头部（例如，图1中绿色虚线框中高亮的头部）来细化CAM。一种直观的方法是利用解码器的中间特征亲和力作为指导，因为解码器在训练过程中会动态优化特征关系。然而，一个关键挑战是：头部在非目标区域可能包含高噪声，且不同的类别对象可能匹配不同的头部映射。如果直接使用解码器的特征亲和力来指导头部选择，匹配过程将受到非目标区域噪声的显著影响，所有类别将共享相同的选定头部。因此，我们引入了一个基于类别的头部选择（CAHS）模块。该模块使用从CAM生成的类别感知掩码来限制头部特征亲和力与解码器特征亲和力之间的匹配过程，确保仅在目标类别区域内进行匹配计算，从而确保与语义上下文的对齐。随后，选择最佳匹配的头部特征亲和力来细化CAM。

虽然CAHS可以独立应用于CLIP或DINO，但我们观察到它们的亲和力具有互补性：CLIP倾向于捕捉完整的对象轮廓，而DINO在细粒度边界和局部细节方面表现优异。为了充分利用这些互补的语义信息，我们设计了一个双监督训练（DSTP）过程，使用来自CLIP和DINO的最佳头部亲和力的两组伪标签同时监督解码器。此外，虽然最佳头部可以提高伪标签的质量，但CLIP图像编码器的特征本质上是为图像级任务设计的，导致像素级密集预测的语义过于粗糙。为了解决这个问题，我们提出了深度CLIP特征对齐（DCFA）模块，将类别文本嵌入作为语义原型来对齐解码器中的相应类别特定像素特征。

本文的主要贡献可以总结如下：•

我们发现CLIP和DINO的MHSA中的“噪声头部”使得层级亲和力效果不佳，这促使我们从传统的粗粒度逐层聚合转向细粒度的头部选择，以实现更精确的语义细化。

•

我们引入了一种创新的基于类别的头部选择模块，该模块能够从CLIP和DINO中自适应地为每个目标类别选择最佳相关的头部，从而生成更高质量的伪标签。

•

我们设计了一个双监督训练过程，利用CLIP和DINO的互补优势，以及一个利用文本嵌入作为原型的密集剪辑特征对齐模块来细化解码器特征。

•

所提出的框架UPOH在PASCAL VOC和MS COCO基准测试上取得了新的最佳性能，从而得到了实证验证。

部分摘录

弱监督语义分割

由于密集标注的成本较高，近年来语义分割研究逐渐从完全监督学习[13]、[14]转向了有限标注学习[15]、[16]。主流的有限标注学习方法包括半监督语义分割（SSSS）[15]、[16]和弱监督语义分割（WSSS）[18]、[19]、[20]。其中，使用图像级标签的WSSS因其易于获取的标注而引起了广泛的研究兴趣。

概述

图2展示了我们提出方法的概览。训练过程分为以下步骤：

首先，图像

I \in R^{3 \times M \times N}

分别输入到冻结的CLIP图像编码器和DINO图像编码器中，以提取它们的多头部亲和力

{A_{c l ip}^{h}}_{h = 0}^{H ? 1}

{A_{d i o}^{h}}_{h = 0}^{H ? 1}

及其最后一层的

{A_{d i o}^{_{}}}_{h = 0}^{H ? 1}

同时，前景和背景文本被输入到CLIP文本编码器中，以生成CAM

M_{s e d} \in R^{| C_{I} | \times m \times n}

数据集和评估指标

所提出的方法在两个数据集上进行了评估：PASCAL VOC 2012 [41]和MS COCO 2014 [42]。PASCAL VOC 2012包含21个语义类别（包括背景），并通过SBD数据集进行了扩展，其训练集、验证集和测试集分别包含10582、1449和1456张图像。MS COCO 2014包含81个类别，训练集包含82,081张图像，验证集包含40,137张图像。评估指标使用平均交并比（mIoU）作为评估标准。

实施细节

我们采用了

结论

在本文中，我们解决了现有WSSS方法中的一个关键但被忽视的缺陷：由于CLIP和DINO等大型预训练模型中的MHSA中噪声头部的存在，导致性能不佳。为了解决这个问题，我们引入了UPOH，这是一个以基于类别的头部选择模块为中心的新框架，该模块能够精确识别并利用每个目标类别的最佳头部亲和力来改进CAM的细化效果。在此基础上，我们的框架进一步采用了双监督过程

CRediT作者贡献声明

邱向林：撰写 – 审稿与编辑，撰写 – 原稿撰写，可视化，验证，方法论，调查，形式分析，数据整理，概念化。于思月：撰写 – 审稿与编辑。张炳峰：撰写 – 审稿与编辑。张振：撰写 – 审稿与编辑。塔玛姆·蒂洛：撰写 – 审稿与编辑。肖吉敏：撰写 – 审稿与编辑，监督，资金获取。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了国家自然科学基金（编号62471405、62331003、62301451）、江苏省基础研究计划自然科学基金（BK20241814）、苏州市基础研究计划（SYG202316）以及XJTLU REF-22-01-010、XJTLU人工智能大学研究中心、江苏省工程研究中心数据科学与认知计算以及XJTLU和SIP AI创新平台（YZCXPT2022103）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言