: WEViT: 基于权重纠缠与类特定注意力的神经网络架构搜索优化视觉Transformer用于弱监督语义分割

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月04日 来源：Neural Networks 6.3

编辑推荐：

　　本文针对弱监督语义分割中传统方法难以在定位精度与模型可扩展性间取得平衡的问题，提出了一种创新的框架WEViT。该研究首次将神经网络架构搜索与视觉Transformer相结合，通过权重纠缠策略训练超级网络，并利用进化算法搜索最优架构，进而提取并精化类特异性注意力图以生成高质量的对象定位图。实验表明，WEViT在PASCAL VOC 2012和MS COCO数据集上取得了最先进的性能，为可扩展、高效且准确的弱监督分割解决方案铺平了道路。

在计算机视觉领域，为图像中的每个像素分配语义标签的语义分割任务至关重要，但其发展长期受限于获取像素级标注的高昂成本。为此，研究者们转向仅需图像级标签的弱监督语义分割。然而，这带来了新的挑战：如何从如此粗粒度的监督信号中，生成精确到像素的对象定位图？传统的解决方案严重依赖类激活图，这种方法基于卷积神经网络，往往只能激活物体最具判别性的区域，导致生成的分割掩码粗糙、不完整，难以覆盖物体的全部范围。此外，手工设计网络架构的过程繁琐且难以优化，无法在定位精度、模型复杂度和处理弱监督信号的能力之间取得最佳平衡。

为了突破这些瓶颈，Narges Saeedizadeh, Seyed Mohammad Jafar Jalali, Burhan Khan, Shady Mohamed等研究人员在《Neural Networks》上发表了他们的研究成果，提出了一个名为WEViT的全新框架。这项研究开创性地将神经网络架构搜索引入弱监督语义分割领域，旨在自动化地设计出针对该任务优化的视觉Transformer架构，从而生成更准确、更具类判别性的对象定位图。

研究人员开展此项研究主要运用了以下几项关键技术方法：首先，构建了一个包含层数、注意力头数、嵌入维度等关键超参数的可搜索空间，并采用权重纠缠的一次性NAS策略训练一个过度参数化的超级网络，使子网络能高效继承权重，无需从头训练。其次，利用进化算法从训练好的超级网络中搜索出性能最优的Transformer架构。接着，在最优架构中引入多类别令牌，以提取类特异性注意力，并设计了一种精化块亲和性策略，利用Transformer自注意力机制中固有的块到块亲和性信息来增强定位图，去除背景噪声。此外，研究还纳入了正则化损失函数来促进生成类判别性更强的定位图，并重点探讨了Transformer层选择在此过程中的关键作用。实验在PASCAL VOC 2012和MS COCO这两个经典数据集上进行。

研究结果

3.1. Vision Transformer

该部分详细阐述了作为WEViT基础的Vision Transformer标准流程，包括将图像分割为块、线性投影为嵌入向量、添加位置编码，以及通过多层Transformer编码器（包含多头自注意力和前馈网络）进行处理。特别强调了在多类别图像中使用单个类别令牌的局限性，因为它会混合类别特定和通用对象特征，导致定位噪声。为此，WEViT采用了多类别令牌输入，每个令牌对应一个对象类别，并通过类感知训练策略强制每个类别令牌与其对应的对象类别建立一对一映射，从而使得学到的注意力能够作为类特异性定位图。

3.2. One-Shot NAS with Weight Entanglement

本部分系统介绍了应用于WEViT的一次性神经网络架构搜索与权重纠缠策略。与传统需要重新训练每个子网络的方法不同，一次性NAS训练一个包含所有候选架构的超级网络，子网络共享权重。然而，传统的权重共享在Transformer搜索空间中面临收敛慢、权重更新不足的问题。WEViT采用了权重纠缠策略，使同一层内的不同候选块尽可能共享权重，从而让一个块的训练更新能够影响其他共享组件的块。这种方法带来了更快的收敛速度、更低的内存使用以及更优的子网络性能。搜索过程分为两步：超级网络训练和架构搜索（使用进化算法并以mAP作为评估指标）。

3.3. WEViT

这部分详述了WEViT框架的具体构建。研究定义了一个包含层数、注意力头数、查询-键-值维度、MLP比例和嵌入维度五个可调参数的Transformer搜索空间。整个搜索空间被嵌入到一个代表最大模型的超级网络中。框架包含三个连续阶段：1) 训练超级网络；2) 使用进化算法优化搜索最优架构；3) 生成注意力图。通过最优架构提取Transformer头中的注意力权重，并利用精化块亲和性策略进行优化，有效去除多类别图像中的背景噪声。同时，引入的正则化损失函数和精心选择的Transformer层进一步提升了定位图的类判别性。

结论与意义

本研究提出的WEViT框架，首次成功地将神经网络架构搜索、视觉Transformer、多类别令牌及先进的精化技术整合应用于弱监督语义分割。其主要贡献在于：1) 首次利用NAS自动化设计针对WSSS优化的Vision Transformer，克服了手动设计的局限；2) 采用一次性权重共享与权重纠缠策略，大幅降低了计算成本并生成了高质量的、可适配不同资源约束的模型；3) 利用多类别令牌提取类特异性注意力，并结合块到块Transformer注意力进行精化，显著提升了分割精度；4) 提出的精化块亲和性策略有效减少了背景噪声，增强了多类别图像中的相关类别聚焦；5) 引入的正则化损失函数及对Transformer层的管理，最小化了噪声并优化了定位精度。

实验结果表明，WEViT在PASCAL VOC 2012和MS COCO数据集上达到了最先进的性能，充分证明了将NAS应用于WSSS的有效性。这项工作不仅为弱监督语义分割提供了一个强大、高效且精确的新解决方案，更重要的是，它开辟了一条结合自动化架构设计与Transformer模型的新研究路径，为未来开发更可扩展、更自适应的视觉理解系统奠定了坚实的理论基础与实践框架。

联系信箱：

粤ICP备09063491号

热点排行