编辑推荐:
语义分割任务中,Swin Transformer的窗口自注意力机制虽提升了效率,但固定窗口划分导致全局依赖捕捉不足。为此,我们提出 Prior Information Attention(PIA)机制,融合Sobel边缘检测的先验知识动态重构图像块分组策略,使注意力能跨空间距离关联边缘相似区域。同时设计Feature Exchanging Strategy(FES)实现异质特征交换,构建PIAT Transformer框架。实验表明,PIA在Cityscapes、ADE20K、DLRSD和CamVid四数据集上mIoU均优于Swin Transformer、Mask2Former等基线模型,且非预训练网络效果最优。
肖瑞杰|杨波|朱倩阳
中国电子科技大学计算机科学与工程学院,成都,611731,四川,中国
摘要
Swin Transformer引入了窗口自注意力(WSA)来提高Vision Transformer(ViT)在语义分割中的性能。然而,WSA中的注意力块组划分仅基于空间位置,忽略了空间频率关系。这可能会限制注意力机制充分利用归纳偏差的能力。为了解决这个问题,我们提出了一种新的注意力机制,将传统的计算机视觉技术与深度学习方法相结合,称为先验信息注意力(PIA)。PIA通过融合边缘先验信息(边缘检测结果)来重新组织图像块,形成灵活的组窗口。它使注意力计算能够查询具有相似边缘强度但在空间上相距较远的图像块。此外,还引入了特征交换策略(FES)通过跨组融合来细化特征边界。在PIA和FES的基础上,我们提出了一个名为PIAT的变压器骨干网络。为了验证PIA的有效性,我们在4个数据集(Cityscapes、ADE20K、DLRSD和CamVid)上将其与最先进的语义分割模型进行了比较。实验结果表明,PIA在所有四个数据集上都优于基线方法。
引言
语义分割是计算机视觉中的一个基本任务,应用于自动驾驶、城市规划和农业监测等领域。在语义分割任务中,目标是将属于同一对象类的图像部分聚类在一起,预测每个像素的精确语义类别[1]。自从Alexey等人提出Vision Transformer(ViT)[2]以来,使用Vision Transformer模型的语义分割时代就开始了。
在数据量和计算资源充足的情况下,ViT的表现优于CNNs [3]、[4]。然而,ViT中的多头自注意力(MSA)机制计算成本较高,限制了其在高分辨率任务中的可扩展性。为了解决这个问题,Swin Transformer [5]引入了窗口自注意力(WSA)机制,将注意力限制在局部区域。这种方法在包括语义分割在内的各种视觉任务中取得了显著进展。随后,如Mask2Former [6]等模型进一步提升了基于变压器的模型的性能,无论是在准确性还是效率上都有显著提升。然而,WSA在图1的左侧面板中所示,它在固定窗口内计算注意力分数,这对性能存在潜在风险。
正如一句古老的谚语所说:你只见树木,不见森林。 WSA中有限的感受野可能会限制模型捕捉全局依赖关系的能力,并忽略不同窗口中块之间的相互作用。尽管随后采用了移动窗口的方法来构建更广泛的图像上下文信息,但这只是将计算范围从一个局部区域改变到了另一个较大的局部区域。因此,可能会阻碍注意力机制的归纳偏差能力的充分利用[7],从而可能导致在复杂下游任务(如语义分割)上的性能下降。
为了解决上述问题,我们提出了一种新的注意力机制,称为先验信息注意力(PIA)。与仅基于位置对图像块进行分组的传统注意力机制不同,PIA融合了边缘先验信息(边缘检测结果)来重新组织图像块,形成不规则的窗口,如图2所示。它允许注意力计算查询具有相似边缘强度但在空间上相距较远的块,如图1中的蓝色和红色三角形所示。此外,我们还引入了特征交换策略(FES),通过跨组融合来进一步增强特征融合过程。
尽管已经提出了几种探索不同分组策略的研究,例如DAT [8]和RMT [9],但这些研究都完全基于深度学习。相比之下,我们的方法利用传统计算机视觉中的边缘检测来指导分组,填补了传统视觉技术与深度学习在基于注意力的分组中的结合空白。
为了验证PIA的有效性,我们构建了一个名为Prior Information Attention Transformer(PIAT)的新变压器骨干网络,并将其与最先进的方法进行了比较,包括Swin Transformer和Mask2Former(两者都使用窗口自注意力WSA [5]),以及使用多头自注意力(MSA [2])、高效自注意力(ESA [10])和可变形注意力(DA [8])的框架。实验结果表明,在Cityscapes和CamVid数据集上的平均交并比(mIoU)上,PIA取得了持续的改进;在ADE20K数据集上用于复杂任务分割,在DLRSD数据集上用于遥感图像分割。
此外,为了进行全面评估,我们比较了使用MSA、ESA、WSA、DA和PIA的非预训练网络。我们的方法在这些方法中表现最佳。此外,我们还全面分析了不同参数设置对PIA在多个数据集上性能的影响。最后,我们从FPS(每秒帧数)的角度优化了PIA的运行效率,并对结果效率进行了比较分析。
我们的贡献可以总结如下:
•我们提出了一种新的注意力机制PIA,通过融合边缘先验信息来重新组织图像块。此外,我们设计了FES来交换相似但不同的特征,从而增强了特征融合。
•基于PIA和FES,我们开发了一个名为Prior Information Attention Transformer(PIAT)的新Vision Transformer骨干网络。
•在4个数据集上的实验表明,PIA在mIoU方面始终优于其他注意力机制及其框架。
章节片段
边缘检测
边缘检测在计算机视觉领域起着至关重要的作用,它是识别和保留数字图像中重要结构和边界相关特征的主要技术。它通过突出强度变化来提取有意义的视觉线索,这些变化通常对应于对象轮廓、纹理变化或其他重要模式。
动机
在文献中,注意力分组系统(如Swin Transformer中使用的系统)将图像划分为不同的局部窗口(如图1所示,包括左上、右上、左下和右下部分),并在每个窗口内独立进行注意力计算。毫无疑问,这种系统加快了ViT的推理速度。然而,这种不灵活且僵化的分组系统仅基于位置对注意力组进行分类。
数据集
Cityscapes。 Cityscapes [29]是一个高分辨率的街道场景数据集,共有19个类别。这些详细标注的图像被划分为训练集、验证集和测试集,分别包含2,975,500张和1,525张图像。
ADE20K ADE20K [30]是一个广泛使用的语义分割数据集,涵盖了150个语义类别。该数据集包括20,210张训练图像、2,000张验证图像和3,000张测试图像。每张图像都包含全面的对象
局限性与未来工作
尽管取得了这些进展,但仍存在三个需要进一步研究的局限性:
(1)边缘检测依赖性: PIA的性能依赖于手工制作的边缘操作符(例如Sobel),可能在噪声丰富或对比度低的场景中缺乏适应性。
(2)可扩展性限制: FES目前以固定比例运行。在层次结构级别上进行动态比例学习可能更好地处理高分辨率图像中的多尺度边缘强度。
(3)在低分辨率RS数据集上的改进有限:
结论
本文提出了一种新的注意力机制PIA,它融合了边缘先验信息来重新定义Vision Transformer中的块分组策略,用于语义分割。通过整合Sobel边缘先验,PIA动态地将图像块重新组织成具有相似边缘强度的组,使注意力计算能够捕捉到即使在空间上相距较远但具有相似空间频率的区域之间的长距离依赖关系。为了优化特征表示,我们进一步设计了
CRediT作者贡献声明
肖瑞杰:撰写 – 审稿与编辑,撰写 – 原始草稿,可视化,验证,软件,方法论,调查,数据管理。杨波:撰写 – 审稿与编辑,监督,资源管理,项目管理,方法论,概念化。朱倩阳:验证,数据管理。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能会影响本文报告的工作。