编辑推荐:
本文提出了一种新颖的稀疏交叉注意力(Sparse Cross Attention, SCA)块,用于解决无监督领域自适应(Unsupervised Domain Adaptation, UDA)语义分割中计算资源消耗过大的问题。该方法通过聚合像素在水平与垂直方向上的上下文信息,生成不连续但有效的稀疏注意力图,在不降低性能的前提下显著降低了计算复杂度(O(H+W/2))。同时,作者在潜在空间中引入像素级对比学习(Contrastive Learning, CL),增强领域内与跨领域的类内紧凑性和类间可分性。结合SCA修正特征进行对比学习,在GTA→Cityscapes、Synthia→Cityscapes和Cityscapes→Dark Zurich等基准上取得了显著的性能提升(如结合DAFormer方法提升+3.9% mIoU)。这项工作为实现高效、精准的跨域语义分割提供了创新性的解决方案。
亮点
我们提出了SCADA,一种巧妙结合稀疏交叉注意力(Sparse Cross Attention, SCA)块和对比学习(Contrastive Learning, CL)策略的创新模型,用于无监督领域自适应(Unsupervised Domain Adaptation, UDA)语义分割。简而言之,我们SCADA的贡献总结如下:
- •
我们为UDA语义分割提出了一种新颖的稀疏交叉注意力(SCA)块,可在不造成性能损失的前提下高效减少计算资源。由于其结构简单,我们的SCA块可以轻松集成到其他UDA方法中以提升其性能。
- •
我们引入对比学习(CL)来缓解领域间隙,促进领域内及跨领域像素表征之间的内在联系。通过将SCA块与CL结合,我们进一步提升了UDA的性能。
- •
大量实验证明,所提出的SCADA极大地推进了UDA技术,超越了当前最优方法。结合最先进的方法DAFormer,SCADA在GTA→Cityscapes、Synthia→Cityscapes和Cityscapes→Dark Zurich基准上分别显著获得了+3.9% mIoU、+2.5% mIoU和+4.1% mIoU的提升,突显了其在多样化跨域场景中的关键作用。
引言
语义分割,作为密集预测任务中的一个基础且重要的课题,致力于将给定图像中的每个像素分配给一个特定的语义类别。此前的深度神经网络,包括卷积神经网络(Convolutional Neural Networks, CNNs)和视觉变换器(Visual Transformers),已在语义分割领域取得了巨大进展。然而,为了有效训练这些模型,需要大量具有像素级语义标注的图像数据。对于语义分割而言,图像数据的收集和标注过程可能耗时耗力。以Cityscapes数据集为例,单张图像的人工标注通常需要超过一小时。为了减轻标注带来的负担,最常用的方法是利用合成数据进行训练。然而,直接将基于合成源数据训练的模型应用于现实世界目标域通常会导致性能不佳,因为神经网络对域间隙(domain gap)非常敏感。无监督领域自适应(Unsupervised Domain Adaptation, UDA)可以通过将用源数据训练的网络适应到无需标注的目标数据,来有效缓解此问题。
在视觉识别挑战中,上下文信息至关重要,尤其是在语义分割等任务中。为了高效提取像素级上下文信息,一种广泛采用的方法是使用注意力机制来生成增强的特征图。例如,Non-local Networks采用自注意力机制来捕获全局注意力图,使单个像素特征能融合来自所有其他位置的信息。这种全局注意力方法利用增强的特征图来灵活表示全局特征关联,极大地提升了各种视觉理解任务的性能。然而,此类全局注意力方法的一个缺点是倾向于生成大的注意力图,导致时间和空间复杂度高达O((H×W)2),其中H和W代表输入特征的高度和宽度。这对于语义分割等密集预测任务尤其具有挑战性,因为高分辨率特征图会导致巨大的内存消耗。为了缓解这个问题,CCNet引入了交叉注意力模块,以独立捕获所有像素特征在其十字路径上的上下文信息。与在特征图中所有像素之间形成密集连接的全局注意力不同,CCNet的交叉注意力以“十字”方式将特征图的每个位置与其同行同列的所有其他位置相关联,将时间和空间复杂度从O((H×W)2)降低到O((H×W)(H+W-1))。尽管交叉注意力在降低计算复杂度方面取得了显著进展,但问题依然存在:是否存在一种更高效的方法,在保持精度的同时进一步减少计算资源?
为解决上述问题,我们提出用稀疏交叉注意力(Sparse Cross Attention, SCA)机制替代密集连接的交叉注意力,如图1(c)所示。我们的核心设计将每个像素需要关注的注意力权重数量,从H+W-1减少到(H+W)/2-1。这有效地将交叉注意力操作的计算成本减半。我们的动机源于观察到,在UDA语义分割任务中,大区域语义类别通常占据图像的很大一部分,例如Cityscapes中的天空、道路和建筑。在处理这些大区域类别时,我们需要考虑如何高效分配计算资源,以在保持精度的同时降低时间和空间复杂度。上面提到的全局注意力和交叉注意力,都通过与目标像素相关的密集连接像素来收集上下文信息。然而,在处理大区域语义类别时,这可能导致不必要的资源消耗,因为其中大多数像素属于同一语义类别。这意味着大量同类像素将被重复计算,从而增加了额外的计算负担。因此,我们为UDA语义分割提出了一个SCA块,这是一种稀疏交叉注意力,能够以较低的计算资源高效获取上下文信息,而不会导致性能下降。
在所提出的SCA块的指导下,特征提取器提取的特征可以得到适当修正,以收集更全面的上下文信息。然而,在最近的大多数UDA方法中,训练数据之间的本质关系被忽视了,导致学习到的目标像素表征仍然分散。对比学习(Contrastive Learning, CL)作为一个相关主题,被证明是解决此问题的精确方案。在没有任何监督的情况下,CL可以学习合适的视觉表征并发现特征的相似性和相异性。因此,我们在源域和目标域中利用提取的特征进行像素级对比学习。具体来说,CL探索跨域像素对比,在由训练数据中适当语义概念引导的潜在空间中,聚合相似像素并分散不相似像素,从而促进领域内及跨领域像素表征的类内紧凑性和类间可分性。此外,我们还进一步将CL与提出的SCA块相结合,利用收集了更全面上下文信息的SCA修正特征进行像素级CL。在CL和所提出的SCA块的共同驱动下,UDA模型的性能得到了进一步提升。
基于以上观察,我们提出了SCADA,一个巧妙结合SCA块和CL策略的创新UDA语义分割模型。简而言之,我们SCADA的贡献总结如下:
- •
我们为UDA语义分割提出了一种新颖的稀疏交叉注意力(SCA)块,可在不造成性能损失的前提下高效减少计算资源。由于其结构简单,我们的SCA块可以轻松集成到其他UDA方法中以提升其性能。
- •
我们引入对比学习(CL)来缓解领域间隙,促进领域内及跨领域像素表征之间的内在联系。通过将SCA块与CL结合,我们进一步提升了UDA的性能。
- •
大量实验证明,所提出的SCADA极大地推进了UDA技术,超越了当前最优方法。结合最先进的方法DAFormer,SCADA在GTA→Cityscapes、Synthia→Cityscapes和Cityscapes→Dark Zurich基准上分别显著获得了+3.9% mIoU、+2.5% mIoU和+4.1% mIoU的提升,突显了其在多样化跨域场景中的关键作用。
UDA用于语义分割
无监督领域自适应(UDA)旨在利用源域丰富的标注数据来精炼模型,同时调整其以在标注有限的目标域上有效执行。对于语义分割,有两种常见的UDA方法:对抗训练和自训练。基于对抗训练的方案通常采用生成对抗网络(Generative Adversarial Network, GAN)框架,该框架包含一个生成器和一个判别器,以...
结论
在这项工作中,我们提出了SCADA,一个用于UDA语义分割的新颖框架。首先,我们提出了一个SCA块,它可以通过为所有像素在稀疏交叉路径上收集全面的上下文信息,来高效地修正输入特征。由于其结构简单,SCA块可以与多种UDA方法结合,以进一步提升它们的性能。此外,我们引入对比学习来稳定UDA,促进...