编辑推荐:
语义分割单样本场景下,提出TRIPNet框架,通过轻量级适配器增强SAM模型,结合边界框提示、文本嵌入(BLIP+CLIP)及原型特征,实现多模态引导的逐级细化分割。在PASCAL-5i和COCO-20i上显著优于现有方法。
阿米尔雷扎·法特(Amirreza Fateh)、穆罕默德·雷扎·莫哈马迪(Mohammad Reza Mohammadi)和穆罕默德·雷扎·贾赫德-莫特拉格(Mohammad Reza Jahed-Motlagh)
伊朗科学技术大学(IUST)计算机工程学院,德黑兰,伊朗
摘要
语义分割是计算机视觉中的一个基本任务,其目标是将图像中的每个像素分类到预定义的类别中。这项任务在自动驾驶、医学成像和遥感等各种应用中发挥着关键作用。然而,大多数方法需要大量的标记数据集,而这些数据集在实践中往往难以获得。为了减轻对数据的依赖,一次性语义分割(One-Shot Semantic Segmentation,简称OSS)提供了一种有吸引力的解决方案,它仅使用一个标记的支持样本即可对新对象进行分割。本文提出了一种新颖的从粗到细的一次性语义分割方法,该方法改进了“Segment Anything Model”(SAM),使其在OSS中表现良好。SAM的图像编码器通过轻量级适配器得到了增强,从而能够在不进行大量计算的情况下有效提取特征。相比之下,SAM的原始提示编码器在OSS中效果较差,因为有限的监督提供的指导信息较弱。为了克服这种有限的监督问题,本文引入了一种三重提示策略,结合了边界框提示、来自BLIP和CLIP的文本描述以及支持图像中的类别特定特征来指导精确的分割。该方法从粗略的掩码开始,逐步细化以提高精度。通过整合图像和文本信息,即使在数据有限的情况下也能实现稳健的性能。在PASCAL-5i和COCO-20i数据集上的测试表明,该方法优于其他一次性分割技术。它以高效的资源使用提供了高质量的分割结果,使其成为实际视觉应用中的有力选择。
引言
语义分割为图像中的每个像素分配一个类别,对于自动驾驶汽车和医学成像等任务至关重要[1]。为了解决这一任务的复杂性,深度学习已成为主流方法,提供了强大的表示学习能力。最近的研究,特别是在卷积神经网络(CNN)和基于Transformer的架构方面的研究,显著提升了分割性能[2]、[3]。尽管取得了这些显著进展,但这些方法通常依赖于大规模的标记数据集,这使得它们在实际应用中(尤其是标注数据有限的情况下)不太实用[4]、[5]、[6]。为了克服这一障碍,少样本语义分割(Few-Shot Semantic Segmentation,简称FSS)作为一种有前景的解决方案出现,它使模型能够仅使用少量标记样本即可分割新的对象类别[7]、[8]。然而,在许多实际场景中,即使收集少量注释也可能很困难,这突显了将监督减少到极端情况的重要性。这种极端情况是指模型必须仅从一个标注样本中学习,这就是所谓的一次性语义分割(One-Shot Semantic Segmentation,简称OSS)。
在OSS的背景下,现有方法主要分为基于原型的方法和逐像素方法[9]、[10]。逐像素方法试图在支持图像和查询图像之间的像素之间建立直接对应关系。然而,它们存在较高的计算成本和严重的过拟合问题,当只有一个标注样本可用时,这些问题更加突出。这使得它们在OSS中效果较差,因为效率和泛化能力都很重要。基于原型的方法则从支持图像中提取代表性的类别特征,并用它们来指导查询图像的分割。这些方法更高效且更稳健,但往往无法保留细粒度的局部细节。主要原因在于骨干网络无法从单个样本中捕获足够丰富的特征。因此,对于结构复杂或边界细微的对象,分割掩码可能不够准确。
为了克服骨干网络在从有限样本中捕获细粒度特征方面的局限性,需要一种强大且可适应的架构。最近在基础模型(如Segment Anything Model,简称SAM)方面的进展提供了一个有前景的方向[11]。SAM采用了在大规模数据集上预训练的Vision Transformer编码器,使其能够有效捕获全局上下文和局部结构[12]、[13]。尽管有这些优势,但直接将SAM应用于FSS或OSS并不简单。对如此庞大的模型进行微调需要大量的计算资源,并且当只有少量支持样本可用时存在过拟合的风险[14]。另一方面,简单地冻结SAM的编码器往往会产生次优结果,因为固定的表示可能无法在没有额外提示的情况下很好地适应新类别[15]。
为了克服骨干网络在从有限样本中捕获细粒度特征方面的局限性,需要一种强大且可适应的架构。最近在基础模型(如Segment Anything Model,简称SAM)方面的进展提供了一个有前景的方向[11]。SAM采用了在大规模数据集上预训练的Vision Transformer编码器,使其能够有效捕获全局上下文和局部结构[12]、[13]。尽管有这些优势,但直接将SAM应用于FSS或OSS并不简单。SAM的交互式设计与一次性语义分割的自动化性质之间存在根本冲突。SAM严重依赖于显式的空间提示(例如用户点击或边界框)来消除歧义并定位感兴趣的对象。然而,在OSS环境中,没有人类用户来交互式地指导查询图像的分割。此外,依赖SAM的自动“分割任何对象”模式在计算上代价高昂且不准确,因为它为所有显著对象生成掩码,而不区分支持图像定义的目标类别。因此,需要一种机制来自动将支持样本中的语义信息转换为精确的提示,以指导SAM找到正确的对象。对如此庞大的模型进行微调需要大量的计算资源,并且当只有少量支持样本可用时存在过拟合的风险[14]。另一方面,简单地冻结SAM的编码器往往会产生次优结果,因为固定的表示可能无法在没有额外提示的情况下很好地适应新类别[15]。
为了克服直接在OSS中使用SAM的局限性,我们提出了Triple-Prompt Network(TRIPNet)框架,该框架采用了一种新颖的三重提示策略。第一个挑战是SAM的冻结编码器无法适应新类别。由于数据有限和计算成本高,对整个模型进行微调在OSS中也不切实际。为了解决这个问题,我们将轻量级适配器集成到SAM的编码器中。适配器作为小型可训练模块,允许针对特定任务进行适应,同时保持编码器的其余部分不变[16]。这种设计在不引入大量开销的情况下改进了特征提取。OSS中的另一个挑战是单个支持图像提供的信息通常不足以进行可靠的分割。为了丰富这种监督,我们利用了多模态指导。具体来说,对于每对支持图像-掩码对,我们使用BLIP[17]生成目标对象的描述性标题。然后使用CLIP[18]将此标题转换为判别性文本嵌入。该嵌入被注入适配器中,以条件化图像编码器,并作为辅助提示来指导分割。为了有效关联这些丰富的支持和查询特征,我们使用了MSDNet[1]中的高效Contextual Mask Generation Module(CMGM)和Spatial Transformer Decoder(STD)来建立特征关联。最后,单次预测可能会遗漏细小的对象边界。为了解决这个问题,我们的框架采用了从粗到细的细化策略。在粗略阶段,提示编码器假设目标对象存在于查询图像中,并生成初始分割掩码。然后结合CLIP生成的提示,逐步细化该掩码。每次更新都会使边界更加清晰,提高精度。通过结合适配器进行高效适应、多模态指导以丰富监督以及迭代细化以提高精度,TRIPNet实现了精确的一次性分割,且所需的注释最少。
本工作的主要贡献如下:
1) 我们为SAM的提示编码器提出了一种三重提示增强策略,动态结合了:(i) 边界框提示 (粗略阶段的完整图像边界框或细化阶段的精确边界框),(ii) 文本指导 (BLIP生成的对象标题的CLIP文本嵌入),以及 (iii) 支持原型 (从支持图像中提取的目标类别特征)。这种修改使得在少样本场景中实现精确、上下文感知的分割成为可能。
2) 我们的框架采用了从粗到细的细化策略,通过循环使用预测作为提示来逐步改进初始分割掩码。支持原型和文本嵌入的集成确保了精度的逐步提升,同时保持了效率。
3) 我们证明了小型、可学习的适配器与我们的增强提示编码器相结合,使得像SAM这样的大型预训练模型能够高效地泛化到新的类别,从而避免了全面的微调,降低了计算成本。
4) 在PASCAL-5i和COCO-20i上的实验显示了最佳性能,验证了我们的多模态适配器设计和三重提示机制显著优于现有的单一分割方法。
相关工作
相关研究
语义分割是计算机视觉中的一个基本任务,它涉及为图像中的每个像素分配一个类别标签,从而有助于全面理解场景内容[19]。深度学习(特别是CNN)的出现通过使模型能够直接从数据中学习层次化的特征表示,显著推动了这一领域的发展[20]。在相关领域,如信号识别[21]中也观察到了类似的特征提取方面的进展。
问题定义
一次性语义分割(One-Shot Semantic Segmentation,简称OSS)专注于仅使用有限数量的标记示例来分割新类别的对象。该任务在两个数据集上进行定义:一个训练数据集 和一个测试数据集 ,这两个数据集与非重叠的类别集 相关联,以确保测试期间遇到的类别在训练期间完全未见。
训练和评估遵循一个情节化的设置,其中每个情节包括一个支持集
数据集
为了评估我们方法的有效性,我们在两个标准的一次性语义分割基准数据集上进行了实验:PASCAL-5 i 和COCO-20 i 。
PASCAL-5 i 数据集。 该数据集基于PASCAL VOC 2012分割挑战[70]构建,并增加了SDS数据集[71]的注释。它包含20个语义类别,这些类别被分为4个不重叠的折叠,用 表示。在每个折叠中,有五个类别被保留用于测试,而
消融研究
为了分析我们提出的框架中每个组件的单独贡献,我们在PASCAL-5i 数据集上进行了详细的消融研究,仅使用Fold-0 在一次性设置中进行实验。为了高效实验,我们使用了SAM编码器的ViT-B 变体。主论文中的最终结果同时展示了使用ViT-B 和ViT-H 的性能,但在这里我们使用ViT-B进行消融,因为计算成本较低。
结论
TRIPNet的发展标志着在利用最少标记数据分割新对象方面迈出了重要一步。通过将Segment Anything Model(SAM)与轻量级适配器相结合,我们的方法能够高效地为一次性场景定制一个强大的预训练模型,而无需进行广泛的重新训练。引入的三重提示策略整合了边界框提示、来自BLIP和CLIP的文本嵌入以及类别特定的支持
CRediT作者贡献声明
阿米尔雷扎·法特(Amirreza Fateh): 撰写——原始草稿、可视化、验证、方法论、研究。穆罕默德·雷扎·贾赫德-莫特拉格(Mohammad Reza Jahed-Motlagh): 撰写——审阅与编辑、监督。穆罕默德·雷扎·莫哈马迪(Mohammad Reza Mohammadi): 撰写——审阅与编辑、监督、方法论。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
阿米尔雷扎·法特 出生于1997年。他于2019年在沙赫鲁德科技大学(Shahrood University of Technology)获得计算机工程学士学位,2021年获得同一所大学的人工智能硕士学位。他目前是伊朗科学技术大学(IUST)的人工智能博士生。他在计算机视觉和机器学习领域发表了多篇期刊论文。他的研究兴趣包括少样本学习、多模态模型、医学