SZCo：基于区域-文本对齐学习的自监督零样本协同分割

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：SZCo: Self-Supervised Zero-Shot Co-Segmentation with Region-Text Alignment Learning

【字体：大中小】 时间：2026年02月17日 来源：Pattern Recognition 7.6

编辑推荐：

　　本文提出自监督零样本共分割框架SZCo，利用CLIP将图像隐式共识转化为文本显式信号，结合迭代区域过滤和三种对齐方法，有效区分共同目标与非相关区域，实验表明优于现有方法。

Xin Duan|Yan Yang|Liyuan Pan|Xiabi Liu|Mingyang Gong

北京工业大学，北京，100000，中国

摘要

协同分割通过模仿人类视觉系统来识别和分割常见对象。现有的协同分割方法仅依赖于在图像集中挖掘有限的视觉共识，缺乏语义迁移能力，这限制了它们对未见类别的泛化能力。为了弥合这一差距，我们引入了一个自监督的零样本协同分割框架（SZCo），该框架将隐式的视觉共识转换为显式的文本信号，以实现零样本语义迁移。这种机制通过利用文本概念的扩展性，克服了有限视觉模式的限制。

具体来说，我们首先使用对比语言-图像预训练框架（CLIP）从图像集中推断出共同的文本表示，并计算每个特征图与相应文本嵌入之间的相关性图。然后，我们提出了一种迭代区域过滤器（IRF）来迭代地对齐共同对象区域。我们介绍了三种区域-文本对齐学习方法：基于文本的方法、基于区域的方法和基于全局性的方法。此外，我们还引入了一种异步伪标签更新方法，并利用基础分割模型（SAM）进行进一步优化。在十个数据集上的实验结果验证了我们的方法优于现有最先进方法。

引言

图像协同分割是计算机视觉中的一个基本任务，旨在发现并分割一组图像中具有共同语义的对象。受到儿童如何在不知道对象名称的情况下识别多个图像中的共同对象的启发，这项任务在没有任何预定义的类别名称或密集注释的情况下，发现并分割图像集中的共同对象。协同分割已广泛应用于各种依赖于跨图像相关性的计算机视觉任务中，例如图像到图像的检索[1]、[2]、语义对应匹配[3]、视频显著对象检测[4]、[6]、人物重新识别[7]以及医学图像分析[8]、[9]、[10]，特别是在半监督分割[8]和少样本分割[9]中。

此外，在特定物种的野生动物监测[11]、[12]等应用中，协同分割也是不可或缺的，因为这些应用中不提供目标类别名称。这项任务受到同域非目标干扰[11]、[12]和复杂环境的影响。通过利用跨图像共识，协同分割可以抑制背景杂乱并排除无关的干扰物。如图1在ImageNet-S [13]中所示，这项任务需要分割共同的目标物种（例如海龟），同时用全零掩码抑制干扰物（例如鲨鱼）。虽然现有的方法如伪装对象检测（EASE [14]）和无监督实例分割（CuVLER [15]）会不加区分地分割所有显著对象，但我们的方法利用跨图像一致性来识别共同语义并抑制干扰物。这些广泛的应用表明了协同分割的重要性。

之前的完全监督协同分割方法需要昂贵的密集注释[4]、[16]、[17]。现有的无监督协同分割方法[18]、[19]、[20]仅依赖于在图像集中挖掘特定视觉模式的共识，这限制了它们的语义迁移能力，并限制了它们对未见类别的泛化能力。

最近，对比语言-图像预训练框架（CLIP）[21]已被应用于零样本语义分割[22]、[23]。然而，这些方法需要真实的图像-文本对和预定义的类别名称，这限制了它们在协同分割中的适用性，因为在协同分割中，共同类别是隐性的且未知的。在本文中，我们探索了CLIP在无需任何真实文本的情况下进行零样本协同分割的潜力。CLIP将图像与以对象为中心的文本描述对齐，产生一个与协同分割任务对齐的语义类别级特征空间。与语义分割不同，我们的方法仅基于图像集内的语义一致性来推断伪文本。通过将隐式的视觉共识转换为显式的文本信号，我们利用文本概念的扩展性来扩展协同分割的泛化能力。这弥合了零样本迁移的差距，并克服了先前无监督方法的封闭集限制。本质上，零样本协同分割的目标是：1）在没有类别监督的情况下发现跨图像的共同区域；2）区分共同区域和非共同内容[16]。

我们首先利用CLIP通过图像集内的语义一致性提取隐式的共同语义，然后从独立的文本库中识别最相关的文本，以明确指导共同对象的定位。这些文本仅作为隐式视觉语义的具体表示，为IRF优化提供指导信号。由于共同语义的确切类别是未知的，我们通过迭代过滤和比较共同区域和非共同区域来逐步区分它们。具体来说，我们首先使用共同文本嵌入估计模块为图像集提取文本嵌入，并将其与图像特征融合以生成图像-文本相关性图。然后，我们应用迭代区域过滤器（IRF）来细化文本嵌入和共同对象区域之间的对齐。采用了三种区域-文本对齐方法：i）基于文本的：将共同对象区域推向共同文本嵌入；ii）基于区域的：将共同对象区域与非共同区域分开；iii）基于全局性的：强制全局图像语义与共同语义匹配。

我们进一步通过异步伪标签更新方法进行自训练来增强协同分割，并利用基础分割模型SAM来提高性能。我们的主要贡献包括：

•

据我们所知，我们引入了第一个基于CLIP的自监督零样本协同分割框架。

•

我们提出了一种迭代区域过滤器和三种区域-文本对齐学习方法，用于自监督零样本协同分割。

•

我们引入了一种基于自训练的异步伪标签更新方法，并利用SAM来进一步提高性能。

在十个数据集上的广泛实验证明了我们的框架优于现有最先进方法。

方法

在本节中，我们首先在第3.1节介绍我们框架的流程。然后，在第3.2节描述共同文本嵌入的提取，在第3.3节描述迭代区域过滤器。接下来，在第3.4节介绍区域-文本对齐学习方法，并在第3.5节描述自训练机制。最后，在第3.6节解释SAM的使用。

实验

数据集。遵循之前的工作[4]、[17]，我们在没有注释的COCO-SEG [40]训练集（200,000张图像，78个组）上训练我们的模型。对于评估，我们使用了四个标准的协同分割数据集[17]：(i) MSRC [41]：10个类别中的70张图像；(ii) Internet [42]：3个类别中的300张图像；(iii) iCoseg [43]：8个类别中的153张图像，其中包含6个未见类别；(iv) PASCAL-VOC-2010 [44]：20个类别中的1,037张图像。我们还在多个泛化数据集上评估了我们的SZCo模型。

结论

我们引入了第一个不使用任何预定义类别名称或密集注释的自监督零样本协同分割框架。我们首先使用CLIP推断出共同文本嵌入，然后提出一种迭代区域过滤器（IRF）来迭代过滤和区分共同区域和非共同区域。为了优化IRF，我们提出了三种基于文本、基于区域和基于全局性的区域-文本对齐策略，以强制共同区域和非共同区域之间的特征区分

CRediT作者贡献声明

Xin Duan：撰写 – 审稿与编辑，撰写 – 原始草稿，方法论，调查，形式分析，概念化。Yan Yang：撰写 – 审稿与编辑，方法论，调查。Liyuan Pan：撰写 – 审稿与编辑，方法论，形式分析，概念化。Xiabi Liu：撰写 – 审稿与编辑，方法论，概念化。Mingyang Gong：撰写 – 原始草稿，调查。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究

相关工作

方法

实验

结论

CRediT作者贡献声明

利益冲突声明

热点排行

新闻专题