基于跨模态先验信息语义协同的交互式图像分割

《Knowledge-Based Systems》：Interactive Image Segmentation Based on Semantic Collaboration of Cross-modal Prior Information

【字体：大中小】 时间：2026年02月27日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　提出基于跨模态语义协作的交互式图像分割方法SCIS，通过对比学习对齐点击位置与文本标签语义，结合协作注意力机制增强目标类特征表达，在九个数据集上验证其在自然图像任务中显著降低用户交互成本达30.04%，但医疗图像效果受限。

作者：王博宇、丁宗源、王宏远、张吉、陈迪科、唐嘉颖

单位：中国江苏省常州市和平路1号常州大学计算机科学与人工智能学院，邮编213164

摘要

基于点击的交互式图像分割旨在根据用户提供的点击位置提取感兴趣的目标对象。现有算法主要基于图像中像素与点击位置之间的欧几里得距离对点击进行编码。这种点击编码方法可以为算法提供目标的位置信息，但这种方法往往不区分对象所属类别，从而不可避免地激活与目标类别无关的对象。为了解决这个问题，我们模仿了人类的视觉感知系统，设计了一种基于跨模态先验信息语义协同的交互式图像分割方法。具体来说，我们首先将用户点击信息与标签文本结合，构建了一个具有类别意识的提示框架；该框架使编码器能够专注于当前任务中的目标类别。随后，我们使用对比损失将每个点击嵌入与共享特征空间中的相应文本嵌入对齐，从而使所有点击信息都能感知到目标的语义。为了将跨模态先验信息应用于图像特征，我们进一步提出了一种协同注意力机制来挖掘共享语义。分割网络能够一致地激活目标对象，确保特征提取具有类别意识。我们在九个数据集上进行了广泛的实验，结果表明，与SimpleClick相比，我们的方法在自然图像上的表现更好，用户交互成本降低了30.04%；然而，在医学图像上效果有限，这是由于缺乏领域特定的文本标签。这些实验突显了我们方法在交互式图像分割中的有效性。源代码可在以下链接获取：https://github.com/wby007/BY_SCIS.git

引言

交互式图像分割旨在根据先验信息生成高质量的目标掩码，在可控图像生成[1]、图像编辑[2]和医学图像分析[3]等各种应用中发挥着重要作用。目前流行的交互方法包括点击、涂鸦、边界框和文本描述。其中，基于点击的方法因其易用性和成熟的训练与评估协议而成为主流。

有效利用点击信息对于基于点击的交互式图像分割至关重要。与传统的交互式图像分割方法相比，深度学习算法通过基于距离的编码方法（如欧几里得距离图、高斯图和圆盘表示）有效利用了用户的点击输入。对于卷积神经网络（CNN）方法，点击编码通常沿通道维度与图像特征连接起来，以指导网络识别目标对象。然而，CNN模型的局部感受野限制了其捕捉深度特征中的长距离依赖关系的能力。为了解决这一限制，Liu等人[4]引入了SimpleClick模型，该模型以视觉变换器（ViTs）[5]作为其核心。SimpleClick将圆盘编码与先前的分割掩码结合，形成三通道输入。经过补丁嵌入后，该输入被逐元素地添加到图像补丁中，然后使用ViT进行处理。通过在整个模型中保持单一尺度架构，SimpleClick降低了模型复杂性并提高了交互效率。Sun等人[6]进一步提出了级联前向细化（CFR）-迭代点击损失（ICL）方法，他们将用户点击次数编码到损失函数中，使模型倾向于减少点击次数。尽管如此，先验信息的关键作用在于增强目标对象与背景之间的特征分布差异，同时减少类别内方差。这些方法在利用先验信息方面仍存在不足：它们要么简单地将先验信息连接起来，要么进行逐元素求和的补丁嵌入，要么单独编码先验信息[类似于Segment Anything模型（SAM）[7]]。这些策略未能有效捕捉目标语义，并充分学习目标对象与背景之间的区分特征，导致分割性能下降和用户交互难度增加。

相关研究[8][9]表明，人类视觉系统具有独特的感知能力。在处理视网膜输入时，皮层神经网络可以同时解释多模态信号，如神经电脉冲和语义信息。通过选择性注意力机制，大脑会关注核心目标，同时抑制非关注区域的表征，如图1所示。Bi等人[10]模仿了这一生物机制，提出了一种新的提示驱动方案，称为Prompt and Transfer（PAT）。值得注意的是，PAT为少样本分割建立了一个动态的、具有类别意识的增强框架。它利用提示来调整编码器，使其专注于当前任务中的目标类别。受这些研究的启发，并为了解决现有交互式图像分割模型中无关类别激活的问题，我们引入了提示学习技术，设计了一个动态的语义提示模块。该模块能够自适应地激活相关对象的表征，并实现对编码器的精细控制，如图1(b)所示。与通过固定提示增强编码器的PAT[10]相比，SCIS明确地将用户点击与文本标签提示对齐，使点击不仅传递位置信息，还传递类别级语义，从而实现高度准确的目标激活和强大的抗干扰能力。

具体来说，我们引入了一个跨模态语义提示模块。首先，用户提供的点击通过圆盘编码转换为点击图，并沿通道维度与上一轮的分割掩码连接起来。这种融合表示通过多层感知器（MLP）进行处理，生成具有位置意识的交互嵌入。接下来，根据训练数据集中的类别标签，我们使用对比语言-图像预训练模型CLIP[11]从统一模板（通用语言规范的图片[CLS]）中提取文本语义特征。此外，引入了一个随机初始化的可学习背景嵌入，形成语义文本提示令牌。这些包含目标位置和类别级语义的令牌通过专用模块融合，构建跨模态先验信息。在语义对齐阶段，采用对比损失将点击图中的区域级特征与类别级文本提示对齐。与点击区域对应的真实类别作为正样本，使点击信息能够映射到正确的语义类别，更好地捕捉用户的一致意图。随后，跨模态提示和图像令牌共同输入到共注意力模块中，双向注意力机制促进了跨模态融合。来自图像到提示和提示到图像过程的注意力输出被连接起来，实现整体集成。通过将学习到的先验令牌与图像令牌结合，增强了图像令牌中的前景表征，进一步提高了网络对目标类别语义的感知能力。此外，我们引入了一个判别损失函数，确保网络使前景和背景特征具有高度区分性。这限制了潜在空间中的类别内特征分布，同时增加了类别间特征分布的距离。

我们的方法将目标语义信息表达为跨模态先验信息，提高了图像令牌中前景的特征表达能力。在九个自然图像和医学图像数据集上的广泛实验表明，我们的方法在交互式图像分割方面具有优越性。我们的主要贡献如下：

通过模仿人类视觉感知系统，我们提出了一种基于跨模态先验信息语义协同的交互式图像分割方法SCIS。

我们引入了一个跨模态语义对齐模块，并应用对比提示学习将感兴趣目标的标签文本与用户交互信息对齐，构建了富含目标语义的初始化先验信息。

我们应用协同注意力机制将先验信息与视觉特征结合，增强了前景和背景之间的特征层次差异，减少了类别内变化，使网络能够一致地激活目标对象的类别特征。

方法

人类视觉感知系统可以有选择地关注关键对象，而将其他对象置于意识的浅层[8]。这一特性为交互式图像分割中具有类别意识的特征编码器的设计提供了重要灵感。具体来说，它促进了自适应的、具有类别意识的特征编码器的发展，该编码器可以根据目标类别动态激活相关对象的语义特征。

先验信息的利用

数据集

实验使用了以下在交互式图像分割任务中广泛认可的数据集来评估所提出的模型，包括GrabCut[13]、Berkeley[33]、DAVIS[34]、Pascal VOC[35]、SBD[36]、COCO[37]、LVIS[38]、ssTEM[39]、BraTs[40]和OAIZIB[41]。其中，SBD和COCO + LVIS训练集用于训练模型，其他数据集（包括SBD验证集）用于评估模型。

GrabCut是一个经典的单一对象图像分割数据集，包含

讨论

我们通过引入标签文本与用户点击之间的对比学习来增强模型的高层语义理解。然而，这种设计在一定程度上限制了其泛化能力。我们的方法将文本提示严格绑定到特定类别，但面临三个主要限制：（i）文本对齐仅在训练期间发生，且在推理过程中不使用文本编码器；（ii）CLIP的封闭词汇表无法覆盖所有类别；（iii）缺乏领域特定的

结论

在这里，我们提出了一种交互式图像分割方法SCIS。该方法利用点击和文本的跨模态信息来增强目标的语义表示。我们的方法解决了点击编码中的语义不足问题，并减少了用户交互负担。广泛实验表明，SCIS在自然图像任务上表现良好，但在医学图像上效果有限，这是由于训练期间缺乏领域特定的文本标签。

CRediT作者贡献声明

王博宇：撰写——原始草稿、软件、方法论、调查、形式分析。丁宗源：撰写——审阅与编辑、监督、软件、方法论、概念化。王宏远：资源、调查、概念化。张吉：方法论、调查。陈迪科：验证、调查。唐嘉颖：撰写——审阅与编辑、调查、数据整理。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

作者感谢编辑和匿名审稿人的宝贵意见和建议。本工作部分得到了国家自然科学基金（项目编号61976028）的支持。

摘要

引言

相关工作

方法

数据集

讨论

结论

CRediT作者贡献声明

利益冲突声明

热点排行

新闻专题