基于视觉基础模型的无偏语义解码方法在少样本分割中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Computation》：Unbiased Semantic Decoding With Vision Foundation Models for Few-Shot Segmentation

【字体：大中小】 时间：2026年02月10日 来源：Neural Computation 2.1

编辑推荐：

　　本文提出基于SAM的少样本语义分割方法，通过全局语义补充和局部像素级引导策略，结合CLIP的语义对齐能力增强特征表达，无需模型微调即可提升未知类别分割性能，在PASCAL VOC和COCO数据集上实现新SOTA。

　　```html

摘要：

少样本分割（FSS）引起了广泛关注。许多最新的方法尝试引入Segment Anything模型（SAM）来处理这一任务。由于SAM模型具有强大的泛化能力和丰富的对象特定提取能力，因此在FSS中显示出巨大潜力。然而，SAM的解码过程高度依赖于准确且明确的提示，这使得以往的方法主要集中在从支持集中提取提示，而这不足以激活SAM的泛化能力；此外，这种设计在适应未知类别时容易导致解码过程产生偏差。在这项工作中，我们提出了一种无偏语义解码（USD）策略，该策略与SAM集成，能够同时从支持集和查询集中提取目标信息，从而在对比语言-图像预训练（CLIP）模型的指导下进行一致的预测。具体来说，为了增强SAM的无偏语义区分能力，我们设计了两种特征增强策略，这些策略利用CLIP的语义对齐能力来丰富原始SAM特征，主要包括在图像级别进行全局补充以提供带有支持图像的通用类别指示，以及在像素级别进行局部引导以提供带有查询图像的有用目标位置。此外，为了生成以目标为中心的提示嵌入，我们提出了一个可学习的视觉-文本目标提示生成器（VTPG），该生成器通过交互目标文本嵌入和片段视觉特征来实现这一点。无需重新训练视觉基础模型，这些具有语义区分能力的特征能够在目标信息的引导下将注意力吸引到目标区域。在PASCAL-

热点排行

新闻专题

联系信箱：

粤ICP备09063491号