STSim-Mamb:一个用于无监督视频对象分割的时空相似性学习框架

《Image and Vision Computing》:STSim-Mamb: A spatiotemporal similarity learning framework for unsupervised video object segmentation

【字体: 时间:2026年03月04日 来源:Image and Vision Computing 4.2

编辑推荐:

  视频物体分割的时空相似性学习框架STSim-Mamba基于Mamba架构,通过非因果选择性扫描机制捕捉长序列时空依赖,结合动态原型内存库和跨帧一致性约束提升分割精度与效率,在DAVIS和YouTube-VOS上达到89.5和86.8的J&F分数,实时处理速度26.3 FPS。

  
Maojin Sun | Minghui Sun
中关村云数据存储技术有限公司(北京),中国北京市经济技术开发区创业九路15号院,邮编101111

摘要

视频对象分割是计算机视觉中的一个关键任务,具有广泛的应用领域。无监督学习方法在这一领域受到了广泛关注,但目前的方法在处理对象遮挡、变形、多对象交互以及长视频序列中的时空一致性等问题时仍面临挑战。为了解决这些问题,我们提出了STSim-Mamba,这是一个基于Mamba的时空相似性学习框架。该模型有效地将Mamba驱动的时空相似性学习与非因果选择性扫描机制相结合,以提高复杂视频场景中的准确性和一致性。STSim-Mamba结合了选择性搜索生成的区域提议和来自PWC-Net等光流估计网络的密集运动信息,并引入了时空一致性约束模块来改进跨帧语义融合和运动引导的对齐。需要明确的是,选择性搜索仅用于离线训练阶段以构建一致性约束损失,在在线推理过程中完全被移除。通过利用前向和后向状态传播,STSim-Mamba能够捕捉视频序列中的长距离依赖关系,显著提高分割精度和稳定性。实验结果表明,STSim-Mamba在DAVIS 2017和YouTube-VOS数据集上的表现优于现有的代表性无监督视频对象分割方法,在DAVIS 2017上的J&F得分为89.5,在YouTube-VOS上为86.8,显示出显著的分割精度提升。此外,STSim-Mamba还表现出高计算效率和实时推理速度,处理长视频序列时的速度可达26.3 FPS,这得益于无需选择性搜索的GPU加速推理流程。总之,STSim-Mamba为无监督视频对象分割任务提供了一种创新且高效的解决方案,具有很强的实际应用潜力。

引言

随着视频数据的快速增长,视频理解技术已成为计算机视觉研究的关键焦点。视频对象分割旨在精确分割和跟踪跨帧的动态对象,确保空间和时间的一致性[1],[2]。这项技术可以应用于智能监控、自动驾驶汽车、视频编辑和增强现实等领域。智能监控系统需要准确的对象分割来检测异常[3],[4];自动驾驶系统需要实时的对象分割以确保安全。视频编辑和增强现实依赖于高质量的分割来实现视觉效果和交互[5],[6]。医学成像视频中病变区域的准确分割可以提高诊断效率和精度[7]。
视频对象分割仍然面临挑战。视频数据包含复杂的时空动态特性。对象会经历遮挡、快速运动、外观变形和背景变化。这些因素使得跟踪和分割变得复杂[8],[9],[10]。传统的CNN能够很好地提取局部空间特征,但它们的感受野较窄。局部卷积操作限制了它们的性能。捕捉长距离的时间依赖关系仍然很困难。全局信息也难以获得[11]。在复杂的动态场景中,分割性能往往不尽如人意。近年来,Transformer架构因其自注意力机制而成为处理视频任务的主流方法,能够建模全局依赖关系。基于Transformer的方法在各种视觉任务中取得了优异的结果,但面临高计算复杂性和大内存消耗的问题,尤其是在处理高分辨率、长视频序列时。这导致了部署瓶颈[12],[13],[14]。此外,这些模型通常依赖于大量的标注数据,而标注成本高昂以及数据稀缺限制了它们在无监督环境中的应用。无监督视频对象分割因其无需标注数据即可进行而受到了广泛关注。这项任务依赖于视频帧之间对象的内在时空一致性和动态变化,通过自主学习视频序列中的时空对应关系和特征演化来实现精确分割[15],[16],[17]。基于对比学习和记忆机制的无监督方法已经出现,通过构建正负样本对并动态更新特征记忆库,显著增强了模型的泛化能力和适应性[18],[19]。辅助信息(如光流估计和区域提议)的整合在跨帧时空信息融合中起着关键作用,提高了分割的连贯性和准确性。然而,现有的无监督方法在捕捉长视频序列中的全局时空相关性、适应动态对象变形以及计算效率方面仍存在显著不足,特别是在复杂的多对象环境中,鲁棒性仍有待提高。
为了解决这些挑战,结构化状态空间模型(SSMs)中的Mamba模块因其线性时间复杂性和高效的长序列建模能力,近年来成为视频时间分析领域的一个新兴热点。Mamba通过选择性扫描和动态加权机制实现了细粒度局部时空特征与全局时间信息的有机融合,大幅降低了计算和存储资源消耗。它在视频分类和动作识别方面表现良好。然而,关于Mamba在无监督视频对象分割中的应用研究仍处于早期阶段。目前缺乏与无监督对比学习技术的深度整合,也未完全解决跨帧对象对应关系、动态遮挡和外观变化等问题。
针对这些问题,我们提出了一个基于Mamba的时空相似性学习框架,名为STSim-Mamba。该框架创新地将结构化状态空间模型与无监督对比学习相结合。它使用非因果扫描机制捕捉长视频序列中的全局时空依赖关系。动态原型记忆库能够适应对象外观和变形的变化,而对象级一致性约束确保了分割的跨帧语义稳定性。STSim-Mamba不仅显著提高了计算效率和内存利用率,还降低了处理长视频的难度。在多个公开可用的无监督视频分割基准测试中,它展现了优越的分割性能和泛化能力。本文系统地介绍了STSim-Mamba的模型设计、训练策略和实验验证,为无监督视频对象分割任务提供了高效且稳健的解决方案。
为了进一步阐明我们工作与现有基于Mamba的无监督视频对象分割(UVOS)方法的新颖性和优势,我们总结如下核心贡献:
  • 我们提出了基于结构化状态空间模型(SSM)的ST-Mamba编码器,该编码器采用非因果选择性扫描机制,以线性复杂度高效捕捉长视频序列中的全局时空依赖关系。这种编码器不是简单的Mamba实现,而是针对UVOS场景进行了优化,充分利用了Mamba的长距离时间建模优势,克服了传统Transformer的计算瓶颈,优于以往基于Mamba的编码器。这显著增强了模型对长时视频的表现能力和计算效率,克服了传统Transformer的计算瓶颈。
  • 我们设计了一个动态原型记忆库模块,该模块结合了对比学习和记忆增强网络。与现有基于Mamba的UVOS方法中的通用记忆库不同,该模块专为与ST-Mamba编码器协同工作而设计,通过Mamba引导的原型初始化和更新规则实现对象外观变化的自适应建模。该模块实时存储和更新超像素级别的视觉特征原型,从而实现了对象外观变化和变形的自适应建模,大大增强了无监督视频对象分割的鲁棒性和泛化能力。
  • 我们引入了基于选择性搜索区域提议(仅用于训练)和PWC-Net光流估计(仅用于训练)的对象级一致性约束。这种约束机制将Mamba的时间建模线索与光流相结合,减轻了遮挡和背景干扰,这是现有基于Mamba的UVOS方法所缺乏的,后者缺乏鲁棒的跨帧一致性设计。通过应用跨帧对比损失,我们增强了对象的时间语义一致性,有效减轻了遮挡和背景干扰,提高了分割精度和时间稳定性,将无监督视频对象分割的性能提升到了新的水平。
本文的结构如下:第2章回顾了相关领域的研究进展,第3章详细介绍了STSim-Mamba的模型结构和关键技术,第4章介绍了实验设计和性能评估,第5章总结了未来的研究方向。

章节片段

视频对象分割

作为计算机视觉领域的核心问题,视频对象分割长期以来一直吸引着研究人员的关注。针对这一任务的研究方法已经从传统的基于图像处理的手工特征提取发展到深度学习驱动的端到端建模。随着深度神经网络技术(特别是卷积神经网络(CNN)和后续的Transformer架构的兴起,视频对象分割的性能得到了显著提升

STSim-Mamba架构概述

STSim-Mamba模型整合了结构化状态空间模型(SSMs)进行时间建模。该模型使用无监督学习进行时空相似性挖掘,解决了长序列视频对象分割中的效率和准确性问题。该架构包括三个核心模块:ST-Mamba编码器、动态原型记忆库和对象级一致性约束模块。见图1。
ST-Mamba编码器使用选择性扫描机制对时空信息进行编码

数据集和预处理

为了全面评估所提出的STSim-Mamba模型在无监督视频对象分割(VOS)中的有效性,我们在两个广泛使用的基准数据集DAVIS 2017和YouTube-VOS上进行了实验。这两个数据集在规模、时间跨度和注释粒度方面互补,为评估分割精度、时空一致性和泛化能力提供了全面的测试平台。
DAVIS 2017 [53] 是一个高质量的数据集,包含150

讨论

本文介绍了STSim-Mamba模型,这是一个基于Mamba架构的无监督视频对象分割框架,采用时空相似性学习范式。通过建模视频序列中的细粒度时空相关性,该模型在复杂场景(包括动态场景、目标遮挡和多对象交互)中提高了分割精度和时间稳定性。STSim-Mamba结合了选择性搜索生成的区域提议

CRediT作者贡献声明

Maojin Sun:撰写——原始草案、软件开发、概念构思。Minghui Sun:撰写——审阅与编辑、可视化、监督、方法论。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号