OVSMMFA-Net:一种基于多方向Mamba算法的特征聚合网络,能够有效处理对象的变化并用于视频对象检测
《Digital Signal Processing》:OVSMMFA-Net: An Object Variation Sensitive and Multi-direction Mamba based Feature Aggregation Network for Video Object Detection
【字体:
大
中
小
】
时间:2026年02月22日
来源:Digital Signal Processing 3
编辑推荐:
视频目标检测中,单个帧因运动模糊或失焦导致质量下降,传统方法难以有效聚合时空特征。本文提出基于Mamba的动态局部-全局特征聚合网络,通过变形感知特征提取模块和差异感知运算增强局部时序特征,同时利用多方向Mamba模块全局聚合时空关系,显著提升关键帧特征质量。实验表明在ImageNet VID数据集上优于现有方法。
姚婷婷|于建志|顾新宇|朱梅文|曹福晓|胡青
中国辽宁省大连市大连海事大学信息科学与技术学院,116000
摘要
视频对象检测是一项具有挑战性的任务,已经吸引了广泛的研究关注。由于单个视频帧的质量有时会因运动模糊或失焦而下降,因此提出了许多特征聚合方法。通过提取视频中的时空相关性,增强了每个帧的特征表示,从而提高了视频对象检测的准确性。然而,在对象变化或遮挡条件下,跨帧聚合有效的对象信息通常很困难。此外,由于质量下降的问题,对象的详细时空信息也难以探索。为了解决上述问题,提出了一种对对象变化敏感且基于多方向Mamba的特征聚合网络。首先,提出了一种对对象变化敏感的局部特征聚合器(OVSLFA)。借助设计的变形感知特征提取模块和差异感知运算符,可以探索相邻帧中运动对象的变化,并将更详细的对象信息有效地补偿到关键帧中。此外,还设计了一种多方向Mamba驱动的全局特征聚合模块(MMGFAM)。逐步计算关键帧与远距离支持帧之间的时空关系。在特征聚合过程中同时考虑了空间一致性和运动相关性,从而进一步提高了关键帧的特征表示质量。在广泛使用的ImageNet VID数据集上的定量和定性实验结果表明,所提出的网络比现有的最先进方法能够获得更好的视频对象检测结果。
引言
视频对象检测(VOD)旨在精确定位和分类视频序列中每一帧中的感兴趣对象。与传统的静态图像对象检测任务相比,视频对象检测在现实世界场景中具有更实际的应用价值,包括监控系统、运动分析、交通监控等[1]。因此,提高视频对象检测的准确性受到了广泛的研究关注。
由于视频由一系列时间连续的图像组成,传统方法通常独立地对每一帧应用静态图像检测器来获得连续帧之间的运动对象检测结果。然而,视频中的对象经常遇到由运动模糊或失焦引起的图像退化问题,这使得准确检测比静态对象检测任务更具挑战性[2]、[3]。在这种情况下,直接将静态图像检测器应用于视频通常会导致许多误检和漏检。
与静态图像相比,视频序列本身包含更丰富的时空上下文信息。因此,最近提出的视频对象检测方法主要关注如何有效利用帧间相关性来增强每个关键帧(当前检测图像)的特征表示,从而产生更好的检测结果。一些方法通过引入后处理操作来提高视频对象检测的准确性[4]、[5]。基于帧间相似性对单帧检测器的原始输出进行细化,从而获得更稳定和准确的视频对象检测结果。然而,这些方法在检测过程中未能利用时空上下文信息。当产生误检结果时,仅依靠后处理操作很难有效地优化检测结果。
为了在单帧检测过程中引入更多的时空信息,提出了一系列特征聚合方法。从相邻或选定的支持帧中提取局部或全局上下文信息,并通过特征聚合模块将其聚合到关键帧中。通过这种方式,增强了每个帧的特征表示,从而提高了检测性能。然而,连续帧中的遮挡和对象变化通常会在特征聚合过程中引入大量噪声。此外,传统的卷积操作在捕捉长距离空间一致性和运动相关性方面遇到挑战,这不可避免地影响了检测结果。为了解决上述问题,提出了一种基于单阶段YOLOV++的动态局部-全局特征聚合网络。本文的主要贡献可以总结如下:
(1) 提出了一种对对象变化敏感的局部特征聚合器(OVSLFA)。通过设计的变形感知特征提取模块(DAFEM)增强了关键帧和支持帧的特征表示。此外,引入了差异感知运算符用于局部时空信息对齐,以补偿关键帧中对象的更详细信息。
(2) 提出了一种多方向Mamba驱动的全局特征聚合模块(MMGFAM)。同时探索了空间一致性和运动相关性,从而提取了更准确的运动对象的时空信息。
(3) 从相邻帧和随机选择的帧中提取的局部和全局时空信息被动态聚合到关键帧中,从而获得了更准确的检测结果。
本文的其余部分组织如下。第2节回顾了与我们工作更相关的最近提出的基于深度学习的视频对象检测方法。第3节介绍了所提出网络的详细结构。第4节在ImageNet VID数据集上进行了定量和定性比较实验,以证明我们网络的有效性。最后,在第5节得出了本文的结论。
相关研究
相关工作
为了将更多的时空上下文信息纳入视频对象检测过程,当前的方法可以大致分为两类:基于后处理的方法和基于特征聚合的方法。本节主要分析与我们工作更相关的最近提出的基于特征聚合的方法。这类方法可以进一步分为提案级和帧级特征聚合方法。
整体结构
所提出网络的整体结构如图1所示。提出了一种基于单阶段YOLOV++的动态局部-全局特征聚合网络。我们专注于如何改进基础检测器以产生更好的检测结果。在多尺度特征融合阶段之前,设计了对象变化敏感的局部特征聚合器和多方向Mamba驱动的全局特征聚合模块。同时考虑了局部和全局时空信息
实现细节
在本文中,我们在最广泛使用的ImageNet VID数据集[23]上评估了所提出的网络。该数据集包含30个类别的各种对象。训练数据集包括3,862个视频,验证集包含555个视频。该数据集的主要挑战包括对象变化、遮挡、运动模糊、罕见姿势和失焦。与YOLOV++ [9]类似,我们的网络通过结合ImageNet VID和ImageNet DET [23]的数据进行训练
结论
本文提出了一种对对象变化敏感且基于多方向Mamba的特征聚合网络,用于视频对象检测。首先,选择几帧相邻帧,并提出了一种对对象变化敏感的局部特征聚合器进行局部特征聚合。借助设计的变形感知特征提取模块,选择性地提取了运动对象的更详细信息,同时抑制了噪声干扰。此外,全局
CRediT作者贡献声明
姚婷婷:概念化、方法论、写作——原始草稿、资金获取。于建志:软件开发、调查、可视化、写作——原始草稿。顾新宇:调查、写作——审稿与编辑。朱梅文:数据整理。曹福晓:写作——审稿与编辑。胡青:监督。
利益冲突声明
作者声明他们没有已知的可能会影响本文所述工作的财务利益或个人关系。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号