StratiFormer：一种用于视频对象检测的分层时序变换器

《Knowledge-Based Systems》：StratiFormer: Stratified Temporal Transformer for video object detection

【字体：大中小】 时间：2026年05月11日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　郑文涛|郑洪|孙玉泉|荆颖北京航空航天大学自动化科学与电气工程学院，中国北京100191摘要在视频对象检测（VOD）中，利用时间线索对于缓解常见的视觉退化（例如运动模糊和遮挡）至关重要。现有方法从短距离特征增强到长距离依赖性聚合不等，有些方法试图结合两者。尽管取得了实质性进展，但

郑文涛|郑洪|孙玉泉|荆颖

北京航空航天大学自动化科学与电气工程学院，中国北京100191

摘要

在视频对象检测（VOD）中，利用时间线索对于缓解常见的视觉退化（例如运动模糊和遮挡）至关重要。现有方法从短距离特征增强到长距离依赖性聚合不等，有些方法试图结合两者。尽管取得了实质性进展，但大多数设计仍然将时间聚合与多尺度特征构建分离。特别是，许多方法采用统一的时间聚合范围覆盖所有特征级别，这种做法忽略了低级别特征用于精细定位和高级特征用于抽象语义的不同时间需求。这一限制限制了模型根据特征层次结构自适应利用时间信息的能力。为了解决这个问题，我们提出了分层时间Transformer（StratiFormer）。StratiFormer将长距离和短距离时间线索的融合直接集成到跨尺度特征构建过程中，实现了特征级别的自适应时间聚合。此外，它采用了一种分层选择机制来识别和处理每个特征级别上稀疏但具有信息量的时间特征集，使模型能够将计算资源分配给最相关的候选特征。在ImageNet VID基准测试中，StratiFormer的mAP达到了88.2%。

引言

在自动驾驶和智能监控等关键应用中[1]，准确识别和定位视频流中的对象是至关重要的。这项任务被称为视频对象检测（VOD），它将传统的对象检测从静态图像扩展到时间维度，既带来了机会也带来了挑战。VOD的一个关键优势是，视频中的时间线索可以补偿常见的视觉退化，包括运动模糊、部分遮挡和大的姿态变化[2]。因此，高效有效地利用时间信息已成为VOD[3]、[4]、[5]中的核心研究问题。

为了利用时间线索，VOD的先前工作主要沿着两个方向发展。第一种研究侧重于短距离时间信息。代表性的方法，如FGFA[6]和DFF[7]，使用光流来对齐和聚合相邻帧的特征，旨在强化当前帧的表示并减轻单帧推理中的退化。然而，光流计算通常是一个效率瓶颈[8]。第二种研究针对长距离依赖性。方法如RDN[9]和SELSA[10]引入了关系网络来模拟长距离的时空交互。最近，Transformer架构为建模长距离依赖性提供了有效的方式，因为自注意力可以并行捕获全局上下文。TransVOD[11]、[12]及相关方法将时间Transformer引入VOD，实现了端到端的全局时空建模。这些长距离聚合机制在扩展的时间窗口内建立特征关联，生成时间上连贯的对象实例表示。MEGA[13]进一步通过利用短距离运动线索进行精确定位，并使用长距离全局上下文进行语义补全，结合了短距离和长距离时间信息。

MEGA的成功突显了整合异构时间线索的重要性，并激发了更深入地研究时间信息如何与多尺度表示相互作用。我们观察到，不同的退化会在特征层次结构中引起不同的时间依赖性。例如，运动模糊主要损坏低级别细节，通常需要短距离的运动相关补偿；同时，它可能会削弱高级表示的语义可区分性，这通常需要更长的范围上下文证据。相反，对于被遮挡的小对象，不稳定的低级别线索可能受益于更长的轨迹关联来验证目标的持续存在，而已经较弱的语义可能更多地受益于短距离的时间动态来支持分类。这些观察表明，最佳的时间聚合策略应该根据特征级别进行自适应，而不是固定或与级别无关。为了直观理解，图1提供了这种基于级别的时间偏好的概念性说明。

目前，VOD中广泛采用的设计范式是独立处理每一帧，通过FPN[14]中的跨尺度融合构建特征金字塔，然后应用时间聚合。然而，这种范式有一个显著的局限性：它通常在所有特征级别上应用几乎相同的时间聚合策略，通常使用共享的时间窗口和共享的聚合操作符。只有在空间特征完全形成后，才会进行时间校正。具体来说，在多尺度融合的早期阶段，并没有利用时间线索来减轻噪声或不可靠的特征。一旦这些不可靠的特征被融合并在各个级别传播，它们的错误可能会被后续的自上而下和自下而上的路径重新使用，并可能通过跨级别信息流进一步传播，从而降低最终特征的质量[15]、[16]。因此，一个有前景的方向是将时间聚合更紧密地集成到多尺度特征融合中，实现每个融合步骤下的层次自适应时间增强和校准。

为了解决这些挑战，我们提出了分层时间Transformer（StratiFormer）。核心思想是将时间聚合模块直接插入多尺度融合路径中，以便在跨级别传播之前对特征进行时间细化。这种设计允许模型在端到端训练期间学习特征级别特定的时间依赖性，并适应性地调节来自不同时间范围的贡献。目标是在抑制由单帧退化在多尺度层次结构中引起的噪声传播的同时，共同优化定位和分类。因此，StratiFormer将静态特征提取转变为嵌入多尺度融合管道中的时间增强特征构建过程。我们的主要贡献总结如下：

1.
我们提出了一个称为跨尺度协同时间增强（CSTE）的新框架。CSTE将时间聚合紧密集成到多尺度融合路径中，并在每个融合步骤进行校准。这种设计有助于抑制特征层次结构中单帧不确定性的传播和放大，解决了传统后聚合范式的一个关键限制。
2.
在CSTE中，我们设计了一个层次感知时间注意力（LTA）模块。每个LTA模块维护特征级别特定的参数，使其能够学习不同特征级别的不同时间依赖性——从局部运动相关补偿到长距离语义推理——从而得出与特征层次结构对齐的聚合策略。
3.
为了进一步提高效率和效果，我们引入了一种分层特征选择（SFS）机制。通过过滤背景主导的标记并在时间内存中保持一组稀疏的前景特征，SFS减少了计算和内存开销，同时提高了时间建模的信噪比，确保LTA专注于最具信息量的内容。
4.
在ImageNet VID[17]基准测试上的实验表明，StratiFormer实现了具有良好效率的竞争性检测性能，验证了所提出方法的有效性。

本文的其余部分组织如下：第2节回顾相关工作；第3节详细介绍所提出的方法；第4节展示实验设置和结果；第5节总结本文。

章节片段

对象检测

图像中对象检测的发展已经从Faster R-CNN[18]、[19]、[20]等为代表的两阶段方法，发展到YOLO系列[21]、[22]和SSD[23]等的一阶段检测器。近年来，DETR[24]引入了基于对象查询和匈牙利匹配的端到端检测范式。为了解决收敛速度慢和高计算成本的问题，提出了一系列后续方法。Deformable DETR[25]通过稀疏多尺度

概述

图2展示了StratiFormer的整体架构。关键思想是将时间建模嵌入到多尺度特征的构建中，实现在层次结构的每个阶段进行特征增强。StratiFormer由三个组成部分构成。首先，我们提出了CSTE，它将时间聚合和多尺度特征融合集成到一个统一的管道中（第3.2节）。其次，我们设计了LTA作为CSTE中的核心操作符，以实现特征级别的自适应时间

数据集

我们在ImageNet VID基准测试上评估了StratiFormer，这是一个标准的VOD数据集。ImageNet VID包含3862个训练视频片段和555个验证片段，涵盖30个对象类别。由于帧的大量冗余，对所有帧进行训练效率低下。遵循常见做法，我们均匀采样每个训练序列并选择15帧进行训练。为了提高特征提取器对多样化姿态和罕见视角的泛化能力，我们采用了混合训练方案

结论

我们提出了StratiFormer，以解决现有VOD方法的一个关键限制：时间聚合通常与多尺度特征构建大幅分离。StratiFormer引入了CSTE框架，将LTA直接集成到多尺度融合过程中，使得时间细化和跨尺度特征构建一起优化。此外，提出的SFS机制能够高效地选择具有信息量的时间线索，并支持更长时间范围的时间

CRediT作者贡献声明

郑文涛：撰写——审稿与编辑，撰写——原始草稿，可视化，验证，软件，方法论，概念化。郑洪：撰写——审稿与编辑，项目管理，方法论，形式分析，概念化。孙玉泉：撰写——审稿与编辑，监督，项目管理。荆颖：撰写——审稿与编辑。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文中报告的工作。

摘要

引言

章节片段

对象检测

概述

数据集

结论

CRediT作者贡献声明

利益冲突声明

热点排行