SCAFTrack：用于对象跟踪的跨层空间-通道协同注意力融合技术

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Image and Vision Computing》：SCAFTrack: Cross-layer spatial-channel collaborative attention fusion for object tracking

【字体：大中小】 时间：2026年02月27日 来源：Image and Vision Computing 4.2

编辑推荐：

　　目标跟踪中基于跨层空间-通道协作注意力融合的特征传播机制有效整合ViT多层级特征，通过跨层特征传播和SCAF模块自适应融合浅层细节与深层语义，提升复杂场景下的跟踪鲁棒性和精度。

卢玉超|高云|孙耀伟|王涛

云南大学信息科学与工程学院，昆明，650504，中国

摘要

由主干网络提取的特征是视觉目标跟踪任务中目标定位的基础。然而，现有的单流Transformer跟踪器通常仅使用原始Vision Transformer的最后一层输出特征来进行目标定位。Vision Transformer网络中丰富的特征表示尚未被充分利用来提高跟踪的鲁棒性。为了解决这个问题，我们提出了SCAFTrack，这是一种基于跨层空间-通道协作注意力融合的目标跟踪方法。该方法采用跨层特征传播机制，将目标显著信息从浅层中间特征传输到深层编码器，并与深层特征融合。它充分利用了多层特征的互补全局语义，增强了深层特征对目标的表示能力。在特征传播过程中，我们设计了一个空间-通道协作注意力融合模块，该模块协调空间和通道注意力机制，以最小的计算成本提取有效的浅层特征信息并将其与深层特征融合。在GOT-10k、TrackingNet和LaSOT等六个公开基准数据集上的广泛实验表明，我们的方法有效地从ViT主干网络的多层特征中聚合了有益信息，同时在各种具有挑战性的场景中显著提高了跟踪准确性和鲁棒性。

引言

视觉目标跟踪（VOT）[1] [2]是计算机视觉领域的一项基本任务，其目标是在给定目标对象在第一帧中的初始状态的情况下，预测后续视频帧中的目标对象的位置和状态。近年来，由于在计算机视觉中的广泛应用，包括视频监控、自动驾驶、交通监控和人机交互[3] [4]，单目标跟踪算法获得了显著的关注和大量的研究兴趣。尽管提出了许多目标跟踪算法，但由于外观和姿态变化、遮挡、运动模糊、背景杂乱、干扰物体和变形等各种因素，鲁棒跟踪仍然具有挑战性。

近年来，由于深度学习的发展，目标跟踪任务取得了显著进展。由主干网络提取的特征对于目标定位至关重要，并直接影响跟踪的准确性和鲁棒性。早期的主流跟踪方法大多使用卷积神经网络（CNN）[5]作为特征提取模块。典型的基于孪生网络的CNN跟踪方法[6] [7] [8] [9]使用共享参数的CNN从目标模板和搜索区域提取特征，随后的相关性建模实现了高效的操作和有竞争力的准确性。然而，CNN主干的局部感受野机制限制了其建模长距离依赖性和全局上下文信息的能力[10]。这在包括遮挡、背景杂乱和干扰干扰在内的具有挑战性的条件下导致性能显著下降。由于Transformer[11]在自然语言处理（NLP）中捕获长距离依赖性和建模全局上下文的强大能力，一些研究开始将其纳入跟踪任务中进行相关性建模，从而产生了多个CNN-Transformer跟踪器[12] [13] [14] [15]。这些跟踪器通过CNN提取低级特征，并使用Transformer建模高级语义关系，在一定程度上结合了两种方法的优点。然而，这些方法并未完全克服CNN在局部建模方面的局限性[16]。为了解决这个问题，提出了单流Transformer跟踪框架[17]，该框架使用Vision Transformer（ViT）[18]网络进行特征提取。该框架统一了从目标模板和搜索图像中提取和融合特征的过程，使得在单个网络内进行集成处理成为可能。这些跟踪器[19] [20] [21] [22] [23]充分利用了注意力机制来建模图像中的长距离依赖性，不仅有效地增强了目标特征的区分能力，还在准确性和效率之间取得了更好的平衡。基于ViT的单流Transformer跟踪框架已成为当前目标跟踪研究的主流方法。

单流Transformer跟踪器的显著优势在于ViT主干网络的特征提取能力，其基本架构如图1(a)所示。大多数单流跟踪方法遵循这一架构，仅依赖ViT的最后一层特征进行跟踪定位。这引发了以下问题：ViT的最后一层特征是否总是最优的？为了解决这个问题，我们之前进行了实验，探索了ViT主干网络不同层特征对目标跟踪的有效性。图2(a)显示了使用ViT主干网络第1到12层的输出特征进行目标定位的性能比较。我们发现，随着ViT主干网络深度的增加，跟踪性能指标也逐步提高，表明最后几层的特征对目标定位更有益。此外，最后几层的跟踪性能指标通常相似。那么，这些深层特征是否对目标表现出相同的注意力分布呢？我们进一步检查了ViT主干网络最后几层对目标的注意力图。如图2(b)所示，尽管最后几层的特征实现了相当的跟踪性能，但它们对目标的注意力并不完全一致。这表明ViT最后一层的特征从单一角度关注目标的语义信息，而最后几层的特征可以从不同角度关注目标的全局语义信息。这使我们假设：与仅依赖最后一层特征进行目标定位的方法相比，聚合ViT最后几层的区分特征是否可以提高跟踪性能？

HIPTrack_MLS [24]最初探索了如何利用ViT主干网络所有层的特征。如图1(b)所示，该方法通过MLP模块聚合每层的特征，并与最后一层的特征进行加权融合。它有效地结合了浅层详细信息和深层全局语义信息，从而在一定程度上增强了目标特征的区分能力。这种方法也验证了通过多层特征聚合来提高跟踪性能的可行性。然而，图2(a)中的曲线表明，浅层特征在定位方面的表现不佳，对跟踪有益的信息主要集中在最后几层的特征中。聚合所有层的特征可能会引入干扰，基于MLP的聚合难以有效地从每一层提取目标显著信息。

受到实验观察和文献[24]的启发，为了有效地聚合ViT主干最后几层对跟踪有益的信息，本文提出了一种基于跨层空间-通道协作注意力融合的目标跟踪方法，其结构如图1(c)所示。具体来说，本文设计了一种跨层特征传播机制，将浅层中间特征信息引入更深的跨层编码器中与深层特征融合。这种方法充分利用了多层特征的互补全局语义，增强了深层特征对目标显著信息的关注。为了有效地利用多层特征中的跟踪有益信息，我们还设计了一个空间-通道协作注意力融合模块（SCAF）。该模块采用空间-通道协同注意力机制，以低计算开销实现浅层特征和深层特征的自适应融合。

本文的主要贡献如下：

(1) 我们提出了一种基于跨层空间-通道协作注意力融合的目标跟踪方法。它通过跨层传播机制将浅层特征信息传输到深层编码器进行特征融合。这种方法聚合了ViT主干最后几层的特征信息，为目标定位提供了更丰富的多视角语义聚合。

(2) 我们设计了一个跨层空间-通道协作注意力融合模块（SCAF）。通过空间-通道协同注意力机制，该模块以低计算成本从多层特征中提取和融合目标显著信息，实现了多样化语义信息的有效聚合。

(3) 我们的方法已在六个主流目标跟踪基准数据集上进行了广泛评估，包括GOT-10k [25]、TrackingNet [26]、LaSOT [27]、UAV123 [28]、NFS [29]和TNL2K [30]。实验结果表明，与仅使用最后一层的单层语义特征进行目标定位相比，我们的方法有效地从ViT的最后几层聚合了对跟踪有益的信息，同时在最小的计算成本下显著提高了单流跟踪器的鲁棒性。

部分摘录

单流Transformer跟踪器

由于其卓越的长距离依赖性建模能力，Vision Transformer在各种计算机视觉任务中表现出色，成为视觉建模的新兴范式。对于视觉目标跟踪，跟踪算法已经从传统的基于CNN的跟踪器发展到完全基于Transformer的跟踪器。早期的Transformer跟踪方法主要采用了双流两阶段跟踪框架，如DualTFR [31]、SFTransT [32]

方法

我们提出了一种基于跨层空间-通道协作注意力融合的目标跟踪方法，旨在从ViT主干网络的多层特征中聚合目标语义显著信息，从而提高跟踪的准确性和鲁棒性。以下部分详细介绍了所提出方法的整体框架以及关键模块的设计和实现。

实现细节

所提出的跟踪器是用Python 3.7.13和PyTorch 1.13.0实现的。训练和测试都在配备NVIDIA RTX 4090 GPU（24 GB）的服务器上进行。

模型配置：我们采用预训练了MAE [47]权重的ViT-Base主干网络。跟踪头采用了一个轻量级的FCN，包括四个堆叠的Conv-BN-ReLU层，用于三个中心的回归输出。跨层特征融合模块嵌入在五个深度融合节点编码器中

结论

本文提出了一种基于跨层空间-通道协作注意力融合的目标跟踪算法，旨在深入探索主干网络中每一层的特征信息，并有效聚合目标显著信息，从而提高跟踪的鲁棒性。同时，它解决了大多数现有跟踪器仅使用最后一层特征而忽略浅层特征中包含的丰富目标信息的问题。

CRediT作者贡献声明

卢玉超：写作 – 审稿与编辑，写作 – 原始草稿，可视化，方法论，调查。高云：写作 – 审稿与编辑，资源，方法论，资金获取。孙耀伟：数据管理。王涛：方法论。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。

致谢

本工作得到了国家自然科学基金的支持，资助编号为62266051、61802337。

联系信箱：

粤ICP备09063491号

摘要

引言

部分摘录

单流Transformer跟踪器

方法

实现细节

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行