FETrack:基于单流框架的对象跟踪特征增强技术
《Digital Signal Processing》:FETrack: One-Stream Framework-Based Feature Enhancement for Object Tracking
【字体:
大
中
小
】
时间:2026年01月23日
来源:Digital Signal Processing 3
编辑推荐:
特征增强与跨深度模板融合的一流跟踪器FETrack提出,通过全局增强模块抑制背景干扰,跨深度模板融合模块提升上下文信息传递,结合无监督困难样本学习与蒸馏微调优化,在六项基准数据集上实现32fps的SOTA性能。
陈月|徐慧英|朱新忠|何学东|李洪波|李毅
浙江师范大学智能教育技术及应用重点实验室,金华,321004,中国
摘要
基于Vision Transformer(ViT)的单流架构已成为目标跟踪领域的主流框架。然而,它们的性能受到相似物体干扰和背景干扰的影响。为了解决这些限制,本文提出了FETrack,这是一种旨在提高特征区分度的单流跟踪器,以改善目标跟踪效果。FETrack的核心创新点如下:1)全局增强(GE)和跨深度模板融合(CDTF)模块:GE模块采用了一种新颖的全局特征提取机制来抑制背景干扰,而CDTF模块通过跨深度模板融合确保上下文信息的高效传播。2)一种无监督的硬样本学习策略,该策略引入了对比学习,并将每个候选标记视为独立实例,从而提高特征区分度。3)一种基于蒸馏的微调方法,通过特征蒸馏指导整个主干网络的参数优化,实现新集成模块的有效调整,并确保它们与原始架构的协同作用。在六个基准数据集上的实验结果证明了FETrack的有效性,并确认了其先进的性能。此外,还验证了所提出方法对其他单流跟踪器的改进效果。
引言
目标跟踪是计算机视觉中的一个基本任务,其目标是根据视频序列中任意初始化的目标来确定后续帧中目标的位置。物体状态的连续变化和任意物体外观特征的建模是目标-背景区分的关键挑战。在跟踪框架的开发中,基于孪生网络的跟踪器[1]、[2]、[3]、[4]、[5]通过计算模板特征和搜索特征之间的相似性取得了显著的成功。这一性能促进了孪生范式在当代跟踪器设计中的广泛探索。Transformer网络的出现导致了派生出的ViT[6]在各种图像相关任务中的广泛应用,它带来了显著的性能提升。因此,ViT已被有效地用作目标跟踪的特征提取主干网络,从而实现了显著的性能提升。
基于Transformer的跟踪方法研究大致分为两类:单流跟踪器[7]、[8]、[9]、[10]和双流跟踪器[11]、[12]、[13]、[14]。双流跟踪器(如孪生跟踪器)在计算相似性之前分别从模板和搜索补丁中提取特征。相比之下,单流Transformer跟踪器将模板和搜索补丁作为统一输入进行处理,并进行联合特征提取。与双流跟踪器相比,单流跟踪器具有更简洁的架构。它们整体集成了特征提取,从而增强了模板和搜索补丁之间的特征交互。作为单流跟踪器的代表,OSTrack[9]受到了研究人员的广泛探索,并扩展到了ODTrack[10],用于标记的时间传播。ODTrack继承了OSTrack的候选消除模块和主干结构。候选消除模块有效地消除了大量低质量标记,从而大幅提高了训练和推理效率。
目前,目标跟踪中存在几个值得关注的问题:1)目标跟踪任务的一个定义特征是跟踪目标的唯一性,因此其特征的理想分布模式类似于高斯核。高斯核先验有助于跟踪器获得更稳健的特征[15]、[16]。然而,目标位置的不确定性可能导致先验高斯核的峰值与实际目标之间的不对齐。此外,现有的多头注意力机制作为通用特征提取器,缺乏针对跟踪任务特性的专门设计。2)修改后的跟踪器主干通常保留了原始配置的预训练参数,而在训练之前没有针对适应后的结构进行特定的微调。因此,这些修改后的主干通常与头部一起进行训练。3)在单流框架内,现有的候选消除模块仅限于消除简单样本,但它们缺乏区分硬样本的精细设计。此外,更深层次的模板标记受到剩余候选标记的强烈影响,这可能导致上下文理解的次优。
因此,本文的目标是利用类似高斯的单峰特性来提高特征区分度,同时避免使用平均池化。尽管平均池化被广泛用作特征增强方案和注意力机制中的全局特征提取策略[15]、[17]、[18]、[19],但它可能会削弱目标相对于背景的独特信息。此外,上述问题2和3主要源于以下因素:首先,修改后的主干的预训练涉及额外的训练任务并消耗大量时间,目前缺乏在主要训练阶段之前专门用于微调主干参数的方法[20]、[21]。其次,候选消除模块处理的候选标记未得到充分利用,特别是在识别和利用硬样本方面。第三,虽然提高效率是有益的,但过度消除候选标记可能会限制深层模板标记可用的交互上下文。
在本文中,我们提出了FETrack跟踪器,它是对ODTrack跟踪器的改进。在FETrack中,为了生成更稳健的目标跟踪特征,我们设计了全局增强模块来提高标记之间的区分度。与常用的平均池化函数相比,GE采用了一种单峰突出函数,这更符合跟踪任务的实际需求。我们不是简单地将GE模块外部附加到主干上,而是将它们嵌入到ViT的每个编码器块中。为了传播候选标记在不同深度交互的模板信息,我们设计了CDTF模块。为了实现硬样本学习,我们采用了来自对比学习的InfoNCE损失[22]、[23]。这种损失最初是为自监督任务设计的,它为正样本和负样本构建了伪标签。我们方法的新颖之处在于通过利用跟踪任务中固有的实例区分性,将InfoNCE损失适应于无监督学习,其中候选标记被视为独立样本。
上述的GE和CDTF模块为ViT主干网络引入了新的参数,这些参数需要有效的初始化。虽然最佳性能通常依赖于在ImageNet上预训练或使用MAE[20]、[21]进行预训练的主干,但这些方法往往涉及额外的学习任务和相当大的计算开销。因此,传统的预训练方法不适合对主干网络进行部分架构修改。为了解决有效初始化和优化这些新引入参数的挑战,我们提出了一种基于蒸馏的微调方法。这种方法利用特征蒸馏来优化这些未训练的参数,仅使用四个现有的跟踪任务数据集:LaSOT、GOT10k、TrackingNet和COCO,而无需引入外部训练数据。
本文的贡献总结如下:
•(1)为了提高特征表示的区分能力,我们设计了一个全局增强模块,该模块采用了一种创新的全局特征提取机制来抑制背景干扰。此外,我们采用了跨层深度融合模板标记,以积极参与主干网络的特征提取过程。
•(2)通过利用候选标记的固有优势,我们将对比学习集成到硬样本学习中。候选标记被视为独立实例,从而实现了硬样本的无监督学习。
•(3)受特征蒸馏的启发,我们提出了一种基于蒸馏的微调方法来自适应初始化修改后的ViT主干,从而提高了跟踪器的性能。与在ImageNet和MAE上进行的大规模预训练方法不同,我们的方法消除了对额外训练数据集的需求,并提供了更简单的实现。
•(4)我们在六个基准数据集上进行了实验,我们的跟踪器实现了32 fps的先进性能。此外,我们验证了将所提出的方法转移到其他单流跟踪器中的可行性。
相关工作
相关工作
近年来,目标跟踪领域得到了跟踪器设计[1]、[3]、[7]、[9]、[11]、[12]、[24]的进步以及更多跟踪基准[25]、[26]、[27]、[28]、[29]出现的支持。研究人员一直在探索能够实现准确目标跟踪的有效结构,例如早期相关滤波器[30]、[31]、[32],这些滤波器利用手工制作的特征来计算目标定位的相应模板。随着深度学习
方法
本节详细介绍了FETrack的总体框架及其四个改进组件:GE模块、CDTF模块、基于蒸馏的微调和候选标记的无监督硬样本学习。其框架如图1(a)所示。具体来说,GE模块增强了搜索区域的特征,CDTF模块融合了模板区域的特征,基于蒸馏的微调在GE和CDTF模块集成后优化了主干参数,
实验
在本节中,我们展示了所提出跟踪器在多个跟踪基准上的性能结果,并将其与其他最先进的跟踪器进行了比较。我们还进行了消融研究,以分析每种方法和模块在模型中的作用。
结论
本文提出了一种基于单流框架的改进型FETrack。在架构方面,我们将全局增强模块完全集成到主干网络中,设计了一种新颖的全局特征提取方法来指导全局特征提取过程。此外,我们将模板标记跨层传播以构建跨深度模板融合模块。通过充分利用候选标记的硬样本特性,我们实现了无监督的硬样本学习
CRediT作者贡献声明
陈月:概念化、方法论、数据管理、调查、验证、软件、撰写——原始草稿、撰写——审阅与编辑。徐慧英:形式分析、数据管理、数据管理、调查、项目管理。朱新忠:项目管理、资金获取。何学东:形式分析、撰写——审阅与编辑。李洪波:监督。李毅:撰写——审阅与编辑、监督。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
陈月于2021年在中国金华的浙江师范大学数学与计算机科学学院获得计算机科学与技术硕士学位,目前他正在攻读计算机科学与技术博士学位。他目前的研究兴趣包括目标跟踪和深度学习。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号