随着高分辨率遥感成像技术的不断迭代,许多处理遥感图像的方法[1]、[2]取得了令人印象深刻的结果。其中,卫星遥感视频对象跟踪任务根据视频初始帧中的对象状态(即位置和大小)连续跟踪后续帧中的对象。它在民用、军事和公共安全领域具有很高的应用价值。然而,与一般场景中的传统对象跟踪不同,卫星遥感视频对象跟踪面临更多困难,如分辨率低、对象相似性和遮挡等。在上述挑战下,连续且稳定地跟踪卫星遥感视频中的对象是一项非常具有挑战性的工作。一方面,需要克服对象外观的低分辨率变化以实现连续稳定的跟踪;另一方面,还需要能够区分背景中的相似干扰物。
为了加速卫星遥感视频对象跟踪的快速发展,已经提出了许多方法[3]、[4]、[5]。这些主流跟踪方法主要分为两类:基于Siamese的方法和基于Transformer的方法。基于Siamese的跟踪算法根据网络计算对象与搜索区域之间的相似性,并使用ResNet提取对象特征以实现良好的跟踪性能。在此基础上,提出了越来越多的Siamese跟踪方法[6]、[7]。然而,卷积层的局限性导致某些跟踪场景下的精度较低。研究表明,有限的卷积核可能导致次优的跟踪结果[8]。一些工作[9]将Transformer和CNN结合用于卫星遥感视频跟踪,取得了比以往更好的实验结果。这些方法大多通过Transformer层融合搜索区域和模板特征。具体操作是将二维特征映射为一维特征,然后计算每个补丁的注意力分数。然而,这不可避免地破坏了被跟踪对象的空间结构分布,忽略了补丁之间的远程依赖关系。尽管Transformer方法在精度方面取得了良好结果,但它需要更多的计算资源,并且计算复杂度为二次方。同时,一些方法需要大量的训练数据,这对卫星遥感视频跟踪无疑构成了挑战。
最近,Mamba的提出为许多领域带来了新的框架,如对象检测、图像分割和视觉跟踪。与以前的方法相比,Mamba可以在保持基本准确性的同时,减少内存需求和计算资源,从而显著提高计算效率[10]。因此,将Mamba应用于卫星遥感视频对象跟踪是一种新颖的研究方法,具有解决卫星遥感视频复杂场景中各种挑战的巨大潜力。尽管Mamba在计算机视觉领域取得了成功,但在遥感视频对象跟踪方面仍需进一步探索。
如图1所示,遥感视频固有的低分辨率限制由于云层覆盖、大气颗粒物和空间成像过程中的光照变化等负面影响,进一步降低了视频序列的质量。因此,卫星遥感对象跟踪方法需要关注如何解决对象信息的稀缺性问题,并有效抑制其他干扰的影响[11]。在噪声干扰的情况下,准确区分对象和背景并设计高效的视觉特征提取尤为重要。不仅需要准确识别模板和搜索区域之间的复杂依赖关系,还需要有效地捕获和整合视觉信息以实现更准确的对象定位和跟踪。许多工作通过利用记忆网络[12]将历史帧融合到跟踪框架中来提高跟踪性能。然而,直接使用历史帧无疑会增加计算复杂性,并保留历史帧中无用的背景信息。同时,也有一些方法[13]无法从历史帧中完全提取有用的视觉特征,需要大量的参数。
在卫星遥感视频对象跟踪中,跟踪器必须在几个独特且具有挑战性的条件下运行,包括极小的对象尺寸、微弱且模糊的外观线索、长的时间序列、频繁的遮挡以及大规模的空间背景。这些特性使得传统跟踪框架难以同时实现强大的全局上下文建模、细粒度的局部表示和计算效率。
为了解决这些挑战,我们提出了一种结合记忆增强的联合Mamba-Transformer跟踪框架,用于实时卫星遥感视频对象跟踪,称为MTTrack。MTTrack的核心动机是以高效且计算效率高的方式解耦局部和全局依赖关系建模。具体来说,该框架包括一个特征提取网络、一个记忆增强网络和一个预测头。组内Transformer编码器用于捕获细粒度的局部依赖关系,并为小而视觉上较弱的目标增强区分性表示,而组间Mamba编码器则以线性计算复杂度高效地建模跨组的长期全局依赖关系。这种设计使MTTrack能够在不产生全自注意力 prohibitive 成本的情况下利用全局上下文信息,这对于高分辨率卫星视频尤为重要。
此外,为了提高对卫星场景中常见的遮挡和外观退化的鲁棒性,我们引入了一种受扩散启发的解码器,利用历史记忆来稳定对象随时间的定位。此外,设计了一种双路径权重感知排序策略,以解决Mamba在处理组嵌入时的排序敏感性问题,确保更可靠的上下文信息聚合。
本工作的主要贡献总结如下:(a) 我们提出了一个针对卫星遥感视频对象跟踪独特挑战的联合Mamba-Transformer框架,实现了全局依赖关系建模和计算效率之间的有效平衡。(b) 我们设计了一种新颖的双路径权重感知排序机制,使得在Mamba架构内更鲁棒和结构化地利用组嵌入。(c) 我们引入了一种具有记忆增强的扩散启发式解码器,以提高遮挡和外观退化下的跟踪鲁棒性。(d) 在SV248S、SatSOT、SkySat-1和VISO数据集上进行了广泛的实验。实验结果表明,MTTrack优于之前的最先进跟踪方法,并能在真实的卫星遥感视频数据集上取得优异的结果。