问题背景。视频对应任务[1]旨在建立视频序列中多个帧之间对象或区域的一致性对应关系。为了避免高昂的标注成本,大多数方法[2], [3], [4], [5], [6], [7], [8], [9], [10]尝试通过未标记视频的自监督学习策略来学习视频对应关系,例如对比目标[4], [11]和视频着色[2], [10]。这些方法通常基于卷积网络(CNN),但仍需要大量的训练时间来从头开始训练整个模型。
得益于大规模的图像预训练,视觉变换器(ViT)[12], [13]在各种基于图像的任务[14], [15], [16]中取得了显著进展,如图像分类、语义分割和对象检测。尽管ViT在某些视频任务中表现出色,但其在视频对应任务中的有效性仍需进一步探索。尽管DINO [13]证明ViT在某些视频任务上优于CNN,但由于仅使用图像进行预训练,其性能仍不尽如人意。本文进一步挖掘了预训练ViT在视频对应任务中的潜力。动机。一种直接的方法[6]是在视频数据上对基于图像的预训练模型进行完全微调,如图1(b)所示。然而,完全微调ViT既耗时,又可能破坏图像预训练过程中产生的有意义的表示。为此,我们提出了一种快速适应方法,即在更新新添加的适配器时保持预训练的ViT不变,从而有效地将视频对应能力赋予图像模型(图1(c))。该适配器简单且轻量级,由两个卷积层和一个自注意力变换器块组成1,仅消耗整个流程参数的1.4%。
没有免费的午餐。我们尝试使用现有的自监督方法[13]直接在视频数据上训练适配器,但这种方法仅取得了有限的性能提升。主要存在两个问题:(i)帧间一致性问题。适配器缺乏不同帧之间的时间一致性,导致难以准确跟踪目标对象,如图2所示。(ii)帧内区分能力问题。模型无法很好地区分帧内的特定目标与其他对象或背景。
为了解决这些挑战,我们提出了,这是一种用于快速适应预训练视觉变换器(ViT)到视频对应任务的自监督方法。考虑到帧间一致性,我们提出了基于三元组的帧间一致性损失。与之前的方法[2], [6], [10]不同,这些方法在RGB空间中学习参考帧和目标帧之间的对应关系,我们引入了一个辅助帧来在特征空间中建立时间连贯性。具体来说,我们要求从参考帧重建的目标帧与新加入的辅助帧相同。这样,参考帧、目标帧和辅助帧形成了一个三元组,有效地确保了连续帧之间的时间一致性。为了增强帧内区分能力,我们提出了基于区域的帧内对比损失,以在帧内找到准确的对应关系。在实际应用中,我们首先从同一帧生成两个具有重叠区域的视图。然后,帧内对比损失将精确的重叠区域拉近,同时将其他区域推开。这种损失使模型能够在每帧中学习更强的局部对应关系,有助于提高对象的空间区分能力。
贡献。我们的I2V-Adapter在单个3090 GPU上的训练时间约为2.6小时,效率很高。它也适用于CNN框架,并且在包括视频对象分割、身体部位传播和人体关键点跟踪在内的多种视频对应任务中表现出竞争力甚至更优的性能。
本工作的主要贡献总结如下:
•我们提出了I2V-Adapter,这是一个完全自监督的框架,通过部署一个轻量级适配器,高效地将预训练的图像模型适应到视频对应任务中。
•我们提出了基于三元组的帧间一致性损失和基于区域的帧内对比损失,分别提高了模型的时间连贯性和空间区分能力。
•我们的I2V-Adapter不仅在不同视频对应任务中表现出优越的性能,而且训练时间也很短。