I2V-适配器：快速适配预训练图像模型以用于视频对应关系处理

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：I2V-Adapter: Fast Adapting Image Pre-trained Models for Video Correspondence

【字体：大中小】 时间：2026年02月11日 来源：Pattern Recognition 7.6

编辑推荐：

　　视频对应任务中，基于图像预训练的Vision Transformer（ViT）通过轻量级适配器实现高效迁移。适配器采用三重结构间跨帧一致性损失和区域化帧内对比损失，分别提升时空建模能力。实验表明该方法在视频物体分割、人体部位传播等任务中性能优于现有方法，且训练时间仅需全微调的17.3%。

中国哈尔滨工业大学

摘要

视觉变换器（ViT）在图像预训练中展现了强大的特征学习能力，但其在视频对应任务中的潜力尚未得到充分探索。虽然可以对ViT进行完全微调以适应这些任务，但这种方法通常会带来高昂的计算成本，而这往往是不必要的。为了解决这个问题，我们引入了I2V-Adapter，这是一个轻量级模块，它结合了基于三元组的全局帧间一致性损失和基于区域的帧内对比损失。该模块旨在快速调整预训练的ViT以适应视频对应任务，同时保持原始ViT参数不变。通过利用帧间损失来捕捉时间连贯性，以及帧内损失来增强每帧内的空间区分能力，我们的方法在包括视频对象分割、身体部位传播和人体关键点跟踪在内的多种视频任务中表现优于现有方法。此外，I2V-Adapter在计算上非常高效，仅需要大约2.6小时（相当于完全微调所需时间的17.3%）即可在单个NVIDIA RTX 3090 GPU上完成训练。

引言

问题背景。视频对应任务[1]旨在建立视频序列中多个帧之间对象或区域的一致性对应关系。为了避免高昂的标注成本，大多数方法[2], [3], [4], [5], [6], [7], [8], [9], [10]尝试通过未标记视频的自监督学习策略来学习视频对应关系，例如对比目标[4], [11]和视频着色[2], [10]。这些方法通常基于卷积网络（CNN），但仍需要大量的训练时间来从头开始训练整个模型。

得益于大规模的图像预训练，视觉变换器（ViT）[12], [13]在各种基于图像的任务[14], [15], [16]中取得了显著进展，如图像分类、语义分割和对象检测。尽管ViT在某些视频任务中表现出色，但其在视频对应任务中的有效性仍需进一步探索。尽管DINO [13]证明ViT在某些视频任务上优于CNN，但由于仅使用图像进行预训练，其性能仍不尽如人意。本文进一步挖掘了预训练ViT在视频对应任务中的潜力。动机。一种直接的方法[6]是在视频数据上对基于图像的预训练模型进行完全微调，如图1(b)所示。然而，完全微调ViT既耗时，又可能破坏图像预训练过程中产生的有意义的表示。为此，我们提出了一种快速适应方法，即在更新新添加的适配器时保持预训练的ViT不变，从而有效地将视频对应能力赋予图像模型（图1(c)）。该适配器简单且轻量级，由两个卷积层和一个自注意力变换器块组成¹，仅消耗整个流程参数的1.4%。

没有免费的午餐。我们尝试使用现有的自监督方法[13]直接在视频数据上训练适配器，但这种方法仅取得了有限的性能提升。主要存在两个问题：（i）帧间一致性问题。适配器缺乏不同帧之间的时间一致性，导致难以准确跟踪目标对象，如图2所示。（ii）帧内区分能力问题。模型无法很好地区分帧内的特定目标与其他对象或背景。

为了解决这些挑战，我们提出了，这是一种用于快速适应预训练视觉变换器（ViT）到视频对应任务的自监督方法。考虑到帧间一致性，我们提出了基于三元组的帧间一致性损失。与之前的方法[2], [6], [10]不同，这些方法在RGB空间中学习参考帧和目标帧之间的对应关系，我们引入了一个辅助帧来在特征空间中建立时间连贯性。具体来说，我们要求从参考帧重建的目标帧与新加入的辅助帧相同。这样，参考帧、目标帧和辅助帧形成了一个三元组，有效地确保了连续帧之间的时间一致性。为了增强帧内区分能力，我们提出了基于区域的帧内对比损失，以在帧内找到准确的对应关系。在实际应用中，我们首先从同一帧生成两个具有重叠区域的视图。然后，帧内对比损失将精确的重叠区域拉近，同时将其他区域推开。这种损失使模型能够在每帧中学习更强的局部对应关系，有助于提高对象的空间区分能力。

贡献。我们的I2V-Adapter在单个3090 GPU上的训练时间约为2.6小时，效率很高。它也适用于CNN框架，并且在包括视频对象分割、身体部位传播和人体关键点跟踪在内的多种视频对应任务中表现出竞争力甚至更优的性能。

本工作的主要贡献总结如下：

•

我们提出了I2V-Adapter，这是一个完全自监督的框架，通过部署一个轻量级适配器，高效地将预训练的图像模型适应到视频对应任务中。

•

我们提出了基于三元组的帧间一致性损失和基于区域的帧内对比损失，分别提高了模型的时间连贯性和空间区分能力。

•

我们的I2V-Adapter不仅在不同视频对应任务中表现出优越的性能，而且训练时间也很短。

I2V-Adapter

我们的基线是DINO [13]，因为它即使在仅使用图像进行预训练时也能在各种视觉任务中取得良好结果。为了高效地改进基于图像的预训练ViT在视频对应任务中的性能，我们在冻结的预训练ViT框架后添加了一个轻量级适配器。来自适配器的特征表示用于计算所提出的基于三元组的帧间一致性损失和基于区域的帧内对比损失，并通过自监督学习来实现。

设置

训练。 I2V-Adapter使用基于图像的预训练模型DINO [13]进行初始化，并在Youtube-VOS [51]提供的原始视频训练数据集上进行训练。总训练视频数为3,474个。每个训练帧的大小被调整为320像素，然后随机裁剪为256×256像素。训练批量大小为12。优化器使用Adam [52]。训练迭代次数为1×10^4，学习率为

1 \times 10^{? 4}

。我们在方程（2）中设置

W

，在方程（1）中设置

τ = 0.1

，在方程（4）中设置

τ = 0.1

。

结论

本文提出了I2V-Adapter，这是一个完全自监督的框架，无需额外标签即可高效地将预训练的图像模型适应到视频对应任务中。具体来说，I2V-Adapter在冻结的模型框架后插入了一个轻量级适配器，并仅在训练期间更新该适配器，将训练时间从超过15小时缩短至仅2.64小时。为了增强空间和时间建模能力，我们引入了一种新的基于三元组的帧间一致性损失。

局限性和未来工作

(a)
未完全避免平凡解：尽管基于三元组的一致性损失通过引入辅助帧有助于减少平凡的对应关系，但在运动较少或模式重复的情况下仍可能失败。未来的工作可以探索更强大的正则化技术或对运动敏感的机制来进一步解决这个问题。
(b)
伪标签中的噪声：使用辅助帧生成的伪标签不可避免地会引入噪声，这可能会影响训练的稳定性。

未引用的参考文献

图5。

CRediT作者贡献声明

Hannan Lu：撰写——原始草稿、可视化、验证、方法论、调查、形式分析。Xinyu Zhang：撰写——审阅与编辑、资源准备、方法论、形式分析。Zhi Tian：方法论、形式分析、概念化。Xiaohe Wu：撰写——原始草稿、可视化、验证、方法论。Wangmeng Zuo：监督、方法论、形式分析。Jingdong Wang：验证、监督、概念化。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作