基于启发式解耦视角的自监督视频表示学习

《INTERNATIONAL JOURNAL OF COMPUTER VISION》:Self-Supervised Video Representation Learning in a Heuristic Decoupled Perspective

【字体: 时间:2026年02月27日 来源:INTERNATIONAL JOURNAL OF COMPUTER VISION 9.3

编辑推荐:

  现有视频对比学习方法无法有效分离并学习静态与动态语义,导致模型偏向易学特征。本文基于Koopman理论,将视频建模为线性动态系统,通过特征分解分离时间变与不变语义,提出双层级解耦优化框架BOD-VCL,显著提升对比学习效果。

  

摘要

视频对比学习(Video Contrastive Learning, V-CL)作为一种流行的无监督视频表示学习框架,已在动作分类和检测等任务中展现出优异的性能。然而,要充分利用这些优势,学习到的表示必须能够完整捕捉静态和动态语义。然而,我们的实验表明,现有的V-CL方法无法有效学习这两种类型的语义特征。通过基于结构因果模型(Structural Causal Model)和梯度更新的严格理论分析,我们发现在一个给定的数据集中,某些静态语义会与特定的动态语义频繁共现。这种现象在数据集中造成了静态语义和动态语义之间的虚假相关性。此外,现有的V-CL方法在计算样本相似性时无法区分静态和动态相似性。因此,模型只需学习其中一种语义类型就能最小化对比损失。最终,这导致V-CL预训练过程优先学习更容易学习的语义。为了解决这一局限性,我们提出了“基于解耦的双层优化视频对比学习方法”(Bi-level Optimization with Decoupling for Video Contrastive Learning, BOD-VCL)。在BOD-VCL中,我们根据Koopman理论将视频建模为线性动态系统。在该系统中,所有帧与帧之间的转换都由一个线性Koopman算子表示。通过对这个算子进行特征分解,我们可以分离出语义的时变和时不变成分,从而明确区分视频中的静态和动态语义。通过分别建模静态和动态相似性,可以在V-CL训练过程中充分利用这两种类型的语义。BOD-VCL可以无缝集成到现有的V-CL框架中,实验结果凸显了我们方法带来的显著改进。源代码发布在https://github.com/ZeenSong/Video_contrastive

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号