基于启发式解耦视角的自监督视频表示学习

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

基于启发式解耦视角的自监督视频表示学习

《INTERNATIONAL JOURNAL OF COMPUTER VISION》：Self-Supervised Video Representation Learning in a Heuristic Decoupled Perspective

【字体：大中小】 时间：2026年02月27日 来源：INTERNATIONAL JOURNAL OF COMPUTER VISION 9.3

编辑推荐：

　　现有视频对比学习方法无法有效分离并学习静态与动态语义，导致模型偏向易学特征。本文基于Koopman理论，将视频建模为线性动态系统，通过特征分解分离时间变与不变语义，提出双层级解耦优化框架BOD-VCL，显著提升对比学习效果。

摘要

视频对比学习（Video Contrastive Learning, V-CL）作为一种流行的无监督视频表示学习框架，已在动作分类和检测等任务中展现出优异的性能。然而，要充分利用这些优势，学习到的表示必须能够完整捕捉静态和动态语义。然而，我们的实验表明，现有的V-CL方法无法有效学习这两种类型的语义特征。通过基于结构因果模型（Structural Causal Model）和梯度更新的严格理论分析，我们发现在一个给定的数据集中，某些静态语义会与特定的动态语义频繁共现。这种现象在数据集中造成了静态语义和动态语义之间的虚假相关性。此外，现有的V-CL方法在计算样本相似性时无法区分静态和动态相似性。因此，模型只需学习其中一种语义类型就能最小化对比损失。最终，这导致V-CL预训练过程优先学习更容易学习的语义。为了解决这一局限性，我们提出了“基于解耦的双层优化视频对比学习方法”（Bi-level Optimization with Decoupling for Video Contrastive Learning, BOD-VCL）。在BOD-VCL中，我们根据Koopman理论将视频建模为线性动态系统。在该系统中，所有帧与帧之间的转换都由一个线性Koopman算子表示。通过对这个算子进行特征分解，我们可以分离出语义的时变和时不变成分，从而明确区分视频中的静态和动态语义。通过分别建模静态和动态相似性，可以在V-CL训练过程中充分利用这两种类型的语义。BOD-VCL可以无缝集成到现有的V-CL框架中，实验结果凸显了我们方法带来的显著改进。源代码发布在https://github.com/ZeenSong/Video_contrastive。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号