超越重构：利用对比学习增强掩码自编码器以实现视频表示学习

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：Beyond reconstruction: Enhancing masked autoencoders with contrastive learning for video representation learning

【字体：大中小】 时间：2026年02月27日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　分层异构视频预训练框架Beyond Reconstruction（BR）融合对比学习与掩码视频建模优势，通过动态掩码策略提升时空建模能力，在多个基准测试中实现优于现有方法的细调与零样本性能。

冯亚伟|郭丽军|于贵涛|张蓉|钱江波|王冲|高尚策

宁波大学电气工程与计算机科学学院，中国宁波，315000

摘要

自监督视频表示学习主要采用两种方法：对比学习和掩码视频建模，这两种方法各具独特优势。一些研究尝试结合这两种方法以充分利用它们的优势。然而，这两种方法的内在异质性给现有模型在集成时带来了挑战，包括复杂的模型架构、困难的训练过程以及有限的性能提升。为了解决这些问题，本研究提出了一种名为“Beyond Reconstruction (BR)”的新视频预训练框架，该框架引入了一种双轨异构学习策略。这种策略使对比学习和掩码视频建模在视觉Transformer (ViTs) 的不同层中发挥各自的作用，将它们无缝集成到一个统一的框架中，以提高视频表示的质量。此外，BR 还结合了一种基于运动的渐进式掩码策略，以加强时空显著性建模并稳定训练过程。通过利用对比学习在捕捉全局空间运动对象方面的优势，该策略克服了以往掩码方法的局限性。在多个基准测试（包括动作识别和视频对象分割）上的实验表明，BR 方法在微调和线性探测设置下的性能可与现有方法相当甚至更好。这些结果展示了 BR 在实际应用中的强大适应性和效率：其稳定的微调性能使其能够在注释有限的情况下有效适应复杂场景，而其强大的线性探测能力则允许主干网络保持不变，从而便于在多个任务中共享使用，同时降低整体计算成本而不影响性能。

引言

在自监督视频表示学习中（Lai 等人，2023；Wang 等人，2023），实例级判别学习（通常称为对比学习，CL）（Bardes 等人，2022；Chen 和 He，2021；Qian 等人，2021；Tao 等人，2022）和掩码视频建模（MVM）（Fan 等人，2023；Feichtenhofer 等人，2022；B. Huang 等人，2023；W. Huang 等人，2023；Salehi 等人，2024；Tong 等人，2022）是两种不同的方法，每种方法都利用了独特的学习机制。这些范式对于实际工程应用（如智能监控和工业监控）至关重要，在这些应用中获取大规模标注数据成本非常高。将它们与视觉Transformer (ViTs)（Dosovitskiy 等人，2020）结合用于视频表示学习，这两种方法都表现出色，并具有特定的优势。CL 使用实例级策略来对齐同一视频实例的增强视图表示。虽然传统方法依赖于使用负样本对来最大化样本间差异，但现代进展（如自蒸馏）则侧重于无需显式负采样的对齐。无论具体机制如何，这些方法都有一个共同目标：捕捉视频中的全局运动结构和高级语义信息，这使它们在线性探测评估中表现出色。相反，MVM 采用补丁级自监督方法，训练 ViTs 重建掩码视频的像素值。通过关注更细粒度的重建，MVM 强调局部语义结构和低级语义信息（如光照和对比度），通常在微调任务中超过 CL，但在线性探测性能上稍逊一筹。在多个基准测试（包括动作识别和视频对象分割）中，BR 方法的表现与现有方法相当甚至更好，无论是在微调还是线性探测设置下。这些结果证明了 BR 在实际应用中的强大适应性和效率：其稳定的微调性能使其能够在注释有限的情况下有效适应复杂场景，而其强大的线性探测能力则允许主干网络保持不变，从而便于在多个任务中共享使用，同时降低整体计算成本而不影响性能。

介绍

在自监督视频表示学习中（Lai 等人，2023；Wang 等人，2023），实例级判别学习（CL）（Bardes 等人，2022；Chen 和 He，2021；Qian 等人，2021；Tao 等人，2022）和掩码视频建模（MVM）（Fan 等人，2023；Feichtenhofer 等人，2022；B. Huang 等人，2023；W. Huang 等人，2023；Salehi 等人，2024；Tong 等人，2022）是两种不同的方法，每种方法都利用了独特的学习机制。这些范式对于实际工程应用（如智能监控和工业监控）至关重要，在这些应用中获取大规模标注数据成本非常高。将它们与视觉Transformer (ViTs)（Dosovitskiy 等人，2020）结合用于视频表示学习，这两种方法都表现出色，并具有特定的优势。CL 使用实例级策略来对齐同一视频实例的增强视图表示。虽然传统方法依赖于使用负样本对来最大化样本间差异，但现代进展（如自蒸馏）则侧重于无需显式负采样的对齐。无论具体机制如何，这些方法都有一个共同目标：捕捉视频中的全局运动结构和高级语义信息，这使它们在线性探测评估中表现出色。相反，MVM 采用补丁级自监督方法，训练 ViTs 重建掩码视频的像素值。通过关注更细粒度的重建，MVM 强调局部语义结构和低级语义信息（如光照和对比度），通常在微调任务中超过 CL，但在线性探测性能上稍逊一筹。实现一个在在线性探测和微调任务中都表现最佳的模型仍然是该领域的一个核心挑战。

鉴于 CL 和 MVM 的优势，一个重要的问题是：能否有效地结合这两种方法以利用它们的各自优势？在图像领域，CMAE（Z. Huang 等人，2023）率先实现了这种集成，而 CMAE-V（Lu 等人，2023）通过使用复杂的模型架构和专门的数据增强策略将其扩展到视频领域，以平衡这两种方法。Layer Grafted Pre-training（Jiang 等人，2023）指出了结合 CL 和 MVM 时梯度冲突的挑战，提出了一种分阶段的层移植策略和严格的学习率调整方案。同样，ViC-MAE（Hernandez 等人，2024）试图在单一框架内统一 CL 和 MVM 以用于图像和视频理解，但其性能不如专门针对视频的模型。这些复杂的架构和训练方法不仅使预训练变得复杂，而且带来的性能提升也有限，这表明在单一框架内统一这些方法的难度。这些挑战源于 CL 和 MVM 在两个关键方面的内在异质性。首先，模型训练策略的异质性。CL 方法（Chen 等人，2020）通常采用双塔结构，并结合强大的数据增强来学习实例级不变性。而传统方法依赖于使用负样本对来最大化样本间差异，现代进展（例如自蒸馏）则侧重于无需显式负采样的对齐表示。无论具体机制如何，这些判别策略与 MVM（He 等人，2022）有显著不同，MVM 使用单分支编码器-解码器结构并结合轻微的数据增强进行像素级重建。这种差异使得设计统一的模型架构变得复杂。其次，模型学习目标的异质性。CL 强调不变特征学习，依赖于 ViTs 深层的高级语义理解（Park 等人，2023）来对齐视频实例的不同视图。相反，MVM 侧重于生成特征学习以重建原始视频内容。这些差异在结合两种方法时可能导致学习表示的冲突，加剧训练挑战并限制性能提升。为了解决这些挑战，本研究提出了 Beyond Reconstruction (BR)。与那些难以在单一潜在空间内平衡生成和判别目标的现有方法不同，BR 提出了一种分层解耦机制。它明确分离了视觉 Transformer 不同层的优化目标，允许浅层保留 MVM 的局部时空细节，同时释放深层通过蒸馏过程捕获 CL 的全局语义。

为了解决 CL 和 MVM 之间的异质性，我们提出了一种双轨异构学习策略。该方法通过两条独立的学习路径整合了两种方法的优点，从而有效克服了它们之间的固有差异。Track-1 将预训练的 CL 模型通过知识蒸馏技术（Gou 等人，2021；Phuong 和 Lampert，2019；Xu 等人，2020）集成到 MVM 训练框架中，解决了训练策略的异质性问题。预训练的 CL 模型作为教师模型，指导学生模型学习其深层特征并继承其语义分组和不变性能力。这种方法减轻了不同数据增强策略的负面影响，并简化了模型架构设计。为进一步解决学习目标的异质性，我们引入了 Track-2 的设计。鉴于 ViTs 模型的浅层在学习像素级细节方面表现优异，而深层更适合语义理解（Park 等人，2023），Track-2 引入了一种新方法。它将学生模型的浅层特征和掩码嵌入输入到解码器中进行掩码视频重建。这种设计鼓励浅层专注于像素恢复，而深层则专注于高级特征学习。通过在 ViTs 模型的不同层利用 CL 和 MVM 的机制，这种方法有效地将两种方法集成到一个统一的学习框架中，并成功解决了它们的异质性。与传统的知识蒸馏方法不同，我们的方法不是将较大的模型蒸馏成较小的模型。相反，我们使用了相同规模的教师和学生模型（ViT-B），以确保 CL 和 MVM 之间的平衡重要性，避免偏向任何一种方法。此外，教师模型仅进行了预训练，没有进行微调，保留了预训练阶段获得的原始对比学习知识。

在结合 CL 和 MVM 的基础上，为了进一步提高视频表示学习能力和模型训练的稳定性，我们引入了一种创新的基于运动的渐进式掩码策略。与传统的掩码方法（Tong 等人，2022；Feichtenhofer 等人，2022；Wang 等人，2022）不同，这种方法在早期训练阶段避免了过于复杂的任务，从而提高了模型性能和训练稳定性。该策略在两个方面得到了实现。首先，认识到重建运动对象比重建背景信息更具挑战性，我们利用教师模型有效捕捉运动对象形状的能力。在 MVM 输入中，根据教师模型的自注意力图动态调整运动区域的掩码比例。最初，该策略侧重于掩码背景区域，逐渐将重点转移到掩码运动对象上。这种方法有助于模型的时空显著性建模。其次，在训练过程中，我们逐步增加掩码率，逐渐提高学习难度。基于运动的渐进式掩码策略增强了模型感知运动变化的能力，并显著提高了其在视频表示学习中的性能。此外，该策略有效缓解了早期训练阶段高掩码率相关的重建挑战和特征对齐问题，从而稳定了训练过程。

本研究的贡献总结如下：

•
为了解决结合 CL 和 MVM 进行视频表示学习时的异质性挑战，我们提出了 Beyond Reconstruction (BR)，这是一种新的视频预训练框架。BR 采用了双轨异构学习方法，在 ViTs 的不同层利用了 CL 和 MVM 的独特优势。这种集成显著提高了网络的视频表示学习能力。
•
我们提出了一种基于运动的渐进式掩码策略，该策略利用教师模型的自注意力图动态调整运动对象的掩码比例。这种策略指导模型逐步进行时空显著性建模，从而显著提高了其捕捉运动信息的能力并提高了训练稳定性。
•
广泛的实验结果表明，BR 在多个视频动作识别基准测试中的微调和线性探测设置下都取得了有竞争力的性能。据我们所知，BR 目前是唯一在微调和线性探测场景中都表现优异的高效视频表示学习框架。

章节片段

对比学习

CL 通过将同一实例的不同视图视为正样本，不同实例视为负样本来训练模型，旨在学习实例之间的判别表示。为了有效捕捉数据样本之间的相似性和差异，对比学习通常依赖于较大的批量大小以确保有足够的负样本，这可能导致显著的内存开销。MoCo（He 等人，2020）通过引入一种记忆机制解决了这个问题

方法

掩码视频重建方法在第 3.1 节中介绍。第 3.2 节详细介绍了通过双轨异构学习将 CL 和 MVM 集成到统一框架中，使 MVM 能够利用 CL 的优势。最后，第 3.3 节提出了一种基于运动的渐进式掩码策略，旨在提高模型的性能和训练稳定性。

实现细节

预训练：对于预训练设置，我们遵循了以往研究的协议（Tong 等人，2022；Feichtenhofer 等人，2022）。对于 Kinetics-400（K400）（Carreira 和 Zisserman，2017）和 Something-Something v2（SSv2）（Goyal 等人，2017）数据集，模型分别提供了 16 帧大小为 224 × 224 的视频片段，步长分别为 4 和 2。使用了 AdamW 优化器（Loshchilov 和 Hutter，2019），基础学习率为 1.5e?4，权重衰减为 0.05，

β

= [0.9, 0.95]，

结论

本研究提出了 BR，这是一种自监督视频预训练框架，它使用双轨异构学习策略结合了 CL 和 MVM 的优势。这种方法有效地解决了它们之间的固有异质性问题，并显著提高了视频表示质量。此外，BR 还采用了一种基于运动的渐进式掩码策略，利用 CL 在捕捉视频中的运动对象方面的优势来指导 MVM 进行时空显著性建模，

CRediT 作者贡献声明

冯亚伟：撰写 – 原始草稿，验证，方法论，概念化。郭丽军：撰写 – 审阅与编辑，监督。于贵涛：撰写 – 审阅与编辑。张蓉：调查，形式分析。钱江波：资源获取，资金筹集。王冲：撰写 – 审阅与编辑。高尚策：撰写 – 审阅与编辑。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了宁波科技项目资助（编号：2024Z004）和广西关键技术研发计划（资助编号：FN2504240023）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号