VC-SCMAE:以车辆为中心的语义对比引导式掩码自动编码器

《Expert Systems with Applications》:VC-SCMAE: Vehicle-Centric Semantic Contrastive-Guided Masked Autoencoder

【字体: 时间:2026年02月16日 来源:Expert Systems with Applications 7.5

编辑推荐:

  该研究提出VC-SCMAE框架,通过对比学习指导的掩码自编码器与CLIP语义蒸馏结合,从多模态基础模型中提取知识。采用无对齐配对的Automobile1M车辆数据集,创新性地引入GCF特征融合模块和SK-DiM语义蒸馏机制,增强开放词汇逻辑的语义对齐,有效提升车辆属性识别、重识别等下游任务的性能。实验表明该方法在冻结编码器情况下仍能保持线性探测的高效性,实现结构、判别与语义的统一表征。

  
亚历山大·马奎斯(Alexandre Marques)|佩德罗·费雷拉(Pedro Ferreira)|布鲁诺·席尔瓦(Bruno Silva)|豪尔赫·巴蒂斯塔(Jorge Batista)
葡萄牙科英布拉大学系统与机器人研究所

摘要

在这项工作中,我们提出了VC-SCMAE,这是一种以车辆为中心的、基于语义对比引导的掩码自编码器框架,它从多模态基础模型中提取知识。我们的方法通过对比引导扩展了MAE的预训练,将掩码图像建模与实例级判别相结合,以产生更加鲁棒和可迁移的表示。在这个判别性框架的基础上,我们应用了类似CLIP的语义蒸馏技术,利用大规模的车辆数据集(Automobile1M)和视觉上 grounded 的非配对文本语料库。与传统依赖对齐的图像-文本对的视觉-语言模型不同,我们的方法可以在不需要显式对齐的情况下,从预训练的CLIP模型中转移语义知识。我们进一步引入了专门的蒸馏损失函数,在视觉-语言蒸馏过程中增强开放词汇表的logits,从而加强跨模态的语义对齐。实验表明,VC-SCMAE通过线性探测和微调有效地转移到了特定于车辆的下游任务中,将结构、判别性和语义理解统一在一个预训练框架内。

引言

预训练视觉变换器(ViTs)Dosovitskiy等人(2020年);He等人(2022b年)采用自监督学习已成为计算机视觉任务中越来越流行的策略,尤其是在标记数据稀缺或获取成本高昂的领域。在以车辆为中心的感知领域,强大的视觉表示对于各种下游任务至关重要,例如属性识别(Cheng, Jia, Wang, & Zhang(2022年);Hu等人(2025年);Ni & Huttunen(2020年);Zhao, Zhao, & Shi(2025年))、重新识别(He等人(2021年);Khorramshahi, Shenoy, & Chellappa(2023年);Quispe, Lan, Zeng, & Pedrini(2021年)、部分检测(Liu等人(2022年);Zheng等人(2021年)以及细粒度识别(He等人(2022a年))。这些任务需要的表示不仅要对车辆形状、颜色和模型特定细节等微妙的结构线索敏感,而且在不同的环境条件、视角和领域中也要具有足够的语义鲁棒性。
掩码图像建模(MIM)Bao, Dong, Piao, & Wei(2022年);He等人(2022b年),特别是掩码自编码器(MAEs)He等人(2022b年),通过重建缺失的图像块成为许多自监督视觉变换器预训练策略的基石,从而鼓励模型捕捉上下文和结构特征。然而,MAEs往往过于关注低级别的像素细节,虽然这有助于捕捉全局结构,但往往导致表示的判别能力较弱,且与高级语义的对齐不足。
对比学习(Chen, Kornblith, Norouzi, & Hinton(2020年);He, Fan, Wu, Xie, & Girshick(2020年);Huang等人(2024年))和CLIP蒸馏(Almeida, Silva, Marques, Ferreira, & Batista(2025年);Wang等人(2024年)的整合以互补的方式扩展了MAE框架。对比学习通过强制同一图像的不同视图之间的不变性来引入实例级判别,同时最大化不同图像之间的分离。这产生了对变化(如视角、遮挡或照明)具有鲁棒性的嵌入,为需要细粒度判别的任务(如识别或重新识别)提供了更清晰的表示空间。然而,这种判别能力是以牺牲语义意识为代价的,因为嵌入大多缺乏高级概念结构。相比之下,CLIP蒸馏通过利用在大规模图像-文本数据上训练的视觉-语言模型将语义对齐注入MAE中。蒸馏CLIP的知识将嵌入引导到具有语义结构的空间中,捕捉类别级关系、层次结构和跨领域概念,这些是仅靠对比目标无法编码的。这些方法共同突显了监督方式的一个根本分歧:对比目标强调实例判别,而CLIP蒸馏强调语义泛化,从而产生了适合不同下游任务的互补但不同的表示空间,从细粒度识别到零样本分类。
对比学习和CLIP蒸馏的互补优势激发了我们的方法。我们提出了以车辆为中心的、基于语义对比引导的掩码自编码器(VC-SCMAE),这是一种结合了实例级对比目标和基于CLIP的语义蒸馏的混合预训练框架,将高级语义知识嵌入到改进的ViT架构(CMAE)Huang等人(2024年)中。图1展示了所提出架构的概念性概述。我们通过整合两个简单但高效的模块来利用CMAE:全局互补特征融合(GCF)和语义知识蒸馏模块(SK-DiM)。通过将对比掩码重建与语义监督相结合,我们的方法在实例级鲁棒性和语义丰富性之间建立了桥梁,产生了既具有判别性又具有概念基础的表示,这是单独使用对比学习或CLIP蒸馏的MAE无法实现的。
我们VC-SCMAE预训练方法的一个关键优势是它能够利用相对少量的低成本、非配对的图像和文本数据。与需要精心策划的图像-标题对或大规模对齐数据集的传统视觉-语言模型不同,我们的方法从预训练的CLIP模型(Radford等人,2021年)中提取语义知识,而无需在训练过程中进行直接的图像-文本对齐。这使得该框架具有高度的可扩展性和实用性,特别是在汽车领域,收集配对的图像-文本数据可能既昂贵又耗时。通过解耦图像和文本数据源,我们能够有效地利用丰富的非结构化数据,例如从可用数据集中抓取的车辆图像和独立来源的文本描述,将高级语义注入基于CMAE的训练中。这种轻量级但有效的策略使我们能够在显著减少数据获取负担的同时,仍然增强预训练模型的语义能力。
为了支持在汽车领域开发语义丰富且结构合理的视觉表示,我们详细介绍了Automobile1M,这是一个专门为以车辆为中心的预训练而设计的大规模领域内数据集。该数据集包含来自不同车辆数据集的百万张未标记的车辆图像,涵盖了各种品牌、型号、类型、颜色、视角、光照条件和环境。该数据集使用任务无关的层次聚类策略构建,以确保广泛的覆盖范围,并减轻手动组装数据集中常见的长尾分布问题。Automobile1M的独特之处在于它不依赖于手动注释或配对的图像-文本数据;相反,它强调规模、多样性和领域特异性,使其非常适合自监督和基于蒸馏的预训练方法。
根据Sun等人(2023年)的研究发现,视觉相关的词汇对于有效的蒸馏至关重要,我们构建了一个专注于视觉上grounded 语言的专用蒸馏文本语料库。然后我们应用了一种采样策略从Automobile1M中检索相关图像子集,并从中提取与构建的词汇对齐的视觉上grounded 的句子。除了这种文本选择策略外,我们还采用了特定的蒸馏损失函数,旨在在视觉-语言蒸馏过程中增强开放词汇表的logits,加强视觉和文本模态之间的语义对齐。
我们使用Automobile1M来验证我们提出的VC-SCMAE框架,并证明统一掩码表示学习、对比学习监督和跨模态蒸馏可以产生更加鲁棒和泛化的视觉表示。我们的结果在包括分类、重新识别和细粒度识别等一系列以车辆为中心的任务中显示出相对于标准预训练基线的持续改进,突显了我们的方法和特定于领域的数据集对实际汽车应用的价值。

相关研究

相关工作

自监督学习(SSL)作为一种变革性的方法,在视觉表示学习中崭露头角,使模型能够在没有标记数据的情况下获得有意义且可迁移的特征。其核心在于精心设计的伪装任务,这些任务鼓励从原始输入数据中提取丰富的、结构化的和语义化的模式。两种主导范式展示了不同的方法:掩码图像建模(MIM)Bao等人(2022年);He等人(2022b年);Xie等人(2022年)

方法论

整个基于语义对比引导的掩码自编码器(VC-SCMAE)框架如图2所示,由四个主要组成部分构成:(i)自动策划的预训练数据集;(ii)对比掩码自编码器(CMAE),它结合了掩码自编码器(MAE)和对比监督模块;(iii)全局互补特征融合(GCF)模块;(iv)CLIP引导的语义知识蒸馏机制(SK-DiM)。

实验、结果与讨论

为了支持我们关于所提出的VC-SCMAE预训练框架的有效性以及精心策划的以车辆为中心的Automobile1M数据集的影响,我们在一系列与车辆相关的下游任务上进行了广泛的实验。我们的方法在微调和线性探测(即编码器冻结)设置下进行了评估,使用了包括车辆重新识别、属性识别、细粒度

结论

这项工作提出了VC-SCMAE,这是一种以车辆为中心的自监督预训练框架,它结合了对比学习、CLIP引导的多模态蒸馏和掩码自编码,以增强以车辆为中心的下游任务的视觉表示学习。利用大规模的、自动策划的Automobile1M数据集,我们的方法学习了适用于复杂以车辆为中心的环境的、语义丰富且具有对象意识的表示。
通过广泛的分析,我们证明了

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:
亚历山大·保罗·马奎斯(Alexandre Paulo Marques)报告称获得了A-to-Be的财务支持。佩德罗·米格尔·科雷亚·费雷拉(Pedro Miguel Correia Ferreira)报告称获得了A-to-Be的财务支持。布鲁诺·拉斐尔·巴蒂斯塔·达席尔瓦(Bruno Rafael Baptista da Silva)报告称获得了Funda??o para a Ciência e Tecnologia的财务支持。如果有其他作者,他们声明没有已知的财务利益或个人
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号