预训练视觉变换器(ViTs)Dosovitskiy等人(2020年);He等人(2022b年)采用自监督学习已成为计算机视觉任务中越来越流行的策略,尤其是在标记数据稀缺或获取成本高昂的领域。在以车辆为中心的感知领域,强大的视觉表示对于各种下游任务至关重要,例如属性识别(Cheng, Jia, Wang, & Zhang(2022年);Hu等人(2025年);Ni & Huttunen(2020年);Zhao, Zhao, & Shi(2025年))、重新识别(He等人(2021年);Khorramshahi, Shenoy, & Chellappa(2023年);Quispe, Lan, Zeng, & Pedrini(2021年)、部分检测(Liu等人(2022年);Zheng等人(2021年)以及细粒度识别(He等人(2022a年))。这些任务需要的表示不仅要对车辆形状、颜色和模型特定细节等微妙的结构线索敏感,而且在不同的环境条件、视角和领域中也要具有足够的语义鲁棒性。
掩码图像建模(MIM)Bao, Dong, Piao, & Wei(2022年);He等人(2022b年),特别是掩码自编码器(MAEs)He等人(2022b年),通过重建缺失的图像块成为许多自监督视觉变换器预训练策略的基石,从而鼓励模型捕捉上下文和结构特征。然而,MAEs往往过于关注低级别的像素细节,虽然这有助于捕捉全局结构,但往往导致表示的判别能力较弱,且与高级语义的对齐不足。
对比学习(Chen, Kornblith, Norouzi, & Hinton(2020年);He, Fan, Wu, Xie, & Girshick(2020年);Huang等人(2024年))和CLIP蒸馏(Almeida, Silva, Marques, Ferreira, & Batista(2025年);Wang等人(2024年)的整合以互补的方式扩展了MAE框架。对比学习通过强制同一图像的不同视图之间的不变性来引入实例级判别,同时最大化不同图像之间的分离。这产生了对变化(如视角、遮挡或照明)具有鲁棒性的嵌入,为需要细粒度判别的任务(如识别或重新识别)提供了更清晰的表示空间。然而,这种判别能力是以牺牲语义意识为代价的,因为嵌入大多缺乏高级概念结构。相比之下,CLIP蒸馏通过利用在大规模图像-文本数据上训练的视觉-语言模型将语义对齐注入MAE中。蒸馏CLIP的知识将嵌入引导到具有语义结构的空间中,捕捉类别级关系、层次结构和跨领域概念,这些是仅靠对比目标无法编码的。这些方法共同突显了监督方式的一个根本分歧:对比目标强调实例判别,而CLIP蒸馏强调语义泛化,从而产生了适合不同下游任务的互补但不同的表示空间,从细粒度识别到零样本分类。
对比学习和CLIP蒸馏的互补优势激发了我们的方法。我们提出了以车辆为中心的、基于语义对比引导的掩码自编码器(VC-SCMAE),这是一种结合了实例级对比目标和基于CLIP的语义蒸馏的混合预训练框架,将高级语义知识嵌入到改进的ViT架构(CMAE)Huang等人(2024年)中。图1展示了所提出架构的概念性概述。我们通过整合两个简单但高效的模块来利用CMAE:全局互补特征融合(GCF)和语义知识蒸馏模块(SK-DiM)。通过将对比掩码重建与语义监督相结合,我们的方法在实例级鲁棒性和语义丰富性之间建立了桥梁,产生了既具有判别性又具有概念基础的表示,这是单独使用对比学习或CLIP蒸馏的MAE无法实现的。
我们VC-SCMAE预训练方法的一个关键优势是它能够利用相对少量的低成本、非配对的图像和文本数据。与需要精心策划的图像-标题对或大规模对齐数据集的传统视觉-语言模型不同,我们的方法从预训练的CLIP模型(Radford等人,2021年)中提取语义知识,而无需在训练过程中进行直接的图像-文本对齐。这使得该框架具有高度的可扩展性和实用性,特别是在汽车领域,收集配对的图像-文本数据可能既昂贵又耗时。通过解耦图像和文本数据源,我们能够有效地利用丰富的非结构化数据,例如从可用数据集中抓取的车辆图像和独立来源的文本描述,将高级语义注入基于CMAE的训练中。这种轻量级但有效的策略使我们能够在显著减少数据获取负担的同时,仍然增强预训练模型的语义能力。
为了支持在汽车领域开发语义丰富且结构合理的视觉表示,我们详细介绍了Automobile1M,这是一个专门为以车辆为中心的预训练而设计的大规模领域内数据集。该数据集包含来自不同车辆数据集的百万张未标记的车辆图像,涵盖了各种品牌、型号、类型、颜色、视角、光照条件和环境。该数据集使用任务无关的层次聚类策略构建,以确保广泛的覆盖范围,并减轻手动组装数据集中常见的长尾分布问题。Automobile1M的独特之处在于它不依赖于手动注释或配对的图像-文本数据;相反,它强调规模、多样性和领域特异性,使其非常适合自监督和基于蒸馏的预训练方法。
根据Sun等人(2023年)的研究发现,视觉相关的词汇对于有效的蒸馏至关重要,我们构建了一个专注于视觉上grounded 语言的专用蒸馏文本语料库。然后我们应用了一种采样策略从Automobile1M中检索相关图像子集,并从中提取与构建的词汇对齐的视觉上grounded 的句子。除了这种文本选择策略外,我们还采用了特定的蒸馏损失函数,旨在在视觉-语言蒸馏过程中增强开放词汇表的logits,加强视觉和文本模态之间的语义对齐。
我们使用Automobile1M来验证我们提出的VC-SCMAE框架,并证明统一掩码表示学习、对比学习监督和跨模态蒸馏可以产生更加鲁棒和泛化的视觉表示。我们的结果在包括分类、重新识别和细粒度识别等一系列以车辆为中心的任务中显示出相对于标准预训练基线的持续改进,突显了我们的方法和特定于领域的数据集对实际汽车应用的价值。