随着深度学习的快速发展,卷积神经网络(He, Zhang, Ren, Sun, 2016, Simonyan, & Zisserman, Wang, Chen, Lin, Han, Ding, 2024a)和Transformer模型(Dosovitskiy, Beyer, Kolesnikov, Weissenborn, Zhai, Unterthiner, Dehghani, Minderer, Heigold, Gelly, et al., Liu, Peng, Zheng, Yang, Hu, Yuan, 2023, Liu, Lin, Cao, Hu, Wei, Zhang, Lin, Guo, 2021)在各个领域都取得了出色的性能。然而,它们的成功往往依赖于大量的计算资源,这对实时和资源受限的应用提出了挑战。为了满足低资源场景的需求,Hinton, Vinyals, & Dean(2015)提出了知识蒸馏(KD),它允许紧凑的学生模型从更大的教师模型中学习。KD采用教师-学生框架,其中轻量级的学生模型模仿教师模型的输出,显著提高了图像分类(Gou, Xin, Yu, Song, Zhang, Wan, 2025, Lin, Xie, Wang, Yu, Chang, Liang, Wang, 2022, Lv, Yang, Li, 2024)、对象检测(Wang, Chen, Zheng, Li, Cheng, Hou, 2024b, Yan, Yin, Liu, Hu, Luo, Kong, Yu, 2025, Yang, Zeng, Yuan, Li, 2023)和语义分割(Ji, Wang, Tao, Huang, Hua, Lu, 2022, Kim, Ju, Han, Yang, Hwang, 2025a, Yu, Teng, Zhang, Zheng, Chen, 2025)等任务的推理效率和泛化能力。
这一挑战在Vision Transformer(ViT)架构中尤为明显,它促进了针对ViT架构定制的知识蒸馏研究的发展。ViT是一种基于Transformer的视觉模型,利用自注意力机制捕获长距离依赖性和全局上下文信息,与基于CNN的架构相比取得了有竞争力的或更优越的性能。然而,ViT模型复杂性的增加导致了大量的训练开销,这促使了各种特定于ViT的知识蒸馏策略的发展(Ren, Wei, Zhang, Hu, 2023, Touvron, Cord, Douze, Massa, Sablayrolles, Jégou, 2021a, Touvron, Cord, Sablayrolles, Synnaeve, Jégou, 2021b, Wu, Zhang, Peng, Liu, Xiao, Fu, Yuan, 2022)。例如,DeiT(Touvron et al., 2021a)引入了一种蒸馏令牌,从教师模型中提取软标签,使得在数据有限的情况下也能进行有效的ViT训练。CAiT(Touvron et al., 2021b)结合了类注意力机制,通过引导学生模型关注与类别相关的特征来增强蒸馏效果。ViTKD(Yang et al., 2024b)采用分层特征蒸馏策略,浅层直接模仿教师特征,而深层用于生成类似教师的表示,从而解决了基于ViT的蒸馏中固有的架构不匹配问题。
尽管这些基于ViT的蒸馏方法在某种程度上提高了Transformer模型的性能,但它们的核心限制是这些方法通常严格限于单模态知识转移,因此无法完全捕捉教师模型中嵌入的丰富语义信息和全局表示(Du, Lei, Zhao, Su, 2024, Zhang, Zhu, Liu, Lin, Wan, Zhang, Lei, 2024c, Zhao, Kong, Liang, Zhu, Kuang, Wu, 2023)。为了直观展示多模态知识转移的优势,我们进行了一系列比较实验,评估了使用单模态图像特征(DeiT)与双模态文本-图像特征的有效性。图1展示了两种模型在训练早期阶段生成的注意力图,涵盖了从浅层到深层的不同网络层。图1(a)显示了单模态设置,其中图像特征仅通过logits传递。由此产生的注意力是稀疏且局部的,严重限制了全局特征的学习。图1(b)展示了我们的多模态框架的有效性,它融合了图像和文本特征,从而产生了更加连贯的注意力模式,证实了多模态语义知识在引导学生模型捕捉局部和全局上下文方面的优越能力。
由于多模态学习(Liang, Wang, Zhou, Miao, Luo, Yang, 2023, Seo, Nagrani, Arnab, Schmid, 2022, Wu, Han, Wang, Dong, Zhang, Shen, 2023, Xue, Yang, Yu, Yu, Guo, Liu, Zhou, 2025)在整合图像和文本信息方面的出色能力,特别是在视觉-语言模型(VLMs)(Li, Guan, Qiu, Spratling, 2024a, Radford, Kim, Hallacy, Ramesh, Goh, Agarwal, Sastry, Askell, Mishkin, Clark, et al., 2021, Yao, Yu, Zhang, Wang, Cui, Zhu, Cai, Li, Zhao, He, et al.)中,多模态方法受到了越来越多的关注。例如,RMOT(Wu et al., 2023)通过使用文本描述作为线索来指导跟踪预测,提高了多目标跟踪的准确性和灵活性。此外,Liang等人(2023)提出了LOCATER方法,通过利用有限的内存和文本表达引导的查询向量提高了视频分割任务的效率。这些成功的例子强烈验证了多模态融合的核心优势:图像提供了细粒度的视觉特征,而文本提供了更深层次的语义理解。当两者结合时,模型可以从不同角度获得新的洞察力,从而增强其处理下游任务的能力。
这种多模态优势也开始应用于模型压缩领域。在最近的研究中,像MoVE-KD(Cao et al., 2025)这样的框架表明,通过同时优化知识蒸馏和文本损失,可以有效地将多个大规模视觉编码器的专门知识蒸馏到学生模型中。这一过程使学生模型能够捕捉各种教师模型的独特语义优势,从而显著提高其性能。尽管这些方法有效,但它们主要关注多模态教师到多模态学生的蒸馏范式,其中学生模型仍然依赖于复杂的多模态架构,无法直接应用于增强现有的纯视觉模型。为了弥补单模态视觉模型的性能差距,我们提出了TIKD,一种新颖的文本-图像联合知识蒸馏框架。在这个框架中,VLM生成的文本语义在训练期间仅作为特权信息来增强视觉特征。在推理时,学生模型保持仅视觉的架构,不需要文本输入或VLM的帮助。这种策略使TIKD能够在保持高推理效率的同时受益于多模态语义知识。
具体来说,TIKD利用视觉-语言模型(Yao et al., 2024)生成输入图像的文本描述并细化关键文本特征。随后,采用基于相似性的加权机制将这些文本特征与来自传统蒸馏的图像特征融合,然后将加权特征注入学生模型的块中,动态调整融合过程,从而显著增强两种模态之间的语义相关性。这种方法不仅扩展了传统的蒸馏框架,还提高了ViT在视觉任务上的性能。广泛的实验结果表明,TIKD显著提高了学生模型的整体性能,即使在参数少于5M的紧凑ViT模型上也观察到了持续的改进。
本研究的主要贡献总结如下:
•我们提出了TIKD,一种新颖的知识蒸馏框架,它有效地将互补的文本知识整合到单模态视觉学生的训练中。该框架通过语义引导优化了学生模型的多模态对齐能力,从而解决了传统视觉KD方法中固有的语义信息限制,为轻量级视觉模型蒸馏提供了新的视角。
•我们引入了一个专用的离线文本-教师模块。该模块在预处理过程中离线生成图像描述并提取语义丰富的文本特征,为学生模型提供补充的语义指导,从而在部署时无需任何推理成本即可有效增强其对图像内容的理解。
•我们设计了一个轻量级的多模态特征融合模块。该模块采用动态加权融合和迭代注入的机制,其中根据语义相似性加权的图像特征不断注入学生模型的Transformer块中。这使得学生模型能够根据文本语义适应性地关注图像特征,更精确地捕捉关键语义信息,从而显著提高其对任务相关区域的关注度并整体提升性能。
•我们在四个主流基准数据集(CIFAR-10/100、CINIC-10和Tiny-ImageNet)上进行了详细实验。结果一致表明,TIKD显著优于传统的单模态知识蒸馏,在几种情况下,学生模型的性能与教师模型相当或略有提升,这得益于训练期间利用了特权语义信息。此外,广泛的实验表明,TIKD可以与现有的蒸馏策略结合使用,显著提高学生模型的性能。
本文的其余部分组织如下:第2节回顾相关工作;第3节详细介绍了我们的TIKD方法;第4节报告实验结果;第5节进行总结。