TIKD:文本与视觉技术的结合——用于知识蒸馏

《Expert Systems with Applications》:TIKD: Where Text Meets Vision for Knowledge Distillation

【字体: 时间:2026年03月17日 来源:Expert Systems with Applications 7.5

编辑推荐:

  知识蒸馏框架TIKD通过融合文本与图像的多模态语义信息,显著提升轻量级视觉模型性能。摘要:

  
梁星竹|尹春|李梦媛|林玉娥
安徽科学技术大学计算机科学与工程学院,中国安徽省淮南市232001

摘要

知识蒸馏(KD)是一种有效的模型压缩技术,其中紧凑的“学生”网络学习模仿更大的“教师”网络。然而,现有的用于视觉任务的KD方法通常只传输单模态视觉知识,从而未能充分利用多模态数据中丰富的语义线索。为了解决这一限制,我们提出了TIKD,一种文本-图像联合知识蒸馏框架,它通过补充文本特征来增强视觉蒸馏。具体来说,我们利用视觉-语言模型生成图像标题并提取语义丰富的文本嵌入。为了有效融合多模态信息,我们设计了一个多模态特征融合模块,该模块采用基于相似性的动态语义加权策略来适应性地结合文本和图像特征。此外,我们开发了一个语义引导的训练模块,通过渐进式学习和自适应调整来同步多模态特征的对齐。在四个基准数据集上进行的广泛实验表明,当TIKD与多种KD基线结合使用时,通过注入外部语义指导,可以一致地提高学生模型的准确性,在某些情况下甚至可以匹配或略微超过教师模型的性能。这些结果凸显了TIKD在推进多模态知识转移和提升学生模型效果方面的潜力。代码可在https://github.com/JSJ515-Group/TIKD获取。

引言

随着深度学习的快速发展,卷积神经网络(He, Zhang, Ren, Sun, 2016, Simonyan, & Zisserman, Wang, Chen, Lin, Han, Ding, 2024a)和Transformer模型(Dosovitskiy, Beyer, Kolesnikov, Weissenborn, Zhai, Unterthiner, Dehghani, Minderer, Heigold, Gelly, et al., Liu, Peng, Zheng, Yang, Hu, Yuan, 2023, Liu, Lin, Cao, Hu, Wei, Zhang, Lin, Guo, 2021)在各个领域都取得了出色的性能。然而,它们的成功往往依赖于大量的计算资源,这对实时和资源受限的应用提出了挑战。为了满足低资源场景的需求,Hinton, Vinyals, & Dean(2015)提出了知识蒸馏(KD),它允许紧凑的学生模型从更大的教师模型中学习。KD采用教师-学生框架,其中轻量级的学生模型模仿教师模型的输出,显著提高了图像分类(Gou, Xin, Yu, Song, Zhang, Wan, 2025, Lin, Xie, Wang, Yu, Chang, Liang, Wang, 2022, Lv, Yang, Li, 2024)、对象检测(Wang, Chen, Zheng, Li, Cheng, Hou, 2024b, Yan, Yin, Liu, Hu, Luo, Kong, Yu, 2025, Yang, Zeng, Yuan, Li, 2023)和语义分割(Ji, Wang, Tao, Huang, Hua, Lu, 2022, Kim, Ju, Han, Yang, Hwang, 2025a, Yu, Teng, Zhang, Zheng, Chen, 2025)等任务的推理效率和泛化能力。
这一挑战在Vision Transformer(ViT)架构中尤为明显,它促进了针对ViT架构定制的知识蒸馏研究的发展。ViT是一种基于Transformer的视觉模型,利用自注意力机制捕获长距离依赖性和全局上下文信息,与基于CNN的架构相比取得了有竞争力的或更优越的性能。然而,ViT模型复杂性的增加导致了大量的训练开销,这促使了各种特定于ViT的知识蒸馏策略的发展(Ren, Wei, Zhang, Hu, 2023, Touvron, Cord, Douze, Massa, Sablayrolles, Jégou, 2021a, Touvron, Cord, Sablayrolles, Synnaeve, Jégou, 2021b, Wu, Zhang, Peng, Liu, Xiao, Fu, Yuan, 2022)。例如,DeiT(Touvron et al., 2021a)引入了一种蒸馏令牌,从教师模型中提取软标签,使得在数据有限的情况下也能进行有效的ViT训练。CAiT(Touvron et al., 2021b)结合了类注意力机制,通过引导学生模型关注与类别相关的特征来增强蒸馏效果。ViTKD(Yang et al., 2024b)采用分层特征蒸馏策略,浅层直接模仿教师特征,而深层用于生成类似教师的表示,从而解决了基于ViT的蒸馏中固有的架构不匹配问题。
尽管这些基于ViT的蒸馏方法在某种程度上提高了Transformer模型的性能,但它们的核心限制是这些方法通常严格限于单模态知识转移,因此无法完全捕捉教师模型中嵌入的丰富语义信息和全局表示(Du, Lei, Zhao, Su, 2024, Zhang, Zhu, Liu, Lin, Wan, Zhang, Lei, 2024c, Zhao, Kong, Liang, Zhu, Kuang, Wu, 2023)。为了直观展示多模态知识转移的优势,我们进行了一系列比较实验,评估了使用单模态图像特征(DeiT)与双模态文本-图像特征的有效性。图1展示了两种模型在训练早期阶段生成的注意力图,涵盖了从浅层到深层的不同网络层。图1(a)显示了单模态设置,其中图像特征仅通过logits传递。由此产生的注意力是稀疏且局部的,严重限制了全局特征的学习。图1(b)展示了我们的多模态框架的有效性,它融合了图像和文本特征,从而产生了更加连贯的注意力模式,证实了多模态语义知识在引导学生模型捕捉局部和全局上下文方面的优越能力。
由于多模态学习(Liang, Wang, Zhou, Miao, Luo, Yang, 2023, Seo, Nagrani, Arnab, Schmid, 2022, Wu, Han, Wang, Dong, Zhang, Shen, 2023, Xue, Yang, Yu, Yu, Guo, Liu, Zhou, 2025)在整合图像和文本信息方面的出色能力,特别是在视觉-语言模型(VLMs)(Li, Guan, Qiu, Spratling, 2024a, Radford, Kim, Hallacy, Ramesh, Goh, Agarwal, Sastry, Askell, Mishkin, Clark, et al., 2021, Yao, Yu, Zhang, Wang, Cui, Zhu, Cai, Li, Zhao, He, et al.)中,多模态方法受到了越来越多的关注。例如,RMOT(Wu et al., 2023)通过使用文本描述作为线索来指导跟踪预测,提高了多目标跟踪的准确性和灵活性。此外,Liang等人(2023)提出了LOCATER方法,通过利用有限的内存和文本表达引导的查询向量提高了视频分割任务的效率。这些成功的例子强烈验证了多模态融合的核心优势:图像提供了细粒度的视觉特征,而文本提供了更深层次的语义理解。当两者结合时,模型可以从不同角度获得新的洞察力,从而增强其处理下游任务的能力。
这种多模态优势也开始应用于模型压缩领域。在最近的研究中,像MoVE-KD(Cao et al., 2025)这样的框架表明,通过同时优化知识蒸馏和文本损失,可以有效地将多个大规模视觉编码器的专门知识蒸馏到学生模型中。这一过程使学生模型能够捕捉各种教师模型的独特语义优势,从而显著提高其性能。尽管这些方法有效,但它们主要关注多模态教师到多模态学生的蒸馏范式,其中学生模型仍然依赖于复杂的多模态架构,无法直接应用于增强现有的纯视觉模型。为了弥补单模态视觉模型的性能差距,我们提出了TIKD,一种新颖的文本-图像联合知识蒸馏框架。在这个框架中,VLM生成的文本语义在训练期间仅作为特权信息来增强视觉特征。在推理时,学生模型保持仅视觉的架构,不需要文本输入或VLM的帮助。这种策略使TIKD能够在保持高推理效率的同时受益于多模态语义知识。
具体来说,TIKD利用视觉-语言模型(Yao et al., 2024)生成输入图像的文本描述并细化关键文本特征。随后,采用基于相似性的加权机制将这些文本特征与来自传统蒸馏的图像特征融合,然后将加权特征注入学生模型的块中,动态调整融合过程,从而显著增强两种模态之间的语义相关性。这种方法不仅扩展了传统的蒸馏框架,还提高了ViT在视觉任务上的性能。广泛的实验结果表明,TIKD显著提高了学生模型的整体性能,即使在参数少于5M的紧凑ViT模型上也观察到了持续的改进。
本研究的主要贡献总结如下:
  • 我们提出了TIKD,一种新颖的知识蒸馏框架,它有效地将互补的文本知识整合到单模态视觉学生的训练中。该框架通过语义引导优化了学生模型的多模态对齐能力,从而解决了传统视觉KD方法中固有的语义信息限制,为轻量级视觉模型蒸馏提供了新的视角。
  • 我们引入了一个专用的离线文本-教师模块。该模块在预处理过程中离线生成图像描述并提取语义丰富的文本特征,为学生模型提供补充的语义指导,从而在部署时无需任何推理成本即可有效增强其对图像内容的理解。
  • 我们设计了一个轻量级的多模态特征融合模块。该模块采用动态加权融合和迭代注入的机制,其中根据语义相似性加权的图像特征不断注入学生模型的Transformer块中。这使得学生模型能够根据文本语义适应性地关注图像特征,更精确地捕捉关键语义信息,从而显著提高其对任务相关区域的关注度并整体提升性能。
  • 我们在四个主流基准数据集(CIFAR-10/100、CINIC-10和Tiny-ImageNet)上进行了详细实验。结果一致表明,TIKD显著优于传统的单模态知识蒸馏,在几种情况下,学生模型的性能与教师模型相当或略有提升,这得益于训练期间利用了特权语义信息。此外,广泛的实验表明,TIKD可以与现有的蒸馏策略结合使用,显著提高学生模型的性能。
  • 本文的其余部分组织如下:第2节回顾相关工作;第3节详细介绍了我们的TIKD方法;第4节报告实验结果;第5节进行总结。

    部分片段

    知识蒸馏

    根据传输的知识类型,KD通常分为两种主要方法:基于logit的蒸馏和基于特征的蒸馏。基于logit的蒸馏通过教师模型的最终输出来传输知识,引导学生模型模仿输出分布。例如,DKD(Zhao, Cui, Song, Qiu, & Liang, 2022)通过动态调整权重方案来分离目标类别和非目标类别之间的知识转移,从而提高性能;

    方法论

    本节详细介绍了提出的TIKD框架。TIKD旨在通过有效地将VLM中的丰富语义知识注入单模态学生模型来克服纯视觉知识蒸馏的局限性。我们的框架通过两阶段过程运行。在第一阶段:离线文本知识生成阶段,我们使用专用的VLM(Text-Teacher)为整个数据集离线生成文本描述,然后使用预训练的CLIP文本编码器

    实验设置

    数据集:我们在四个广泛使用的数据集上进行训练和评估:CIFAR-10、CIFAR-100、CINIC-10和Tiny-ImageNet。这些数据集具有足够的多样性,适用于评估低分辨率和小样本场景的模型。CIFAR-10包含10个类别,每个类别有5,000张训练图像和1,000张测试图像,图像大小为32×32像素。CIFAR-100包含100个类别,每个类别有100张32×32像素的测试图像和500张训练图像。CINIC-10是一个包

    结论

    在本文中,我们提出了TIKD,一种专为纯视觉ViT学生模型定制的文本-图像联合知识蒸馏框架。TIKD通过三步过程增强知识转移,首先进行离线文本生成,然后执行动态多模态特征融合,最后进行语义引导训练,整个过程中无需修改学生模型的架构。在CIFAR-100上使用Hard KD基线时,TIKD将Top-1准确率从77.71%提升到

    作者声明

    梁星竹:撰写 - 审稿与编辑、资源收集、调查、数据整理、概念化。尹春:撰写 - 审稿与编辑、初稿撰写、可视化、验证、方法论、调查、概念化。李梦媛:调查、概念化。林玉娥:撰写 - 审稿与编辑。

    利益冲突声明

    作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号