多视图特征调整与对齐在知识蒸馏中的应用

《Displays》:Multi-view Feature Adjustment and Alignment for knowledge distillation

【字体: 时间:2026年03月26日 来源:Displays 3.4

编辑推荐:

  本文提出多视角特征调整与校准(MFAA)框架,通过输入关系建模、特征交互和输出决策的多层蒸馏路径,有效解决知识蒸馏中的语义错位与不确定性问题,显著提升学生模型的泛化能力和性能,实验验证在多个任务和基准数据集上优于现有方法。

  
作者:盛仁、帅源、宾虎、泽涛
湖南文理学院计算机与电气工程学院,中国湖南省常德市,415000

摘要

知识蒸馏(KD)是一种广泛使用的模型压缩技术,通常依赖于教师模型生成的软标签作为监督信号来指导学生模型的训练。然而,教师模型和学生模型之间存在显著的结构差异,可能导致语义不对齐和不确定性,从而削弱监督效果。为了解决这个问题,我们提出了多视图特征调整与对齐(MFAA)这一基于层次结构的蒸馏框架。MFAA构建了一个多视图蒸馏路径,包括输入关联建模、特征交互和输出决策,从而显著提高了学生模型的泛化能力和性能。我们在六个基准数据集(CIFAR-100、CIFAR-100-C、STL-10、SVHN、Tiny ImageNet和ImageNet)上对MFAA进行了分类、迁移学习、小样本学习和鲁棒性任务的评估。客观评估指标包括准确率、平均腐败误差(mCE)、KL散度和中心核对齐(CKA);主观评估指标通过类别激活图(CAM)和t-SNE可视化来评估学习到的表示的一致性和可解释性。实验结果表明,MFAA始终优于现有方法,在鲁棒性评估中平均提升了5.86%。它还增强了特征一致性和语义对齐性,证实了其在表示保留和结构对齐方面的优势。我们的源代码可在以下链接获取:https://github.com/lambett/MFAA

引言

随着深度学习性能的不断提高,相关的计算成本也变得越来越显著,特别是在自动驾驶[1]、语义分割[2]、边缘计算[3]和面部识别[4]等资源密集型应用中。为了应对这些日益增长的需求,神经网络压缩技术受到了广泛关注,作为一种提高效率的有效手段。为此,提出了多种方法来构建更紧凑且计算效率更高的网络架构[5]。例如,低秩分解[6]和KD[7]、[8]、[9]已被证明是有效的。这些方法不仅降低了计算复杂性和内存需求,还使得深度学习模型能够在资源有限的硬件上运行,从而加速了深度学习技术在各种实际应用中的采用。
本文旨在减少知识蒸馏(KD)中教师模型和学生模型对之间的表示差距,同时提升学生模型的性能。Hinton等人的基础工作[10]引入了带有温度参数的软化softmax输出作为辅助监督信号。此后,出现了各种扩展,加入了更丰富的指导形式,如类别概率分布[11]、[12]、[13]、[14]、中间特征[15]、[16]、[17]、[18]、[19]、[20]、[21]、结构化知识[21]、[22]以及主干网络中的辅助模块[23]、[24]。然而,KD的成功依赖于一个基本假设:教师模型和学生模型的输出之间存在有意义的分歧,这种分歧提供了有信息的监督。这种分歧在输出层和特征层的蒸馏中都被广泛用作迁移质量的代理。然而,当教师模型和学生模型产生过于相似的预测时,监督信号会减弱或变得模糊。在这种情况下,传统的KD会失去其区分能力,无法有效区分学习良好的实例和学习不佳的实例。因此,学生模型接收到的梯度无效,限制了其精炼表示的能力,降低了蒸馏的整体效果。
为了克服基于差异的蒸馏的局限性,一些方法采用了基于最优传输(OT)的视角,对将学生模型的输出分布转换为教师模型输出分布所需的最小努力进行建模。例如,SinkD[25]用Sinkhorn距离替换了KL散度和反向KL散度,从而能够更细致地评估教师模型和学生模型输出之间的差异。WKD[26]利用Wasserstein距离来建模输出分布中嵌入的更好类别间关系。VKD[27]通过正交投影和任务特定的归一化来提高重叠分布的区分能力,从而增强类别可分性。LSKD[28]通过根据logits的加权标准差动态调整温度来缓解固定温度KL散度引起的刚性,从而实现由相对类别关系引导的对齐。基于OT的蒸馏方法旨在找到教师模型和学生模型输出或特征之间的“最佳”对齐。然而,基于OT的方法的一个关键局限性是,当教师模型和学生模型的输出非常相似时,它们依赖的距离度量可能会变得不那么具有信息性。这可能导致效率低下,因为OT公式可能难以区分知识转移中的细微变化。相比之下,关系蒸馏通常使用基于相似性的损失,确保学生不仅从教师模型的预测中学习,还从不同输出类别或特征表示之间的相对关系中学习。虽然这有助于捕捉高阶关系,但当教师模型和学生模型产生过于相似的输出时,关系蒸馏仍然会受到类似的限制,导致学生模型的监督信号较弱。尽管这些方法能够捕捉输出分布中的细微差异并提供可解释的监督,但它们仍然局限于logit级别的蒸馏。因此,中间特征级别的知识转移仍然受到语义模糊性和不对齐的影响。为了克服这些限制,迫切需要开发一种适用于logit和特征蒸馏的统一差异度量方法,能够捕捉层次结构和语义层次之间的细微差异。此外,通过引入跨越输出分布和中间特征空间的多视图蒸馏路径,可以提供更丰富的监督信号,从而增强知识转移并显著提高学生模型的性能。
我们提出了MFAA,这是一个受限的特征蒸馏框架,它统一了多个层次上的差异度量和结构化表示学习。它通过多视图特征调整和对齐来提升学生模型的性能。在输入层,MFAA引入了Wasserstein距离来捕捉教师模型和学生模型之间的细微差异,同时考虑了空间结构和分布变化。在此基础上,它构建了高阶类别间关系先验,模拟语义依赖性,并为学生提供了超出实例级别监督的全局结构指导。在特征提取阶段,MFAA采用了反向知识流机制:学生生成的中间特征被反馈到教师模型中。这种反馈使教师模型能够调整其输出以适应学生的表示能力,生成多头预测,从不同的角度提供互补的语义监督。这增强了学生在语义子空间中的泛化能力。在决策阶段,MFAA用Wasserstein距离替换了传统的KL散度,并将预测分解为与语义或空间区域对齐的局部logits。每个区域都独立进行蒸馏,使学生能够捕捉到细致的决策逻辑,从而提高准确率和鲁棒性。总体而言,MFAA的层次对齐策略显著改善了分类和检测等任务的知识转移。本文的贡献可以总结如下:
  • 我们有效解决了传统KD范式中的挑战,即学生模型和教师模型在logit输出和特征表示层面的分布重叠问题。
  • 我们提出了一个多视图蒸馏框架,集成了输入建模、特征交互和决策层监督。通过跨类别先验、反向知识和细致的指导,它增强了结构对齐和语义表示,显著提高了学生模型的泛化能力和性能。
  • 我们在各种基准数据和模型对上验证了MFAA,显示出在轻量级和深度网络中准确率和特征对齐方面的一致性提升。它对噪声和不平衡具有鲁棒性,并且即使在分布变化的情况下也能超越现有方法,证明了其作为可靠蒸馏框架的实际价值。
本文的其余部分组织如下:第2节回顾相关文献。第3节介绍所提出的MFAA的正式定义。第4节详细说明实验设置并分析结果。最后,第5节总结研究。

相关工作

相关工作

本节重点介绍了与MFAA框架相关的两种知识蒸馏类型:logit蒸馏和特征蒸馏,简要概述了它们的基本原理和实际应用。

方法论

在本节中,我们将详细介绍MFAA,该框架旨在充分利用来自不同视角的数据中的互补信息,从而增强学生模型的区分能力和性能。具体来说,我们将从多视图的角度进行全面分析,包括输入数据、特征提取和模型决策。

实验分析

本节通过实证展示了MFAA如何提高学生模型的性能并加强不同教师模型对学生模型的知识转移。

方法论目标

KD假设教师模型和学生模型的输出之间存在有意义的分歧,作为有效监督的代理。然而,当预测过于相似时,监督信号会减弱或变得模糊,从而降低模型的区分能力。这导致学生模型接收到的梯度无效,限制了表示的精炼并降低了知识转移的整体效果。为了克服基于差异的监督的局限性,一些方法使用了最优传输理论

结论与未来工作

在这项工作中,我们提出了MFAA,这是一种新颖的特征蒸馏框架,它能够在多个特征层次上对齐表示。MFAA在输入层结合了跨类别建模,在特征提取层采用了反向知识流,在决策层进行了局部预测分解,以实现结构化对齐。这种多层次设计提高了教师模型和学生模型之间的兼容性,并促进了细致的语义学习,取得了显著的效果

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

致谢

本工作部分得到了湖南省自然科学基金(项目编号:2025JJ70639和2025JJ60421)的支持;部分得到了湖南省教育厅科研项目(项目编号:24A0485)的支持;部分得到了湖南文理学院博士研究启动项目(项目编号:22BSQD02)的支持;以及湖南省智能交通大数据处理重点实验室开放研究基金(项目编号:B202405)的支持;
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号