SSA-KD:针对卷积神经网络的自我结构感知知识蒸馏

《Neural Networks》:SSA-KD: Self-Structure-Aware Knowledge Distillation for Convolutional Neural Networks

【字体: 时间:2026年03月18日 来源:Neural Networks 6.3

编辑推荐:

  本文提出基于结构感知的知识蒸馏方法SSA-KD,通过AFIE剪枝方法定制教师模型子结构作为学生模型,解决传统知识蒸馏中模型结构不匹配和效率低下问题,在CIFAR数据集上实现更高压缩率和性能。

  
吕一恒|张志辉|关子宇|赵伟|杨亚明|徐才|龚茂国
教育部协同智能系统重点实验室,西安电子科技大学,中国西安太白南路2号,710071

摘要

知识蒸馏在卷积神经网络的模型压缩方面取得了巨大成功。然而,学生模型的选择通常依赖于通用的小型结构,这导致了大量的不兼容性和低效率问题,即学生模型无法针对特定的数据集和任务进行适应性定制。在本文中,我们提出了一种自结构感知的知识蒸馏方法,通过个性化教师模型来获得学生模型。具体来说,我们首先从原始教师模型中提取一个子网络,然后在教师模型和学生模型之间进行知识蒸馏。学生模型的定制通过一种结构感知的剪枝方法完成,该方法可以生成稳定的结构,从而确保学生模型的有效性。与以往的知识蒸馏方法相比,我们的方法可以在保持更高性能的同时降低复杂度,因为结构感知的剪枝方法可以从教师模型中生成层对齐的子结构。这意味着在适当定制学生模型的情况下,可以缓解不兼容性和低效率问题。我们在VGG-16、ResNet-32和ResNet-50上使用CIFAR-10和CIFAR-100数据集对这种方法进行了测试。我们不仅获得了最高的数据压缩率,而且由于教师模型和学生模型具有相同的深度维度,实施该方法所需的复杂度也最低。代码可在以下链接获取:https://github.com/motinwing/AFIE-distillation-SSA-KD

引言

知识蒸馏(KD)技术已被广泛研究用于通过将特征表示从基础模型(教师模型)传播到轻量级模型(学生模型)来压缩卷积神经网络(CNNs)(Fontana等人,2024年;Hao等人,2024年;Li等人,2023年;Miles和Mikolajczyk,2024年;Yang等人,2023年)。KD的核心在于“蒸馏策略”和“学生模型选择”,分别决定了特征传输和模型压缩的水平。
然而,由于简单的“学生模型选择”策略,知识蒸馏技术存在不兼容性和低效率问题。也就是说,学生模型是从现有模型派生出来的,而这些模型的结构与基础模型不同,因此在层对齐方面可能存在问题。创造性地,一些学生模型是从现有的轻量级模型中选出的,以确保与教师模型具有相同的架构(Chen等人,2021年;Gao等人,2021年;Zhang等人,2019年)。这些方法对于大部分压缩任务来说既方便又有效,但它们既不允许指定压缩率,也通常不能确保学生模型和教师模型之间的结构一致性。
此外,Li等人(2020年)和Liu等人(2020年)提出的基于神经架构搜索(NAS)的蒸馏算法可以通过从给定模型空间中进行迭代搜索来定制基于基础模型的学生模型,从而缓解上述不兼容性问题。然而,NAS方法在获取目标架构时相对耗时,尤其是当模型空间很大时。因此,效率问题可能会限制KD的应用,尤其是对于边缘工业设备而言,繁琐的学生模型选择过程可能会增加KD的使用成本。
为了提高KD的效率,我们结合了Lu等人(2024年)提出的自结构感知(SSA)剪枝方法——平均滤波器信息熵(AFIE),从基础模型中定制合适的子结构,以解决不兼容性和低效率问题。值得注意的是,AFIE方法可以通过从教师模型中移除不同比例的滤波器来生成紧凑的模型,同时保持相同的层深度,从而确保教师模型和学生模型之间的特征表示对齐。此外,AFIE可以通过对原始卷积层的权重矩阵进行奇异值分解(SVD)来进行剪枝,对参数的敏感性较低。这意味着AFIE可以生成适合学生模型的稳定子结构。然后我们可以利用这个稳定的子结构通过KD获得更好的性能。
由于所有层中滤波器的重要性评估具有较高的一致性,因此可以通过AFIE仅根据指定的剪枝率来定制子结构。这意味着只有在确定了剪枝率后,才能对基础模型进行瘦身,且不需要调整额外的超参数。因此,在从教师模型定制学生模型时可以实现较低的复杂度。因此,结合AFIE可以同时缓解KD过程中的不兼容性和低效率问题。
关于SSA方案,我们提出了SSA-KD方法以实现更高效的知识蒸馏。完成模型压缩需要两个主要步骤:1)通过AFIE剪枝方法从教师模型中获取子结构;2)应用KD技术将知识从教师模型传输到定制的学生模型。我们在VGG-16、ResNet-34和ResNet-50上分别使用CIFAR-10和CIFAR-100数据集对SSA-KD进行了测试。结果表明,SSA-KD在准确性方面优于其他方法,并且模型规模更小。最后,我们通过泰勒展开和学生模型的二阶导数证明了SSA-KD的收敛性。结果和数学证明都表明,所提出的SSA-KD可以在知识蒸馏过程中提高学生模型的性能。
本文提出了三项贡献:
  • 我们提出了SSA-KD,同时解决了以往知识蒸馏框架中出现的计算效率和结构兼容性两个主要问题。这种创新的KD方法仅通过结构感知的剪枝方法就能提高性能和效率,并且计算复杂度较低。
  • 我们将一种新的结构感知剪枝方案AFIE整合到传统的知识蒸馏中,以定制合适的子结构,该子结构可以作为学生模型使用,并具有完全的稳定性。AFIE可以根据指定的剪枝率从原始教师模型生成稳定的子结构,非常适合在边缘工业设备中部署。
  • 我们在流行的模型和数据集上进行了多次实验。结果表明,与现有方法相比,我们的方法在CIFAR-10和CIFAR-100数据集上表现更优,使用了经典的VGG-16、ResNet-34和ResNet-50架构。
  • 本文的结构如下:第2节介绍相关工作。第3节阐述了SSA-KD的流程和数学原理。第4节进行了广泛的实验并分析了结果。最后,我们提出了结论。

    知识蒸馏

    最初的KD方法由Hinton等人(2015年)提出,称为Vanilla KD。该方法的基本观点是,当一个极度压缩的学生模型单独使用时无法达到满意的性能时,高性能的教师模型可以通过提供训练集标签之外的额外信息来提升学生模型的性能。基于这一观点,后续的研究工作集中在提高

    方法论

    为了解决以往知识蒸馏在学生模型选择中的不兼容性和低效率问题,我们设计了一种自结构感知的知识蒸馏(SSA-KD)技术来提高CNN的知识蒸馏性能。如图1所示,SSA-KD的核心包括两个主要组成部分:1)通过Lu等人(2024年)提出的结构感知剪枝方法AFIE从教师模型中定制合适的子结构;2)从教师模型传播特征表示

    实验

    在本节中,我们进行了广泛的实验来验证SSA-KD的有效性。我们使用VGG-16作为基础模型来训练CIFAR-10数据集,以及使用ResNet-34和ResNet-50来训练CIFAR-100数据集。在应用SSA-KD之前,我们调整了一些实验设置以获得令人信服的结果。对于VGG-16,训练周期设置为150,学习率和批量大小分别为0.01和64。对于ResNets,训练周期也设置为150

    结论

    在本文中,我们提出了SSA-KD方法来解决以往知识蒸馏方法中出现的不兼容性和低效率问题。通过将结构感知剪枝方法AFIE整合到基础知识蒸馏技术中,我们可以通过从原始教师模型中定制子结构来获得更小的学生模型,同时保持较高的准确率。此外,我们提供了严格的数学证明来说明

    CRediT作者贡献声明

    吕一恒:撰写——原始草稿、可视化、验证、软件、资源管理、方法论、调查、形式分析、数据整理、概念化。张志辉:形式分析、数据整理。关子宇:撰写与编辑、监督。赵伟:调查。杨亚明:方法论。徐才:调查。龚茂国:监督。

    利益冲突声明

    作者声明与任何可能不当影响我们工作的个人或组织没有财务和个人关系,对任何可能影响本文内容或评审过程的产品、服务或公司没有专业或其他性质的个人利益。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号