可扩展剪枝:通过基于平滑度的扩展来提升模型压缩效果

《Neurocomputing》:Expandable pruning: Enhancing model compression through smoothness-guided widening

【字体: 时间:2026年01月31日 来源:Neurocomputing 6.5

编辑推荐:

  模型压缩中提出Expandable Pruning(EP)框架,通过两次剪枝结合扩展策略平滑离散搜索空间,在CIFAR-10和ImageNet-1K上实现优于基线方法。

  
郝公|刘颖
中国科学院计算机科学与技术学院,北京,101408,中国

摘要

深度学习模型在高效部署之前通常需要压缩。一种流行的压缩技术是剪枝,它具有显著的压缩潜力。然而,当前剪枝方法的性能往往受到离散且崎岖的架构空间的限制,这使得寻找最优子网络变得困难。为了解决这个问题,我们提出了可扩展剪枝(EP)这一新颖的后期处理框架,该框架旨在通过首先促进更平滑的局部搜索空间来改进剪枝效果。EP首先使用标准剪枝方法识别出一个有前景的子网络,然后策略性地扩展这个被剪枝的结构,我们通过实验观察到这一过程能够产生更连续的局部景观。随后在这个改进的空间内进行第二次剪枝,可以发现更优的最终模型。EP的有效性在于通过减轻局部崎岖性,使得寻找最优子网络的过程变得更加可行。在CIFAR-10和ImageNet-1K数据集上的实验证明了EP的实用性,在CNN和ViT分类任务中实现了或超越了最先进的性能。

引言

随着越来越大和深的神经网络的兴起,模型压缩技术已成为深度学习研究中的一个重要领域。剪枝技术通过策略性地移除不重要的连接而受到广泛关注。通过选择性地消除这些连接,剪枝可以减小模型大小和计算开销,从而降低部署和推理成本,同时保持准确性。剪枝方法的进步将使大规模深度学习模型能够在资源有限的环境(如移动设备和嵌入式系统)中高效运行。
在这些技术中,结构化剪枝(即移除整个通道或滤波器)对于硬件加速特别有效。然而,结构化剪枝的性能经常受到一个根本性挑战的阻碍:寻找最优子网络的过程发生在崎岖且不连续的景观中。这种崎岖性源于通道选择的二进制特性——每个通道要么被保留,要么被丢弃。这种0-1的离散性意味着剪枝架构中的微小变化可能导致模型性能的巨大、不可预测的波动,使得优化过程不稳定,并可能收敛到次优解[1]。
为了解决这个问题,一些方法探索了在剪枝之前扩展网络[2]。这些我们统称为“先扩展再剪枝”的方法已经显示出实验上的潜力。例如,一些方法均匀地加宽所有层,而其他方法则选择性地扩展瓶颈层。然而,这些策略大多是启发式的,缺乏指导性的理论原则。它们证明了扩展是有效的,但未能解释为什么有效或如何以原则性的方式扩展网络,从而在理解上留下了一个关键缺口。我们将这个缺口转化为一个明确的研究问题:扩展能否减少离散剪枝景观中的局部崎岖性?这种减少能否使第二次剪枝更加稳定?它能否帮助找到更好的子网络?我们将这种属性称为架构搜索空间的平滑性。这种观点将扩展从一种临时性的容量增加转变为一种原则性的设计选择。目标是使局部架构变化导致更小且更可预测的性能变化。
在本文中,我们提出了架构搜索空间的平滑性作为一个指导原则。这一原则回答了上述研究问题。它解释了为什么“先扩展再剪枝”在超越启发式加宽之外仍然有效。我们认为,一个设计良好的扩展的主要好处不仅仅在于增加更多的通道,而在于从根本上将离散、崎岖的搜索景观转变为更连续、更平滑的景观。更平滑的空间减少了对外部扰动的敏感性,使优化算法能够更稳定、更有效地朝着更好的解决方案前进。这一见解将重点从临时的扩展转变为一个明确的目标:设计更容易剪枝的架构。
基于这一原则,我们引入了可扩展剪枝(EP),这是一个应用平滑性引导的扩展后进行剪枝的框架。EP首先使用标准基线方法对预训练网络进行剪枝,得到一个初始的剪枝模型。然后该过程包括四个阶段。阶段I:扩展剪枝后的网络并转移来自预训练模型的权重。阶段II:对扩展后的网络进行轻度微调。阶段III:再次使用相同的基线方法对扩展后的网络进行剪枝。阶段IV:对最终的剪枝模型进行微调。如图1所示,崎岖且不连续的剪枝景观与引导扩展和权重转移后获得的更平滑的空间形成了鲜明对比。
EP应用了两次标准剪枝。第一次剪枝找到了一个强大的子网络。扩展和权重转移创建了一个局部更平滑的邻域。第二次剪枝在这个空间内进一步优化子网络。这种设计使第二次剪枝步骤更加稳定和可靠。这种设计围绕一个强大的候选者构建了平滑性,使得第二次剪枝步骤能够找到之前无法达到的更好解决方案。本工作的主要贡献总结如下:
  • 1.
    我们研究了一个具体的问题:扩展能否减少离散剪枝景观中的局部崎岖性?这种减少能否使重新剪枝更加可靠?为了回答这个问题,我们定义了一个可测量的架构搜索空间平滑性概念。我们还提出了一种基于平滑性的扩展策略。该策略针对局部崎岖性,而不仅仅是简单的容量增长。
  • 2.
    我们介绍了EP,这是一个四阶段框架,它在实践中应用了这一平滑性原则。EP首先剪枝网络以定位一个好的区域,然后进行平滑性引导的扩展以平滑局部搜索空间,最后再次应用剪枝和微调以获得更强的子网络。这种设计为之前的启发式扩展方法提供了一个原则性的替代方案。
  • 3.
    我们在CIFAR-10 [3]和ImageNet-1K [4]上进行了广泛的实验。EP在CNN和Vision Transformers上都取得了最先进的成果,在相似或更高的稀疏度水平上实现了更高的准确性。这些改进转化为计算效率和推理速度的实质性提升。
  • 相关工作

    相关工作

    作为增强剪枝算法的方法,网络扩展在最近的研究中获得了显著的关注。Nonnenmacher等人[2]研究了剪枝算法在揭示架构瓶颈中的作用。扩展这些瓶颈可以提高网络准确性。该研究提出了扩展剪枝和加宽剪枝方法。然而,由于缺乏对剪枝前后阶段的定量分析和理论论证,这项研究的说服力有所减弱。

    可扩展剪枝方法

    EP框架是一种多阶段的后期处理方法,用于增强基线剪枝算法。如表1所总结和图2所示,EP通过四个阶段进行:(I)引导扩展和权重转移,(II)轻度微调,(III)最终剪枝,以及(IV)最终微调。关键思想,特别是在阶段I中,是改善架构搜索空间的平滑性。这一概念将在第4节中进行分析和验证。在进入这些阶段之前,

    分析

    所提出的EP框架的有效性在很大程度上取决于网络扩展策略。更广泛地说,本节探讨了我们的研究问题:扩展能否减少离散剪枝景观中的局部崎岖性?改善的平滑性是否与更好的剪枝结果相关?基于先前的研究和我们的初步分析,我们检验了三种主要策略:
  • 1.
    加宽剪枝:在剪枝之前,均匀地将原始网络的所有层扩展一个固定的宽度因子。
  • 实验

    本节展示了验证EP核心思想的实验,并证明了其有效性。我们首先分离了基于平滑性引导的扩展策略的效果,然后将完整的EP框架与最先进的方法进行比较,最后通过消融测试研究其可扩展性和设计选择。所有实验都在NVIDIA DGX-1节点上使用PyTorch 2.6.0运行。除非另有说明,每个结果都是三次独立运行的平均值,每次运行使用不同的随机种子。

    结论

    在这项工作中,我们解决了网络剪枝的一个关键限制:即难以找到最优子网络的崎岖且离散的搜索空间。我们引入并形式化了搜索空间平滑性的概念,并提供了实证证据,表明鼓励更连续的优化景观可以改善剪枝效果。基于这一概念,我们提出了EP框架,该框架首先剪枝网络以找到一个好的区域,然后扩展它以促进局部平滑性,最后再次进行剪枝

    未引用的参考文献

    [43], [45], [46], [47], [48], [49], [50], [51], [52], [53], [54], [55]

    CRediT作者贡献声明

    郝公:概念化、数据整理、形式分析、方法论、软件、验证、可视化、撰写——原始草稿、撰写——审阅与编辑。刘颖:项目管理、资源协调、监督、撰写——审阅与编辑。

    CRediT作者贡献声明

    郝公:撰写——审阅与编辑、撰写——原始草稿、可视化、验证、软件、方法论、调查、形式分析、数据整理、概念化。刘颖:撰写——审阅与编辑、监督、资源协调、项目管理。

    利益冲突声明

    我们声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

    致谢

    这项工作部分得到了中国国家自然科学基金(项目编号62176247)的支持。它还得到了中央高校基本研究经费的支持。
    郝公于2020年在河北燕山大学信息科学与工程学院(软件学院)获得学士学位。他目前正在中国科学院计算机科学与技术学院攻读博士学位。他的研究重点是模型压缩和高性能计算。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号