《Neural Networks》:AutoRep: Automatic Network Search with Structured Reparameterized based Linear Operation Expansion and Gradient Proxy Guided Reduction
编辑推荐:
本文提出AutoRep算法,通过结构重参数化扩展候选操作,结合SynFlow代理和精度差异删除策略优化SuperNet训练,在保持计算效率的同时提升轻量级CNN和Transformer的表征能力,实验验证其在准确率与效率的权衡上优于传统方法。
邱国豪|陈若欣|陈志华|戴磊|李平|盛斌
中国华东科技大学计算机科学与工程系,上海,200237
摘要
卷积神经网络(CNN)和视觉变换器(Vision Transformer)在各种计算机视觉任务中取得了巨大成功。然而,高昂的计算成本限制了它们的应用,同时设计出兼具手动设计和自动搜索方法的轻量级架构也非常困难。在本文中,我们重点介绍了SuperNet训练中的特定结构参数化策略,以提高基于一次性搜索的神经架构搜索算法的性能。在SuperNet训练过程中,每个候选操作通过一系列等效的操作分支进行扩展,以充分利用表示潜力。为了减轻训练难度并避免过多的计算成本,在验证采样子网络后,我们采用了操作简化策略和先验采样策略。操作简化策略是移除效果较低的扩展线性层。在简化步骤中,首先需要根据SynFlow代理选择候选操作,然后根据移除前后准确性的差异来选择扩展线性层。
引言
高等人(2021年)和刘等人(2021年)在计算机视觉的所有领域都探索了CNN和Transformer。由于实际应用硬件的部署要求,设计轻量级网络引起了众多研究者的兴趣。在本文中,我们结合了神经网络架构搜索和结构参数化的思想,寻找能够利用结构参数化来释放每个候选操作表示能力的最优轻量级网络。
神经网络架构搜索是一种广泛使用的网络设计算法,可以自动在预定义的搜索空间中找到最优的模块组合(朱等人,2023b)。早期提出的方法是为CNN网络设计的,使用了包括强化学习和进化算法在内的黑盒优化方法。主要问题是采样子网络的训练过程是独立的,整个搜索过程需要巨大的计算成本。
经典的基于一次性的NAS算法SPOS(郭等人,2020年)训练一个过参数化的网络(通常称为SuperNet),并简单地使用SuperNet中学习到的权重来评估采样子网络。类似的训练策略可以应用于CNN和视觉变换器网络。
我们的论文专注于搜索能够利用结构参数化技术来增强表示能力的轻量级CNN和视觉变换器网络。直接使用参数化方法的主要问题是,在SuperNet训练过程中会产生大量模块,显著增加训练难度。我们考虑根据设计标准移除一些候选操作分支来降低训练难度。
我们提出了一种新的SuperNet训练算法,该算法在参数化和中间去参数化步骤之间交替进行,以充分利用每个操作的表示潜力。在参数化步骤中,通过几个线性操作扩展候选操作,以充分发挥表示能力。扩展步骤之后,我们按照常规的SuperNet训练流程训练所有候选操作。在中间去参数化步骤中,我们使用与扩展分支等效的卷积模块来简单评估每个候选操作的性能。移除候选操作分支的标准是移除前后性能的下降程度。我们倾向于移除整个参数化结构,只考虑移除少数候选线性层。考虑到早期训练阶段学习到的权重的不可靠性,移除操作仅在后期训练步骤中考虑。在早期阶段,我们考虑降低选定操作的采样概率。此外,受到SuperNet Shifting中对高性能架构关注的启发,我们增加了高性能操作的采样概率。另外,当扩展线性层的数量低于预定义阈值时,采用完全移除策略来进一步降低计算成本。SuperNet训练的框架如图1所示。
为了验证我们提出的AutoRep的泛化能力,我们在CNN、ViT、CNN-Transformer和MLP搜索空间以及图像识别任务和下游视觉任务上进行了实验。通过与最近提出的手动设计和NAS获得的网络进行比较,证明了我们提出的算法能够获得更好的准确性/效率平衡。
我们的主要贡献可以总结如下:
•我们提出了一种新的SuperNet训练策略,应用于基于采样的基于一次性的神经架构搜索,称为AutoRep,它在各种搜索空间中都具有灵活性。该算法包括基于参数化的SuperNet训练步骤和基于移除前后准确度差异的SuperNet简化策略。
•我们提出了基于交替参数化和去参数化的SuperNet训练算法。在通用SuperNet架构的每个分支中都使用了结构参数化机制来增强表示能力。
•我们提出了基于零成本代理的候选操作策略,以降低SuperNet的训练难度。我们使用SynFlow代理来选择最不重要的操作,并根据移除前后的准确度差异来选择最不重要的扩展层。
部分摘录
手工设计的神经网络
ShuffleNet(马等人,2018年)和MobileNet(桑德勒等人,2018年)是两种经典的轻量级CNN网络。ShuffleNet指出Xception(Chollet,2017年)和ResNeXt(谢等人,2017年)没有考虑逐点卷积的复杂性,并提出了用于组卷积的通道重排机制。MobileNet建议用1x1卷积和深度卷积替换Inception模块中的3×3卷积。GhostNet(韩等人,2020年)指出存在较大的动机
CNN和Transformer网络的搜索空间包含大量的候选子网络。完全训练每个子网络是非常困难的。此外,也很难充分探索每个候选操作的学习潜力。结构参数化通过将操作参数化为几个线性操作并联合优化所有线性层来增强操作的表示能力。我们使用与SuperNet相关的结构参数化模块
实验结果
在本节中,我们使用NVIDIA-A100-80GB对不同轻量级CNN、Transformer和MLP模型在多个任务上的有效性进行了定量评估。
结构参数化策略的效果
在本节中,我们给出了之前方法中提出的类似结构参数化策略的消融实验结果。首先,我们给出了CNN模块的消融实验。比较的策略包括:1. 仅考虑主网络的线性操作;2. 使用空间梯度缩放策略合并线性操作以进行去参数化;3. 使用ORPEA中提出的线性缩放层。
结论
在本文中,我们介绍了AutoRep算法,该算法将结构参数化策略引入SuperNet架构中,以增强表示能力并充分探索每个候选操作的潜力。为了避免显著扩大SuperNet网络和增加训练难度,我们采用了操作移除策略来减少SuperNet中的扩展线性层和候选分支。使用零成本代理来
CRediT作者贡献声明
邱国豪:撰写——原始草稿,可视化,验证,软件,方法论,调查,形式分析,数据整理,概念化。陈若欣:撰写——原始草稿,可视化,验证,软件,方法论,调查。陈志华:监督,资源,项目管理,资金获取。戴磊:撰写——原始草稿,可视化,调查,资金获取。李平:撰写——原始草稿,可视化。盛斌:撰写——
利益冲突声明
陈志华和戴磊报告称,他们的研究得到了国家自然科学基金的支持。陈志华还报告称,他们的研究得到了中国航空科学基金的支持。如果还有其他作者,他们声明没有已知的利益冲突或个人关系可能影响本文所述的工作。