编辑推荐:
通过理论分析和积分梯度方法,提出归因幅度(AM)和尺度不变变换(SIAT),解决DARTS操作重要性评估问题,提升超网络架构搜索效率。
谢伟生|方旭伟|高向翔|陈航|李慧|李少远
Bestpay AI实验室,中国上海汤古路463号,200085
摘要
可微分架构搜索(DARTS)由于其搜索效率和简洁性而在神经架构搜索领域占据主导地位,这是通过梯度下降优化架构参数实现的。然而,最近的研究表明,架构参数的大小并不能反映其对任务性能的实际影响,从而降低了衍生架构的性能。为了解决这一限制,我们首先对DARTS中的操作选择机制进行了理论研究,揭示了它对超网验证损失变化的影响。在此基础上,我们利用积分梯度将超网的预测结果分配给网络中的每个操作,并推导出了一种全新的操作重要性度量方法,称为“归因幅度”。为了将归因幅度整合到DARTS框架中,我们引入了“尺度不变归因幅度变换(SIAT)”技术,该技术有效适应了超网中不同尺度上的操作得分差异。通过结合SIAT,我们提出了一种新的可微分架构选择方法DARTS-AM。在各种数据集和搜索空间上的广泛实验表明,DARTS-AM的性能与最先进的方法相比具有很高的竞争力。
引言
深度神经网络在各种模式识别和计算机视觉任务中越来越受欢迎[1]、[2]、[3]。然而,为特定任务设计网络架构是一个巨大的挑战。最近,神经架构搜索(NAS)[4]在自动化深度学习领域内的神经网络设计方面证明了其高效性[5]。然而,早期的NAS方法[6]计算成本较高,阻碍了其实际应用。为了提高架构搜索的效率,最近的研究提倡基于一次性范式的方法,通常称为权重共享[7]。DARTS[8]进一步采用了这种权重共享方法,通过引入连续的架构元素组合,并将分类架构搜索任务重新定义为可微分的架构权重学习问题。
尽管DARTS在计算效率方面表现出色,但它最近面临稳定性和泛化能力方面的挑战。已经付出了大量努力来解决DARTS中众所周知的“性能崩溃”问题[9]、[10]。具体来说,研究[9]、[11]指出,这个问题源于DARTS中架构参数的大小可能无法准确反映实际的操作重要性。换句话说,参数大小最大的操作并不一定能够带来最高的验证准确性,从而导致衍生架构的性能下降。
本文提出了一种新的架构选择方法,称为DARTS-AM。与之前依赖于架构参数大小的方法不同,我们的方法根据操作对超网性能的实际贡献来识别操作。具体来说,我们使用二阶泰勒展开来分析DARTS中的操作选择过程如何影响超网验证损失的变化。在此基础上,我们应用积分梯度将超网的预测结果分配给网络中的各个操作,从而开发出一种新的操作重要性度量方法,称为“归因幅度”。为了处理超网中不同尺度上的操作得分差异,我们提出了“尺度不变归因幅度变换(SIAT)”技术。通过结合SIAT,我们将DARTS框架与这种度量方法无缝集成。在各种数据集和搜索空间上的广泛实验表明,DARTS-AM的性能与最先进的方法相比具有很高的竞争力。
引言
深度神经网络在各种模式识别和计算机视觉任务中越来越受欢迎[1]、[2]、[3]。然而,为特定任务设计定制的网络架构是一个巨大的挑战。最近,神经架构搜索(NAS)[4]在自动化深度学习领域的神经网络设计方面证明了其高效性[5]。然而,早期的NAS方法[6]计算成本较高,阻碍了其实际应用。为了提高架构搜索的效率,最近的研究提倡基于一次性范式的方法,通常称为权重共享[7]。DARTS[8]进一步采用了这种权重共享方法,通过引入连续的架构元素组合,并将分类架构搜索任务重新定义为可微分的架构权重学习问题。
尽管DARTS在计算效率方面表现出色,但它最近在稳定性和泛化能力方面面临挑战。已经有很多努力致力于解决DARTS中众所周知的“性能崩溃”问题[9]、[10]。具体来说,研究[9]、[11]指出,这个问题源于DARTS中架构参数的大小可能无法准确反映实际的操作重要性。换句话说,参数大小最大的操作并不一定能够带来最高的验证准确性,从而导致衍生架构的性能下降。
本文提出了一种新的架构选择方法,称为DARTS-AM。与之前依赖于架构参数大小的方法不同,我们的方法根据操作对超网性能的实际贡献来识别操作。具体来说,我们使用二阶泰勒展开来分析DARTS中的操作选择过程如何影响超网验证损失的变化。在此基础上,我们应用积分梯度将超网的预测结果分配给网络中的各个操作,从而开发出一种新的操作重要性度量方法,称为“归因幅度”。我们严格的理论分析确保了这种度量方法能够可靠地捕捉操作对超网性能的实际贡献。为了处理超网中不同尺度上的操作得分差异,我们提出了“尺度不变归因幅度变换(SIAT)”技术。SIAT将同一类型操作在不同尺度上的多个得分整合为一个值,反映操作的实际强度。通过结合SIAT,我们将归因幅度度量方法无缝集成到DARTS框架中。在各种数据集和搜索空间上的广泛实验表明,DARTS-AM的性能与最先进的方法相比具有很高的竞争力。具体来说,DARTS-AM在CIFAR-10数据集上的top-1错误率为XX%,在CIFAR-100数据集上的top-1错误率为XX%。当转移到ImageNet-1K数据集时,DARTS-AM也取得了有竞争力的top-1错误率。在不同的数据集上,DARTS-AM在CIFAR-10数据集上的top-1错误率分别为XX%、XX%等。
总结来说,我们做出了以下贡献:
•我们理论上分析了DARTS中操作选择过程对超网性能变化的影响。通过利用积分梯度,我们提出了一种新的操作重要性度量方法,称为“归因幅度(AM)”。
•我们引入了“尺度不变归因幅度变换(SIAT)”技术,并成功将其整合到DARTS框架中,从而提出了一种新的可微分架构选择方法DARTS-AM。
•我们在多个基准数据集和各种搜索空间上进行了广泛实验,证明了DARTS-AM的性能与最先进的方法相比具有竞争力。
章节片段
DARTS的演变与创新
DARTS(可微分架构搜索)由刘等人[8]提出,旨在通过应用连续松弛来减少神经架构搜索(NAS)相关的计算开销。这使得基于梯度的架构搜索双层目标优化更加高效。尽管DARTS在效率方面表现出色,但它在其泛化能力和稳定性方面受到了批评。最近的研究[9]、[12]指出了诸如
方法
本节首先简要介绍了DARTS,由于架构参数在反映实际操作重要性方面的局限性,DARTS的架构质量会下降。为了解决这个问题,我们对DARTS中的操作选择机制进行了理论分析,并利用积分梯度推导出了一种新的操作重要性度量方法,称为“归因幅度(AM)”。然后,我们引入了“尺度不变归因幅度变换(SIAT)”
实验
本节首先概述了实验中使用的基准数据集、搜索空间和实现协议。第4.3节提供了包括超参数设置、训练配置和硬件规格在内的详细实验细节,以确保完全的可复现性。然后,我们对DARTS-AM与一系列最新的NAS方法进行了广泛的比较评估,涵盖了多个维度,如分类准确性等
局限性与未来工作
尽管DARTS-AM在识别高性能架构方面表现出有效性,但其一个局限性在于在归因幅度(AM)评估过程中假设操作之间的独立性。它没有考虑操作之间的潜在依赖性或交互作用。虽然这种独立性假设简化了搜索过程,但它可能忽略了某些操作组合所产生的协同效应。这种假设的有效性
结论
在本文中,我们介绍了DARTS-AM,这是一种旨在解决可微分架构搜索框架中操作选择挑战的新架构选择方法。通过结合二阶泰勒展开和利用积分梯度,我们提出了“归因幅度(AM)”度量方法,该方法能够更可靠地评估操作在超网中的重要性。同时,我们引入了“尺度不变归因幅度变换(SIAT)”
CRediT作者贡献声明
谢伟生:撰写——原始草案、方法论、研究。方旭伟:验证、研究。高向翔:方法论、研究。陈航:可视化、验证。李慧:验证。李少远:可视化、验证。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
陈航于2022年在中国上海的上海科技大学获得应用数学硕士学位。他目前在中国上海的华东师范大学攻读计算机科学和技术博士学位。他的研究兴趣包括扩散模型、低级视觉和孤子。