《Neurocomputing》:Computation-aware Transformer-based encoding for efficient latent spatial neural architecture search
编辑推荐:
潜在空间计算感知Transformer编码方法(LS-CATE)结合Transformer-VAE与代理辅助进化算法,通过四类嵌入矩阵解决传统架构编码的信息损失问题,在连续潜在空间高效搜索最佳神经网络架构,实验验证其性能优于传统NAS方法,在CIFAR-10数据集上平均测试精度达97.45%。
Jiamin Xiao | Bo Zhao | Derong Liu | Yonghua Wang | Jiacai Huang
自动化学院,广东工业大学,广州 510006,中国
摘要
由于有效提升了下游架构搜索的效率,架构编码在神经架构搜索(NAS)中取得了有竞争力的性能。基于Transformer的计算感知编码使用依赖性掩码来捕获架构上下文,但其随机性和不可逆性可能导致信息丢失或不准确。为此,我们提出了一种潜在的空间计算感知Transformer编码方法,该方法更合理地能够在连续的潜在空间中高效搜索最优神经架构。此外,还采用了一种基于替代模型的进化算法来加速潜在空间中的搜索过程。实验表明,所提出的基于替代模型的NAS与潜在空间计算感知Transformer编码在NAS基准测试中取得了有竞争力的性能。此外,我们的NAS方法从DARTS空间中在CIFAR-10数据集上找到的平均测试准确率为97.45%,仅用了大约0.02个GPU日,这证明了所提方法的有效性和效率。
引言
深度神经网络(DNN)的设计在许多领域中起着至关重要的作用[1]、[2]、[3]、[4]、[5]、[6]、[7]。然而,手动设计神经网络需要大量的时间和精力。更重要的是,对于初学者来说,手动设计过程难以突破原始设计理念的局限性,从而根据实际需求进行合理的设计。幸运的是,神经架构搜索(NAS)被提出来减少手动设计神经网络时的资源和时间消耗,同时通过自动搜索获得高性能的神经架构。
一般来说,NAS过程包括三个组成部分:搜索空间、搜索策略和架构评估方法。搜索空间定义了可能的神经网络架构的范围。搜索策略决定了如何高效地探索搜索空间以找到高性能架构。架构评估方法旨在通过快速评估候选架构的性能来降低计算成本。这三个组成部分使NAS能够自动化神经网络的设计,并平衡探索、效率和性能优化。因此,许多先前的NAS方法致力于设计具有优秀架构的搜索空间[8]、[9]、[10],开发高效的搜索策略[11]、[12]、[13],并改进架构评估方法[14]、[15]、[16]。此外,一些研究[17]、[18]、[19]表明,架构编码显著影响NAS的整体性能,因为它们可以改善搜索空间中高性能架构的分布,并同时提高搜索策略的有效性。因此,大多数现有的NAS方法使用LSTM、MLP和GNN[20]、[21]、[22]作为架构编码器,但由于这些编码器在表示网络架构方面的局限性,限制了架构编码的促进效果。Yan等人[23]提出了一种基于Transformer的编码方案,称为计算感知Transformer编码(CATE),以缓解上述问题。受BERT[24]的启发,CATE使用掩码语言建模来捕获句子的局部信息,将掩码操作矩阵作为输入嵌入,依赖性掩码矩阵作为Transformer的掩码来获取网络架构的局部信息。然而,掩码操作矩阵的固有随机性和依赖性掩码矩阵的不可逆性可能导致神经架构编码过程中信息的潜在丢失和不准确。此外,CATE模型仅包含编码器,没有解码器。没有解码器的架构意味着CATE的搜索空间本质上是离散的,从而限制了计算感知编码的架构聚合特性的充分利用。
为了解决上述挑战,提出了一种改进的计算感知编码方法,称为潜在空间计算感知Transformer编码(LS-CATE),该方法结合了Transformer[25]和潜在空间优化(LSO)的优势。为了确保架构的有效编码,受Graphormer[26]启发的LS-CATE使用四种不同类型的矩阵来编码神经架构,即操作矩阵、度矩阵、距离矩阵和邻接矩阵。这种方法不同于CATE中仅使用两种矩阵(掩码操作矩阵和依赖性掩码矩阵)的方式。此外,受无监督NAS方法的启发,提出了一种基于贝叶斯优化框架的替代模型辅助进化算法,该算法以先验知识作为搜索策略。这种替代模型辅助的进化算法专注于潜在空间中的高性能架构区域,显著提高了LS-CATE的有效性。
这种方法的贡献可以总结如下:
•LS-CATE旨在解决CATE中架构拓扑信息的丢失问题,并使优化算法能够在连续的潜在空间中应用。LS-CATE利用四种不同类型的矩阵通过基于Transformer的变分自编码器(VAE)进行编码,结合了Transformer的强大数据提取和表示能力以及潜在空间的平滑性和紧凑性特征,从而便于在连续潜在空间中高效利用下游搜索策略。
•提出了一种基于LS-CATE的替代模型辅助NAS(LS-CATE-SANAS),由于贝叶斯优化(BO)替代模型能够适应Transformer-VAE模型中的潜在表示分布,因此能够在潜在空间中高效搜索有前景的架构。
•在NAS基准测试上的实验结果表明,所提出的LS-CATE-SANAS与流行的典型NAS方法相比具有竞争力。
相关工作
由于NAS-RL[27]和Meta-QNN[28]在优化网络超参数方面的创新,NAS已被广泛应用于许多领域[29]、[30]、[31]、[32]、[33]。由于离散搜索空间的非可微分性和非凸性,大多数早期的NAS方法[27]、[28]、[34]不得不采用复杂且计算成本高的搜索策略来探索最优架构。为了提高搜索效率,一些研究人员[19]、[35]
基于潜在空间计算感知Transformer的替代模型辅助NAS方法
LS-CATE-SANAS方法包括两个阶段:第3.1节的预训练阶段和第3.2节的搜索阶段。在预训练阶段,通过无监督表示学习对LS-CATE的Transformer-VAE模型进行预训练,然后在搜索阶段,使用替代模型辅助进化算法基于预训练的Transformer-VAE模型在潜在表示中搜索最优架构。
实验结果
我们首先在第4.1节中评估了所提出的LS-CATE-SANAS在广泛使用的NAS-Bench-101、NAS-Bench-201和NAS-Bench-301上的性能。然后,在第4.2节中,将LS-CATE-SANAS应用于几个图像分类数据集。在第4.3节中,我们分析了不同嵌入矩阵的影响,并评估了不同获取函数对NAS基准测试的影响。
Transformer-VAE模型由6个Transformer编码器块层组成,每个块层有6个注意力头和4个残差全连接层
结论
在本文中,我们提出了一种结合替代模型辅助搜索策略的潜在空间Transformer编码方法。LS-CATE使用Transformer和四种不同的嵌入矩阵对架构进行编码,使我们能够在具有优秀分布的连续潜在空间中搜索最优神经架构。此外,还提出了替代模型辅助的CMA-ES-WM,以更高效地在潜在空间中搜索最优神经架构。
CRediT作者贡献声明
Jiamin Xiao:撰写——原始草稿、软件、方法论、调查、形式分析。Bo Zhao:撰写——审稿与编辑、验证、监督、方法论、资金获取。Derong Liu:撰写——审稿与编辑、验证、监督、资金获取。Yonghua Wang:监督、软件、方法论。Jiacai Huang:软件、资金获取。
利益冲突声明
作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。
致谢
本工作部分得到了中国国家自然科学基金(项目编号62573062)、深圳市科技计划(项目编号JCYJ20230807093513027)、教育部自动化无人系统技术工程研究中心开放项目(项目编号zzwr202503)、中央高校基本科研业务费(项目编号1243300008)以及重大基础研究项目的支持
Jiamin Xiao于2021年在中国南昌大学信息工程学院获得自动化学士学位。他目前在中国广州广东工业大学自动化学院攻读硕士学位。他的当前研究兴趣包括神经架构搜索和深度学习。