《Knowledge-Based Systems》:Similarity Surrogate-Assisted Evolutionary Neural Architecture Search Based on Graph Neural Network
编辑推荐:
SiGNAS是一种基于相似性的代理辅助进化神经架构搜索方法,通过图神经网络(GNN)提取架构特征并构建Siamese网络模型,利用结构相似性评估替代传统计算成本高的实际性能评估,提出动态图卷积传输聚合机制增强特征表示能力,显著提升搜索效率与精度,在CIFAR-10和NAS-Bench-201上验证有效性。
作者:薛宇、刘可宇、谭一宇、张勇
南京信息科学与技术大学软件学院,中国南京 210000
摘要
神经架构搜索(NAS)作为自动设计神经网络架构的范式,在推动深度学习领域发展方面具有巨大潜力。然而,NAS通常会带来较高的计算成本。为了替代耗时的评估过程,人们提出了替代模型来预测架构的适应度值。但这些替代模型的准确性或稳定性存在局限。为了解决这些问题,本文提出了一种名为SiGNAS的替代辅助进化NAS方法,该方法通过评估候选架构与最优基准架构之间的相似性来预测架构性能。此外,SiGNAS将架构映射到一个潜在特征空间,并采用图神经网络作为替代模型来捕捉这些相似性。同时,传统的静态传输策略被一种新颖的图卷积网络传输和聚合机制所取代,从而通过基于相似性的特征聚类增强表达能力。实验结果表明,在DARTS搜索空间中,SiGNAS发现了一个性能优异的架构,其在CIFAR-10数据集上的测试误差仅为2.52%;在NAS-Bench-101数据集上,仅需1000次查询即可达到94.22%的准确率;而在NAS-Bench-201数据集上,仅需200次查询即可识别出最佳架构。这些结果表明,SiGNAS相较于大多数现有NAS算法具有显著优势,能够有效探索搜索空间并准确识别高性能神经网络架构。
引言
深度神经网络(DNN)在各种计算机任务中展现了卓越的成功和巨大潜力,例如图像分类[1]、[2]、对象检测[3]、[4]和数据挖掘[5]、[6]。然而,DNN的性能取决于架构的合理设计。早期,方法依赖于手动设计[7]、[8],但由于需要丰富的专家知识且设计效率低下,这种方法面临诸多障碍。因此,自动设计范式——神经架构搜索(NAS)受到了深度学习研究社区的广泛关注。近年来,NAS方法在各种基准数据集上的性能显著提升[9]。
目前,用于解决NAS问题的三种主流优化技术是强化学习(RL)、梯度算法和进化计算[10]。基于RL的NAS方法使用训练有素的控制器来指导搜索过程,但这往往会导致较高的计算成本[11]。例如,Zoph等人[12]提出使用RL来自动化神经网络架构的设计。在CIFAR-10数据集(一个中等规模的图像分类任务)上的实验中,即使使用800个GPU的并行计算能力,也需要28天才能完成整个过程。基于梯度的NAS方法依赖梯度信息进行优化,但容易陷入局部最优解[13]。进化算法(EAs)通过交叉、变异和环境选择等操作从初始种群中迭代演化出最优个体。鉴于DNN的复杂性,NAS本质上可以被视为一个非凸优化问题。由于EAs对局部最小值不敏感且不依赖梯度信息,它们被广泛用于解决NAS带来的复杂优化问题[14]。2017年,Google引入了LargeEvo算法[15],该算法将EA与NAS结合使用,在CIFAR-10数据集上的图像分类任务中实现了94.6%的准确率。此后,许多NAS研究人员将注意力转向了基于EA的NAS算法(ENAS)。然而,ENAS在进化过程中仍面临适应度评估的挑战。传统的基于训练的评估方法难以在有限的时间内准确识别出有潜力的个体。因此,加速适应度评估过程已成为当前ENAS研究领域最突出的课题之一。
为了加快性能评估速度,人们提出了用于评估候选架构的代理指标,如低保真度评估[16]、[17]、一次性NAS[18]和网络形态学[19],旨在降低计算成本。然而,这些指标由于需要提供架构权重[20],仍然不可避免地引入了额外的计算成本。随后,替代辅助NAS方法作为一种极具前景的技术出现,并逐渐成为NAS领域的研究热点。具体而言,替代辅助方法使用有限的数据训练替代模型,并为候选解决方案提供可靠的评估。早期研究通常基于目标任务的特性,采用成本效益高的近似回归或分类模型作为预测器[21]。这些预测模型包括高斯过程回归[22]、决策树回归[23]和基于神经网络的模型[24]等。然而,由于数据分布不一致,基于回归的模型的可靠性往往降低[25]。实际上,适应度评估的目标是选择一组有潜力的候选架构,而不是确定架构的确切性能。一些研究人员提出了基于排名[26]、[27]或基于比较[28]、[29]的性能预测器,认为在评估架构时采用相对主义视角更为合理[28]。尽管如此,在不可避免的预测误差面前,这两种评估方法容易在排名链中引发循环关系,从而影响最终搜索结果的可靠性。近年来,基于相似性的评估方法受到了越来越多的关注。这些模型基于未评估架构与已评估架构之间的相似性构建。研究人员通常使用欧几里得距离[25]、余弦距离[30]、[31]和Wasserstein距离[32]等方法来量化架构特征向量之间的相似性。基于相似性的评估方法的一个关键挑战是提取能够准确表示架构的特征向量。
图神经网络(GNN)已被证明是用于架构特征提取的强大深度学习模型[33]、[34]。例如,Li等人[24]直接将架构表示为有向无环图(DAG),并将其输入到堆叠图同构网络自动编码器中以增强架构表示能力,并根据获得的特征表示计算验证损失。Shi等人[35]将图卷积网络生成的嵌入输入到贝叶斯Sigmoid回归器中,有效处理了神经架构的图结构。然而,这些研究往往将GNN的映射过程视为黑箱问题,很少关注特征空间中关键特征对架构表示的影响。具体来说,传统的图卷积网络(GCNs)使用静态聚合策略,其中规范化的邻接矩阵平衡了不同邻域特征对节点信息聚合的影响。这种局部平均规则经常忽略了节点之间的丰富交互,限制了嵌入表示的有效性[31]。Bello等人[36]提出了一种通过扰动最具潜在影响的特征来优化神经架构特征映射过程的方法。他们的实验证明了这种方法在相似性学习任务中的优越性。受扰动对重要特征引入的启发,我们采用了GCNs和多层感知器(MLPs)进行特征提取,并提出了一种新的GCN传输和聚合机制。该机制通过基于相似性的特征聚类,自适应地调整节点特征和结构特征的影响,从而提高学习表示的质量,使其更适合相似性评估任务。
我们旨在提出一种端到端的、高效的基于相似性评估的替代辅助方法,命名为SiGNAS,有效缓解了ENAS中耗时的个体适应度评估问题。具体而言,本文探索了一种新的适应度评估范式。引入了一种名为SiGNN的新GNN变体作为替代模型,用于学习和提取架构的潜在特征。基于这些特征表示,模型搜索与最优基准架构最相似的架构子集,并相应地更新种群,从而替代了ENAS中耗时的实际性能评估过程。此外,替代模型的整体框架是一个孪生神经网络,我们设计了一个特定的损失函数,以确保性能相似的架构在特征空间中映射到相邻位置。本文的主要贡献总结如下:
1.我们设计了一个使用架构相似性评估机制作为替代模型的孪生神经网络,以协助ENAS搜索过程中的适应度评估阶段。该模型能够从大量候选架构中高效选择有潜力的架构。孪生网络的每个子网包括一个用于学习架构节点特征的GCN变体和一个用于提取结构特征的MLP,旨在评估候选架构与最优基准架构之间的相似性。
2.提出了一个基于相似性的聚类传输和聚合机制,用于替代模型中的GCNs。该机制考虑了相似特征之间的交互关系,使聚合过程能够自适应地区分邻域信息的重要性。此外,它平衡了节点特征和结构特征对架构表示的影响。
3.为了增强特征相似性与性能相似性之间的耦合,我们设计了一个特定的损失函数,旨在指导替代模型根据架构与最优基准架构的特征相似性来可靠地选择高性能架构。
本文的其余部分组织如下:第2节回顾相关工作;第3节详细解释了SiGNAS算法的整体框架、提出的GCNs传输和聚合机制以及替代模型的构建和训练策略;第4节解释了实验环境和设置;第5节展示了所提出方法的实验结果;第6节总结了本文和未来的研究方向。
相关工作
替代辅助方法的出现标志着ENAS领域的一个重大转变,因为它有望显著提高架构搜索的效率。在过去的十年中,早期的替代辅助ENAS算法主要集中在预测架构的绝对准确性上,通常依赖于近似回归模型[21]。例如,Deng等人[37]提出了一种端到端方法Peephole,该方法结合了长短期记忆网络
主要框架
遵循常用的基于遗传算法的单目标优化框架[21],提出的替代辅助ENAS算法SiGNAS的主要结构如图1所示。为了有效减轻直接使用传统搜索过程中实际适应度评估所带来的高计算负担,我们提出了一个用于性能预测的替代模型。该模型通过评估候选架构与最优基准架构的相似性来估计它们的适应度
搜索空间
为了全面和公平地评估算法的性能,本研究采用了NAS社区中广泛使用的两个基准数据集:NAS-Bench-101 [49]和NAS-Bench-201 [46]。这些基准数据集旨在促进NAS算法的可重复性并降低计算障碍。它们提供了各种独特神经网络架构在标准数据集上的训练性能结果,为研究人员提供了一个统一的评估框架。这确保了不同的NAS
实验结果与讨论
在NAS-Bench-101数据集上进行了20次重复实验的结果展示在表2中。我们将SiGNAS算法的实验结果与经典算法和最先进算法进行了比较,以验证SiGNAS的有效性和可靠性。具体来说,第二列“#Queries”表示算法在整个进化过程中查询NAS-Bench-101架构性能的次数,它表示了查询的次数
结论
在现有的基于相似性评估的替代辅助ENAS算法中,经常观察到性能问题,如评估不准确或不稳定,这通常是由于架构的特征提取不具代表性造成的。在本文中,我们将神经网络结构视为图结构,并使用GNN作为替代模型将架构映射到特征空间中,以学习不同架构之间的相似性。我们放弃了传统的静态传输
CRediT作者贡献声明
薛宇:监督、项目管理、资金获取、概念化。刘可宇:撰写——原始草稿、可视化、验证、软件、方法论、调查、形式分析、概念化。谭一宇:监督、项目管理。张勇:监督、项目管理。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
致谢
本工作得到了国家自然科学基金(项目编号:NO.62376127、NO.61876089、NO.61876185、NO.61902281、NO.61403206);江苏省自然科学基金(项目编号:NO.BK20141005);以及江苏省高等教育机构自然科学基金(项目编号:NO.14KJB520025)的支持。