一种基于信息量量化编码的NAS零成本代理模型
《Expert Systems with Applications》:A Zero-Cost Proxy Model for NAS Based on Information Quantity Quantization Encoding
【字体:
大
中
小
】
时间:2026年01月02日
来源:Expert Systems with Applications 7.5
编辑推荐:
信息量量化编码的零成本代理模型用于NAS,通过改进路径编码消除冗余路径影响,定义总信息量G、路径信息差S、输出节点总信息T和差异C,构建无需训练的代理模型,在Nasbench-101上性能最优,并提升多种NAS算法效率。
岳阳|卢静|荆胡静|王良远|韩迪|胡梦兰|彭凯
华中科技大学电子信息与通信学院,武汉,中国
摘要
目前,神经架构搜索(NAS)已成为设计神经网络模型的主流方法。然而,它仍然面临计算成本高和可解释性差等挑战。因此,本研究提出了一种基于信息量量化的零成本代理模型。首先,我们改进了传统的路径编码方法,有效消除了传统路径编码中的重复路径,从而减少了这些路径对编码准确性和效果的干扰。在此基础上,我们提出了基于神经网络架构中信息传输逐渐减少的特点以及不同操作的信息利用率差异的信息量概念。随后,我们定义了四个变量:总架构路径信息量G、路径信息差异量S、输出节点接收的总信息量T以及输出节点接收的信息差异量C,并使用这些变量构建了一个新的零成本代理模型。这是首次提出信息量量化编码的假设,并基于这种编码构建了一个无需训练的零成本代理模型。同时,在目前最大的NAS-Bench-101数据集上,该模型实现了最佳性能。最后,我们利用这个零成本代理模型来增强现有的NAS搜索算法,包括随机搜索、进化搜索和基于强化学习的搜索。具体来说,对于所有搜索策略,我们的代理模型都能在涉及两个不同NAS数据集的三种任务场景中显著提高搜索效率。
引言
近年来,深度学习在许多领域取得了显著的成功(Brown等人,2020年;Dosovitskiy等人,2020年;何、张、任、孙,2016年)。其性能在很大程度上取决于神经网络的架构设计。神经架构搜索(NAS)(Li等人,2025年;杨等人,2024年;Zoph和Le,2016年)旨在自动识别最佳架构以提高模型性能和效率。然而,传统的NAS方法存在计算成本高和可解释性差等问题。为了解决这些问题,已经开发了许多零成本方法以实现无需训练的NAS(Chen、Gong和Wang,2021年;Jiang、Wang和Bie,2023年;Li等人,2024年;Mellor、Turner、Storkey和Crowley,2021年)。与迭代训练方法(Liang等人,2025年;Xie等人,2025a)和参数共享网络(Qin等人,2023年;Wang等人,2023年)相比,这些零成本方法可以有效降低NAS过程中的计算成本。零成本代理的设计通常基于对深度神经网络的理论分析,有助于更深入地理解为什么特定网络表现更好。
目前,大多数零成本代理模型基于梯度(Li、Yang、Bhardwaj和Marculescu,2023年;Shu、Dai、Wu和Low,2022年)、基于激活的代理模型(Jiang、Wang、Bie和Yuan,2025年;Onzo、Xue和Neri,2025年)、浮点运算次数(FLOPs)(Ning等人,2021年)和参数数量(Abdelfattah、Mehrotra、Dudziak和Lane,2021年)等。尽管梯度信息在某种程度上反映了网络的训练过程和性能,但关于梯度如何准确预测网络性能的理论解释仍然不足。同时,梯度计算通常涉及大量的前向和后向传播计算,使得基于梯度的代理模型在计算效率方面相对较低。FLOPs主要反映了网络的计算负载,但没有考虑其结构信息,如深度、宽度和层次结构。不同的网络结构可能具有相同的FLOPs,但性能却有显著差异。参数数量并不一定能够准确反映网络的性能。一些网络可能包含大量的参数冗余,而这些冗余参数对网络性能没有积极影响。
目前,还没有基于神经网络架构中信息传输的零成本代理模型。这主要是因为神经架构中的信息传输是一个黑箱问题,使得在神经网络架构的各个阶段进行量化变得不可能。然而,目前已知随着网络深度的增加,梯度会消失,导致可获取的有效信息逐渐减少。此外,神经网络架构中的不同操作具有不同的信息利用率(Bachlechner、Majumder、Mao、Cottrell和McAuley,2021年;何等人,2016年;刘等人,2022年)。
现有研究表明,有效的编码方法可以显著提高NAS算法的性能,并为NAS相关问题提供理论指导(White、Neiswanger、Nolen和Savani,2020年)。目前,常见的编码方法主要包括基于邻接矩阵的编码(Wen等人,2020a;Ying等人,2019年;Zoph和Le,2016年)和基于路径的编码(Talbi,2020年;Wei等人,2022年;White、Neiswanger和Savani,2021年)。然而,这两种编码方法主要是为基于训练的NAS方法设计的。目前,还没有专门为零成本代理模型设计的编码方法。这主要是因为构建零成本代理模型需要大量的定量数据,而上述编码方法在表示结构特征方面表现优异。
在本文中,我们全面解决了上述问题,并提出了一种基于信息量量化的零成本代理模型。与现有方法相比,这种方法具有更低的计算成本、更好的性能和更高的可解释性。我们的贡献总结如下:
- •
基于现有研究(He等人,2016年;刘等人,2022年),我们提出了关于神经网络架构中信息传输逐渐减少以及不同操作之间信息利用率差异的理论假设。具体来说,受到神经网络中信息传输过程中有效信息逐渐减少的观察启发,我们为这一现象制定了一个规范化假设。同样,基于不同操作之间的信息利用率差异,我们也制定了一个规范化假设。
- •
基于上述理论假设,我们对架构的连接编码和操作编码进行了量化和统一。具体来说,我们首先使用分支节点将神经网络架构分解为不同的路径。利用架构中节点的总数以及每个节点与输入节点的距离,我们对所有节点实施了定量编码。同样,我们对不同操作也应用了相同的编码方法,从而为架构和操作的直接数值计算提供了基础。
- •
利用上述编码方法,我们构建了一个零成本代理模型,可以实现拓扑结构的直接数值计算。具体来说,基于上述对架构和操作的定量编码,我们通过分析定义了四个变量:总架构信息量、不同路径之间的信息差异、输出节点接收的总信息量以及输出节点接收的信息差异。我们还系统地分析了这些变量定义的合理性。为了更有效地利用这四个变量,我们通过归一化求和构建了一个基于信息量量化的零成本代理模型。
- •
我们验证了该代理模型及其在辅助神经网络架构搜索方面的有效性。具体来说,在Nasbench-101和Nasbench-201数据集的不同任务场景中,我们使用相关指标评估了该代理模型的性能。此外,我们还使用随机搜索、进化搜索和基于强化学习的搜索策略验证了该代理模型在神经网络架构搜索中的价值。最后,通过消融实验验证了我们的信息量量化假设的合理性和每个变量定义的合理性。
章节片段
神经架构搜索(NAS)
神经架构搜索(NAS)是一种自动设计神经网络架构的技术,旨在无需手动设计即可识别特定任务的高性能结构。根据需要训练的个体数量,NAS大致可以分为三类:传统NAS方法、一次性NAS和零样本NAS。传统NAS方法(Ming、Gong、Xue、Zhang和Jin,2025年;Xie等人,2025b;Xue、Liu和Neri,2025年)独立且完全地进行训练
方法
在本小节中,我们改进了传统的路径划分方法,并在此基础上提出了一种新的基于信息量的量化编码方法——这是首次尝试对神经架构的编码进行量化。随后,我们基于这种量化编码开发了一个新的零成本代理模型,从而实现了神经网络架构的拓扑结构和信息量的统一形式化表示。
实验
在本章中,我们首先使用Nasbench-101(Ying等人,2019年)和Nasbench-201(Dong和Yang,2020年)数据集分别对代理模型和搜索策略进行了验证实验。最后,对GSTC的变量设置进行了消融实验。
Nasbench-101(Ying等人,2019年)数据集是第一个公开可用的神经架构搜索(NAS)研究数据集,目前包含最多的架构。
结论
本文提出了一种基于信息量量化的零成本NAS代理模型。首先,我们改进了传统的路径编码方法。通过利用分支节点,我们将神经网络架构分解为不同的路径,有效消除了传统路径编码中的冗余路径。随后,基于神经网络架构中信息传输逐渐减少的特点以及不同操作的信息利用率差异
CRediT作者贡献声明
岳阳:概念化、方法论、数据整理、软件编写——初稿。卢静:编写——审阅与编辑、形式分析。荆胡静:形式分析。王良远:编写——审阅与编辑。韩迪:编写——审阅与编辑。胡梦兰:形式分析、编写——审阅与编辑。彭凯:项目管理、资金获取、监督、方法论、编写——审阅与编辑。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号