《Advanced Science》:Unveil Fundamental Graph Properties for Neural Architecture Search
编辑推荐:
本文综述介绍了《NASGraph》这一创新框架,它将神经网络架构(NAS)转化为图结构,并发现图属性(如图的平均度、密度等)与神经网络性能强相关。这项工作为理解神经网络的结构-性能关系提供了根本性新视角,其方法(训练无关、计算高效)不仅超越了现有神经架构搜索(NAS)基线方法,还能与现有指标互补,显著提升架构搜索性能,有望推动机器学习多领域发展并揭开卷积神经网络(CNN)的黑箱。
引言
深度学习已在人脸识别、语言翻译等诸多领域产生深远影响。然而,随着模型规模扩大,训练神经网络的算力成本日益高昂,手动评估不同架构的性能变得不切实际,这催生了旨在实现人工智能(AI)自动化的神经架构搜索(NAS)领域。尽管NAS在自动发现最优神经网络方面取得了进展,但人们对于神经架构结构的根本性理解仍然有限。现有方法,如将神经网络层或模块间的连接视为边的“关系图”,过于简化了模型;而基于动力系统的方法虽能捕捉更多细节,但其探查过程需要训练,对于大型模型耗时严重。因此,一个核心问题仍未解答:怎样的拓扑结构造就了优秀的神经网络?
《NASGraph》框架的性能
为应对上述挑战,研究者们提出了《NASGraph》框架。该框架的核心是将神经网络映射为图,其图属性能够反映神经网络的性能。具体而言,它将神经网络中每一层的输入定义为图中的节点。如果第一层中的非零输入导致相邻层产生非零输入,则在它们之间建立连接(详见方法部分)。一旦图构建完成,即可提取相关的图属性(如平均度、密度、韧性参数、楔形计数等)作为NAS性能指标,从而在标准NAS基准测试中对神经架构进行排序。
实验结果显示,在多个标准NAS基准测试(如NAS-Bench-201、TransNAS-Bench-101、NDS)上,图属性(尤其是平均度)与神经架构的测试准确率呈现显著正相关。例如,在基于细胞的NAS基准测试中,通过《NASGraph》框架找到的性能最佳与最差的神经架构对比鲜明:性能优异的架构被转换为密度显著更高的图。这一发现为优异性能提供了直观理解,区别于基于彩票假设(lottery ticket hypothesis)的synflow等方法。
与基线方法的比较
《NASGraph》框架在多个维度上展现出卓越的有效性。首先,在NAS-Bench-201基准上,其在CIFAR-10、CIFAR-100和ImageNet-16-120三个数据集上的排序相关性均优于其他训练无关(Training-Free)的NAS基线方法,并且对不同数据集和模型权重的随机初始化具有可靠性和鲁棒性。其次,在NDS基准的五个不同搜索空间(如AMOEBA、DARTS、ENAS等)中,该方法同样表现优越。再者,在跨任务NAS基准TransNAS-Bench-101上,《NASGraph》框架也展现出竞争力。此外,在移动设备设定下于ImageNet数据集上的实际架构搜索性能对比也表明,该方法优于基线NAS方法。
《NASGraph》的图属性与现有NAS指标形成互补
《NASGraph》框架不仅性能出色,还从网络科学视角为理解人工神经网络提供了独特视角。研究发现,将《NASGraph》的图属性指标(如avg_deg)与现有指标(如jacob_cov)相结合,可以产生“1+1>2”的效果。通过将两种指标的排名相加(即 rank(avg_deg) + rank(jacob_cov)),得到的组合指标在多个数据集上的斯皮尔曼相关系数(ρ)均有显著提升。这表明avg_deg和jacob_cov这两种指标具有互补性。更重要的是,《NASGraph》方法展现出显著的数据无关(data-agnostic)特性:尽管不同数据集上的准确率差异很大,但该方法对神经架构的排名与所使用的训练数据集无关,表现最佳的架构往往与更密集的图相关联。
对NAS操作的偏好(偏差)分析
许多NAS指标固有地偏向搜索单元(cell)中的某些操作(如skip_connect),而忽视其他操作,这种现象被称为操作偏差(operation bias),可能导致性能下降。研究通过比较预测的操作分布与真实分布之间的差异来量化这种偏差。结果显示,相比基线方法,《NASGraph》框架表现出较低的偏差。而jacob_cov指标则对skip_connect操作有强烈偏好。因此,将《NASGraph》与jacob_cov结合,可以平衡对skip_connect的选择,这部分解释了为何该组合在所有组合指标中表现最佳。另一个原因在于二者关注的过程不同:jacob_cov考虑模型参数的梯度并关注反向传播过程,而《NASGraph》框架则考虑每个图块的前向传播,因此它们相互补充,使得组合后的操作分布更接近真实情况(Ground Truth, GT)。
效率分析
除了性能,计算效率对于优秀算法也至关重要。《NASGraph》框架在运行时间上表现出显著优势。虽然所有基线方法都依赖GPU时间,但《NASGraph》仅需CPU时间。即便考虑CPU与GPU的差异,该方法的速度也快于除relu_logdet之外的所有基线方法。通过使用更轻量级的代理模型NASGraph(1, 1, 3),可以实现最快的效率,仅需随机搜索最快基线方法时间的15%至17%。这种高效性源于其两个核心组件的设计:将神经架构转换为图的过程仅涉及一次前向传播,无需计算梯度的反向传播;而计算图属性(如对于具有|V|个节点和|E|条边的图,计算平均度的时间复杂度为O(|V|))的开销通常很小。
方法详述:将神经架构转换为图
《NASGraph》框架将神经架构唯一地映射为图G。其基本元素是图块(graph block),例如Conv-BN-ReLU(卷积层后接批归一化层,然后是ReLU激活函数)。图节点对应图块的输入,图边则由图块上的前向传播过程决定。
转换时,使用全1矩阵作为图块的输入,以无偏估计输入对输出的贡献。为了确定第i个图块输入的第j个通道对其输出每个通道的贡献,应用一个掩码Mj,使得只有第j个通道为全1矩阵1,其他通道为全零矩阵0。通过前向传播计算输出,并根据设定的阈值τ决定是否在对应的输入输出节点间建立边。算法会遍历所有图块和所有通道,最终构建出唯一的图G。
讨论与未来方向
本研究引入了一种新颖的映射策略,将神经网络转换为图表示。图中的每个节点对应层的输入或输出,它们之间的连接描绘了数据流经的路径。实证分析表明,图的特定属性(如平均度)可作为神经网络性能的有效指标。在标准NAS基准上的系统检验证明,这些属性经常优于传统的NAS指标。《NASGraph》框架在计算图属性时的高效性,使其成为搜索和优化神经网络的强大工具。
未来,研究者计划从几个重要方向进行探索:首先,将针对Transformer架构扩展与标准NAS指标的基准对比;其次,研究在效率和复杂性之间取得平衡的图节点建模创新策略;最后,致力于设计高效算法并开发开创性的神经网络模型,以指导获得最优性能。