EHNAS：通过基于大型语言模型的空间剪枝实现高效混合架构搜索，并采用无需训练的评估方法

《Expert Systems with Applications》：EHNAS: Efficient Hybrid Architecture Search via LLM-Based Space Pruning and Training-Free Evaluation

【字体：大中小】 时间：2026年03月02日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　EHNAS框架通过动态搜索空间压缩和分层优化策略，结合大语言模型指导的架构搜索与SF2M桥接层实现跨模态特征融合，显著提升混合视觉架构的搜索效率和性能，在CIFAR-10和ImageNet-1K上达到97.4%和81.9%的Top-1精度，计算成本仅0.018 GPU-day。

张一晨|胡子宇

中国河北省秦皇岛市燕山大学电气工程学院，邮编066004

摘要

尽管CNN-Transformer混合模型在结合局部和全局特征以完成视觉任务方面显示出潜力，但其设计仍然高度依赖于专家知识和个人调整。现有的神经架构搜索方法在单一模型类型内的搜索中取得了良好的结果。然而，当需要结合不同类型的模块时，这些方法的效果并不理想。缺乏统一的搜索框架使得在大规模混合架构搜索中实现全局优化变得困难。为了解决这个问题，我们的研究提出了EHNAS框架，该框架通过动态空间收缩和分层优化来加快搜索速度并提高效率。大型语言模型被用作“架构专家”，它们可以利用对任务的先验知识来缩小初始搜索空间，并通过特定指标验证搜索空间。此外，还采用了一种分层优化过程：首先选择整体骨架结构，然后通过中间超参数细化详细连接。通过无训练的代理和进化算法实现了评估加速。还设计了一个名为SF2M的桥接层，以促进不同类型模块之间的特征对齐和融合。在CIFAR-10、ImageNet-1K和PASCAL-VOC2012上的实验表明，EHNAS在图像分类任务中达到了97.4%和81.9%的Top-1准确率，在语义分割任务中达到了80.33%的mIoU，且最低搜索成本仅为0.018 GPU天。所提出的EHNAS框架具有相对较高的计算效率。

引言

在过去的几十年中，深度学习在人工智能领域取得了重大突破，特别是在理解图像、文本和视频等多模态数据方面表现优异。在计算机视觉中，相关方法不仅显著提高了识别准确性，还推动了诸如对象检测（Kang, Hu, Liu, Zhang, & Cao, 2025）等关键任务在复杂场景中的广泛应用。在图像处理中，卷积神经网络（CNN）如ResNet（He, Zhang, Ren, & Sun, 2016）和Vision Transformer（Dosovitskiy et al., 2020）在不同应用中表现出色。最近，基于状态空间模型的Vision Mamba（Zhu et al., 2024a）作为一种新架构出现，有可能在某些任务中取代Transformer。CNN长期以来在计算机视觉中非常重要，因为它们擅长提取局部空间特征。相比之下，Vision Transformer使用自注意力机制来建模全局信息并很好地捕捉长距离依赖性。由于这两种方法相互补充，研究人员开始设计结合CNN和Transformer的混合架构（Chang, Yin, Wang, 2024, Guo, Han, Wu, Tang, Chen, Wang, Xu, 2022, Peng, Huang, Gu, Xie, Wang, Jiao, Ye, 2021）。目标是结合CNN的局部特征学习和Transformer的全局建模能力。这些混合模型不仅提高了图像分类的性能，而且在对象检测、语义分割和显著性预测等下游任务中也表现良好。这一趋势表明，结合局部和全局特征建模是构建更好视觉模型的关键。

尽管CNN-Transformer混合模型通常优于单一类型的架构，但其设计过程通常很复杂，且高度依赖于专家知识和大量的手动调整。设计这类模型需要仔细决定模块组成、连接模式和优化策略，这大大增加了实验成本，并限制了其在实际中的广泛应用。为了解决这个问题，提出了神经架构搜索（NAS）作为一种自动化框架，用于发现特定于任务的网络结构（Zoph & Le, 2017）。早期研究表明，自动搜索的架构可以比手动设计的模型实现竞争性甚至更优的性能，这促使人们开发出更高效和可扩展的NAS方法（Howard, Sandler, Chu, Chen, Chen, Tan, Wang, Zhu, Pang, Vasudevan, et al., 2019, Liu, Zoph, Neumann, Shlens, Hua, Li, Fei-Fei, Yuille, Huang, Murphy, 2018a）。特别是基于进化的搜索策略被证明对于处理复杂和高维的搜索空间非常有效，包括变分自编码器等生成模型（Shang et al., 2024）。

最近，NAS已经发展到结合了多种优化范式。进化方法在搜索过程中明确考虑了多个目标，从而在性能和效率之间实现了更好的权衡（Li, Liu, Shang, Jiao, 2025b, Ming, Gong, Xue, Zhang, Jin, 2025）。同时，可微分的NAS方法将离散搜索空间转化为连续形式，允许基于梯度的优化和更灵活的拓扑探索（Rao, Zhao, Liu, & Alippi, 2025）。此外，自监督NAS框架在保持强大搜索性能的同时减少了对标记数据的依赖（Li et al., 2025a）。

尽管在架构优化方面取得了这些进展，但NAS的高计算成本仍然是一个关键挑战，因为评估候选架构通常需要大量的训练。为了减轻这一负担，最近的研究探索了无需训练的评估指标，这些指标可以在不完全优化的情况下估计网络质量（Dai, Wei, Hu, Sun, Xu, Zhang, Zhao, 2026, Tybl, Neumann, 2025, Zhou, Sheng, Zheng, Li, Tian, Chen, Ji, 2024）。作为架构级优化的补充，还研究了高效的知识迁移技术，如动态知识蒸馏，以在有限的训练预算下进一步提高模型性能（Zhu et al., 2024b），这突显了在大规模模型设计中减少优化开销的重要性。

在本文中，介绍了一种名为EHNAS的无训练神经架构搜索方法。该方法使用动态搜索空间来处理混合模块，旨在自动化搜索包含多种类型模块的混合框架，从而减少搜索时间并提高评估效率。还提出了一种新的桥接层SF2M，用于处理混合架构中CNN模块和自注意力模块之间的空间特征对齐和融合。该模块旨在保持参数开销较低，同时实现对特征空间的对齐并促进高效的信息流。因此，它支持在混合框架中的有效架构搜索。具体来说，SF2M桥接层使用了一种迭代正交特征融合方法，逐步处理局部和全局特征，从而在结合这两种特征时减少重叠或冗余信息。实验表明，这种设计使混合模型更加健壮和表达力更强，同时保持轻量级。

为了解决搜索空间爆炸的问题，我们设计了一种使用大型语言模型（LLM）动态缩小搜索空间的方法。当添加更多模块时，搜索维度和候选操作会激增，使得原始搜索空间变得太大而无法在合理的时间内探索。主要问题是传统搜索方法无法有效缩小搜索范围，导致过程缓慢且效率低下。由于LLM具有强大的推理和代码生成能力，我们智能地利用它们来移除搜索空间中不必要的部分，只保留合理和高效的区域进行进一步探索。我们的方法还包括一种基于ISQM指标的反馈机制，该指标在搜索过程中评估每个子空间的质量。这有助于搜索算法专注于最有前途的区域，避免了传统基于LLM的搜索方法的黑箱性质。

在搜索阶段，引入了一种三级搜索策略。它从宏观架构级别逐步向下到超参数级别，最后到连接模式级别。这种逐步的方法确保每个阶段都能准确高效地探索最佳选项，从而有效地管理大型搜索空间。为了减少搜索和评估所需的时间，使用了RBFleX（Yamasaki, Wang, Luo, Chen, & Wang, 2025）得分作为无训练的代理指标。这大大提高了搜索效率，使过程更加实用。我们的主要贡献如下：

1. 设计了一个支持多种类型模块的单元级搜索空间。

2. 引入了一种基于LLM的智能剪枝方法，以减少搜索空间大小并避免搜索爆炸。

3. 将Alpha Evolution算法应用于NAS，并使用动态搜索空间开发了一种无训练的分层搜索方法，用于混合模块。这种方法显著提高了搜索效率和架构设计速度，尤其是在复杂任务中。

4. 提出了一种名为SF2M的桥接层，以改善混合架构中CNN和自注意力模块之间的空间特征对齐和融合。

研究空白

在像NAS-Bench-201（Dong & Yang, 2020）这样的固定搜索空间中，研究人员可以在有限的时间内逐步找到更好的网络设计，从而提高准确性。然而，这些固定空间的一个固有限制是：最佳可能的准确性受到预先定义的候选架构集的限制。随着混合架构的流行，许多高性能网络结合了卷积层、Transformer和状态空间模型。然而，对于NAS来说，

神经架构搜索

NAS的主要目标是在减少手动设计工作量的同时自动发现高性能的网络架构。早期的研究主要依赖于强化学习来指导搜索过程，每个候选架构都必须进行完整训练以进行评估，从而导致高昂的计算成本和漫长的搜索时间（Zoph & Le, 2017）。为了解决这个问题，后续工作引入了进化算法和性能预测器

总结

本文提出了EHNAS，这是一个为异构视觉混合架构设计的高效神经架构搜索框架。为了解决混合神经架构搜索中的常见问题，如搜索空间的快速增长和跨不同架构的泛化难度，EHNAS从三个方面采用了统一的设计，包括架构建模、搜索空间优化和评估策略。在架构层面，EHNAS构建了一个统一的

实验

我们通过一系列实验评估了所提出的EHNAS框架的有效性、效率和鲁棒性。首先介绍了实验设置和数据集，然后对图像分类和语义分割任务进行了全面比较。接着进行了消融研究，以分析关键组件的贡献。最后，我们研究了无训练指标与实际模型性能之间的相关性，包括

讨论

因此，关于架构的先验知识对架构的生成有两种影响。一方面，省略剪枝可能会保留找到针对特定数据集的最佳性能架构的潜力。另一方面，混合架构搜索空间的巨大规模使得在没有剪枝的情况下进行穷尽搜索在计算上不可行。因此，在发现潜力和可行资源消耗之间进行权衡是一个关键问题

结论

本文介绍了EHNAS框架，该框架结合了几个关键理念：多模块混合搜索空间、LLM引导的剪枝、无训练评估的分层搜索策略以及新的SF2M桥接层。这些组件共同帮助解决了神经架构搜索中搜索空间过大和计算成本过高的问题。该方法使得在不同领域和嵌入式系统中使用混合架构变得更加容易。通过超越依赖传统NAS方法的方法

未引用的图表

图7、表5、表6

作者声明

张一晨：方法论、软件、写作、数据组织、资源。胡子宇：研究、审稿和编辑工作。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

摘要

引言

研究空白

研究空白

神经架构搜索

总结

实验

讨论

结论

未引用的图表

作者声明

利益冲突声明

热点排行