用于生成对抗网络的神经架构搜索,结合了混合卷积技术

《Neuroimaging Clinics of North America》:Neural architecture search for generative adversarial networks with hybrid convolution

【字体: 时间:2026年03月20日 来源:Neuroimaging Clinics of North America 2

编辑推荐:

  提出HCGAN方法,通过混合卷积整合卷积与自注意力机制,并引入通道注意力动态调整特征权重,利用全微分架构搜索稳定优化GAN训练,在CIFAR-10和STL-10数据集上分别达到FID 10.39和21.53,IS 9.02和10.22。

  
作者:薛宇|邹宇峰|穆罕默德·瓦希布|陈鹏|蒙塞夫·加布乌杰
单位:南京信息科技大学计算机科学与技术学院,中国南京 210044

摘要

生成对抗网络(GANs)是一种强大的生成式机器学习算法。通过生成器和判别器之间的对抗训练,GANs能够生成高质量的数据,并在人工智能的各个领域展现出显著的效果。然而,GANs在训练过程中面临稳定性问题,相关研究表明,GANs的架构设计对提高训练稳定性起着关键作用。为了稳定GANs的训练并提升图像生成的质量,本文提出了一种新颖的方法:基于混合卷积(HCGAN)的生成对抗网络神经架构搜索。该方法引入了一种新的自注意力卷积混合操作,有效扩展了现有GANs的搜索空间,并采用完全可微分的方法来探索新的搜索空间。此外,我们在搜索过程中整合了通道注意力机制,动态调整不同通道的重要性权重,显著提高了搜索过程的效率和稳定性。实验结果表明,HCGAN发现的架构在图像生成任务中表现优异。具体来说,在CIFAR-10数据集上,HCGAN的Fréchet inception距离(FID)为10.39,inception得分(IS)为9.02;同时在STL-10数据集上也取得了最佳结果,FID和IS分别为21.53和10.22。

引言

自从生成对抗网络(GANs)的概念首次提出以来,它迅速成为深度学习领域的一个研究热点。GANs在图像生成[1]、[2]、[3]、艺术创作[4]、[5]和自然语言处理[6]、[7]、[8]等应用中展现出巨大的潜力,吸引了许多研究人员探索和开发GANs的各种变体。然而,尽管GANs在生成高质量数据方面表现优异,但仍面临诸多挑战。特别是GANs的训练过程极不稳定,经常出现模式崩溃和梯度消失等问题。这些问题的根本原因在于GAN训练的对抗性质,涉及生成器和判别器之间的复杂对抗博弈。这种对抗性使得训练过程极其复杂,如果生成器或判别器过于强大或过于弱小,训练都可能失败。
为了解决这一问题,研究人员提出了多种策略来稳定GAN训练。这些策略包括但不限于设计新的损失函数[9]、[10]以替代原有的Jensen-Shannon(JS)散度,从而更有效地衡量生成数据与真实数据之间的差异;添加正则化方法[11]、[12]来约束生成器和判别器的行为,减少模式崩溃的可能性;优化训练策略,如微调学习率设置[13]或在训练过程中逐步提高生成图像的分辨率[14]。这些措施对于提高GAN训练的稳定性至关重要,有望推动GANs在更多领域的广泛应用。
尽管取得了这些进展,生成建模仍在不断发展。近年来,出现了扩散模型[15]、基于流的模型[16]和自回归架构[17]等新范式,通过替代机制实现了卓越的生成质量。然而,这些模型通常需要大量的计算资源和较长的推理时间。因此,尽管这些新方法越来越受欢迎,但由于其相对较高的效率和灵活性,基于GAN的方法仍然具有很强的竞争力,支持更快的训练和推理速度,特别适合轻量级或时间敏感的应用。基于这些优势,研究人员越来越关注如何通过架构设计进一步提升GAN的性能和训练稳定性。
认识到架构在GAN性能和稳定性中的关键作用,近期研究不断探索设计更高效、更稳定的GAN架构的方法。架构不仅影响生成能力,还影响训练的稳定性,因此寻找最优架构成为了一个重要的研究课题。与此同时,神经架构搜索(NAS)[18]作为一种自动化方法出现,旨在通过算法搜索发现高性能结构,同时减少对专家直觉的依赖。NAS能够高效识别适合特定任务的架构,显著降低传统手动设计的复杂性和主观性,因此受到了广泛关注。
NAS的出现为GAN架构设计带来了新的方法[19]、[20]、[21],有助于发现更高效、更稳定的架构,从而提升GAN性能。NAS方法大致可以分为基于强化学习[18]、[19]、基于进化算法[20]、[22]、[23]和基于梯度的方法[24]、[25]。基于强化学习的方法能够学习有效的架构,但往往由于需要反复训练候选网络而计算成本较高且可扩展性较差。基于进化算法的方法具有强大的全局搜索能力和鲁棒性,但需要大量评估,导致效率较低。基于梯度的方法,特别是可微分架构搜索(DARTS)[24],通过梯度下降实现高效优化,显著降低了搜索成本,同时保持了模型性能。然而,当应用于GAN时,其性能可能会受到对抗训练不稳定性的影响,导致梯度更新不可靠和架构不理想。现有的基于DARTS的GAN架构搜索方法[26]、[27]主要局限于纯卷积神经网络(CNN)和多层感知器(MLP)的搜索空间,忽略了更多样化和灵活的架构探索。此外,在候选操作选择过程中,“马太效应”可能导致某些操作在搜索早期占据主导地位,降低架构多样性。结合卷积和自注意力等不同操作具有很大潜力,我们的工作旨在将这两种操作集成到可微分的NAS算法中,以减轻马太效应,实现稳定优化并增强GAN的架构多样性。
此外,潘等人[28]证明卷积和自注意力可以以最小的计算成本有效集成,因为它们具有相似的初始过程。具体来说,卷积可以分解为更小的操作,类似于自注意力中的输入投影,从而实现高效集成并最小化计算开销。但这种方法只是简单地将卷积操作替换为混合操作,而没有考虑这种做法是否适用于特定任务。因此,可能会导致性能不佳和计算需求增加。缺乏针对任务的适应性可能会限制模型效率。受此启发,我们将这一理念融入到可微分架构搜索中,专注于寻找混合操作的最佳位置。通过策略性地用混合操作替换卷积,我们不仅提高了模型性能,还减少了计算资源消耗,实现了更高效的架构搜索,平衡了性能提升与资源优化,为不同任务提供了更可扩展的解决方案。
在本文中,我们提出了基于混合卷积的生成对抗网络神经架构搜索(HCGAN),这是一种将混合卷积操作集成到架构搜索过程中的新颖NAS-GAN算法。HCGAN引入了一种混合卷积操作,结合了传统卷积和自注意力,同时捕获局部和全局特征。具体而言,输入特征图通过共享卷积进行处理,并沿着卷积和自注意力分支传播。这些分支的输出通过可学习的权重进行自适应融合,有效整合了局部和全局信息,增强了网络的生成能力。为了高效探索架构空间,HCGAN采用了一种完全可微分的NAS策略,将离散的搜索空间转换为连续空间,允许通过梯度下降进行稳定优化。此外,还整合了通道注意力机制,为输入特征图的每个通道分配适应性权重,强调重要通道的同时抑制不太相关的通道。这种设计不仅减轻了随机初始化的影响,还提高了架构搜索的鲁棒性和稳定性,从而产生了更可靠、性能更优的GAN模型。
我们研究的新贡献可以总结如下:1)
我们提出了一种创新的GAN NAS方法HCGAN,首次将一种新型混合卷积集成到NAS-GAN方法的搜索空间中,结合了卷积和自注意力机制的优点。通过这种混合卷积,HCGAN可以探索更广阔的搜索空间,鼓励模型在处理图像数据时同时考虑局部和全局信息,从而显著提升模型的生成能力。
  • 2)
    为了进一步提高HCGAN的性能,我们在搜索阶段引入了通道注意力机制。该机制为输入特征图的每个通道生成特定的权重,通过应用这些权重,我们可以强调与任务相关的关键通道信息,同时抑制不太重要的通道。因此,通道注意力机制的集成使HCGAN能够智能选择和优化网络架构,从而减少随机初始化引起的低效率,提高搜索效率和稳定性。
  • 3)
    我们采用完全可微分的搜索策略来探索HCGAN的搜索空间,通过梯度下降方法自动搜索高性能GAN架构。这种方法不仅提高了搜索效率,还保持了所发现架构的生成性能。
  • 本文的结构如下:第2节回顾相关工作,第3节详细介绍了我们的方法论,第4节分析实验结果,第5节总结并展望未来工作。

    生成对抗网络

    生成对抗网络

    Ian Goodfellow在2014年首次提出了GAN的概念[29]。GAN由两个核心组件组成:生成器(G)和判别器(D)。生成器(G)是一个生成模型,负责学习真实数据的分布以生成假图像;判别器(D)是一个二分类器,其任务是判断输入图像是来自真实数据还是由G生成的假数据。在GAN的训练过程中,G和D进行最小最大对抗

    整体框架

    我们的HCGAN整体框架如图1所示。具体来说,图1(a)展示了GAN的基本原理。G从随机噪声生成假图像以欺骗D,而D通过区分真实图像和生成图像来验证其真实性。在训练过程中,G和D进行最小最大对抗博弈,G学习生成逼真的图像,而D提高其判别能力。通过这种迭代过程,两个网络的性能逐渐提升

    实验结果

    我们在常用的CIFAR-10 [38]数据集上进行了HCGAN的架构搜索,然后在同一数据集上重新训练找到的架构以验证其性能。随后,为了评估HCGAN的迁移能力,我们在CIFAR-10上发现的架构基础上对STL-10 [13]数据集进行了进一步的迁移实验。为了优化HCGAN的性能,我们进行了一系列消融实验,系统分析了关键因素的影响

    结论与未来工作

    本文提出了一种名为HCGAN的新颖GAN NAS方法。通过将混合卷积和通道注意力机制集成到搜索中,我们扩展了传统MLP和CNN的搜索空间,提高了搜索效率。实验结果表明,HCGAN在CIFAR-10数据集上的IS为9.02,FID为10.39,同时表现出优异的迁移能力,FID为21.53,IS为

    作者贡献声明

    薛宇:方法论。 邹宇峰:撰写 – 原稿。 穆罕默德·瓦希布:撰写 – 审稿与编辑。 陈鹏:撰写 – 审稿与编辑。 蒙塞夫·加布乌杰:撰写 – 审稿与编辑。

    利益冲突声明

    作者声明没有已知的财务利益或个人关系可能影响本文所述的工作。

    致谢

    本研究部分得到了中国国家自然科学基金(62376127、61876089、61876185、61902281、61403206)、江苏省自然科学基金(BK20141005)和江苏省高等教育机构自然科学基金(14KJB520025)的支持。
    薛宇于2013年获得中国南京航空航天大学计算机科学与技术学院的博士学位。2016年8月至2017年8月,他作为访问学者在新西兰惠灵顿维多利亚大学工程与计算机科学学院工作;2017年10月至
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号