HP-GAN:利用预训练网络通过“假孪生”技术和判别器一致性来提升生成对抗网络(GAN)的性能
《Neural Networks》:HP-GAN: Harnessing Pretrained Networks for GAN Improvement with FakeTwins and Discriminator Consistency
【字体:
大
中
小
】
时间:2026年01月31日
来源:Neural Networks 6.3
编辑推荐:
本文提出HP-GAN,通过FakeTwins利用预训练网络进行自监督学习提升生成器能力,并引入判别器一致性机制协调CNN和ViT特征网络输出,显著提高图像多样性和质量,在17个数据集上优于SOTA方法。
作者:Geonhui Son、Jeongryong Lee、Doisk Hwang
韩国首尔延世大学电气与电子工程学院
摘要
生成对抗网络(GANs)在提高图像合成质量方面取得了显著进展。近期方法经常利用预训练网络来计算感知损失或使用预训练的特征空间。在本文中,我们通过结合创新的自我监督学习技术并在GAN训练期间强制保持判别器之间的一致性,扩展了预训练网络的功能。我们提出的方法称为HP-GAN,通过两种主要策略有效利用了神经网络的先验知识:FakeTwins和判别器一致性。FakeTwins利用预训练网络作为编码器来计算自我监督损失,并通过生成的图像来训练生成器,从而生成更多样化和高质量的图像。此外,我们引入了一种判别器一致性机制,用于评估从卷积神经网络(CNN)和视觉变换器(ViT)特征网络中提取的特征图。判别器一致性促进了判别器之间的协同学习,并通过使它们对图像质量的评估保持一致来增强训练的鲁棒性。我们在包括大量数据、少量数据和数据有限的各种图像域在内的十七个数据集上的广泛评估表明,HP-GAN在Fréchet Inception Distance(FID)方面始终优于当前的最先进方法,显著提高了图像的多样性和质量。代码可在此处获取:
https://github.com/higun2/HP-GAN 。
引言
生成对抗网络(GANs)(Goodfellow等人,2020年)是一种在生成建模中非常著名的方法,能够合成高质量、逼真的图像。这种能力是通过两个组件之间的最小-最大游戏实现的:一个生成器,用于创建合成数据;另一个判别器,用于区分合成数据和真实数据。这两个组件的适当训练对于实现高质量合成至关重要,因为判别器充当生成器的自适应损失函数。
然而,GANs仍然面临一些重大挑战,如不收敛、训练不稳定和模式崩溃(Arjovsky和Bottou,2017年;Mescheder等人,2018年;Zhang和Khoreva,2019年)。当计算资源和数据集有限时,这些限制尤为明显,这在医学成像、特定名人的肖像集或特定艺术家的作品中很常见。先前的研究尝试通过各种方法来缓解这些问题,包括修改网络架构(Karras等人,2019年;Liu等人,2021年;Radford等人,2016年;Sauer等人,2021年;Zhang等人,2019年)、改进目标函数(Arjovsky等人,2017年;Bellemare等人,2017年;Deshpande等人,2018年;Kunkel和Trabs,2025年;Li等人,2017年;Nowozin等人,2016年)、规范权重和梯度(Arjovsky等人,2017年;Fedus等人,2018年;Mescheder等人,2018年;Miyato等人,2018年;Roth等人,2017年;Salimans等人,2016年),以及使用辅助信息(Kim、Shin、Hwang,2023年;Kim、Jang、Hong、Hong、Bae、Kim、Hwang,2021年;Wang等人,2018a;Zhang、Chen、Tian、Wang、Zhou,2020a;Zhang、Xu、Li,2017年)。
数据增强通常用于缓解深度神经网络中的过拟合问题(Cubuk、Zoph、Mane、Vasudevan和Le,2020年;Zhang等人,2018a),也被用于改进GAN训练。最近的研究表明,对真实样本和合成样本应用增强可以提高合成性能(Karras等人,2020a;Tran等人,2021年;Zhang和Khoreva,2019年;Zhang等人,2020b;Zhao、Liu、Lin、Zhu、Han,2020b;Zhao、Zhang、Chen、Singh和Zhang)。然而,判别器的学习目标仍然是区分真实图像和伪造图像,当训练数据有限时,这会降低性能(Yang等人,2021年)。
虽然迁移学习提供了一个潜在的解决方案(Ham等人,2020年;Mo等人,2020年;Wang、Gonzalez-Garcia、Berga、Herranz、Khan、van de Weijer,2020年;Wang、Wu、Herranz、van de Weijer、Gonzalez-Garcia、Raducanu,2018b;Zhao等人,2020a),但预训练网络并不总是与给定的训练数据集兼容,不当的微调可能会导致性能下降(Zhao等人,2020b)。预训练网络在图像到图像的转换任务中有广泛的应用,可以作为感知损失函数(Dosovitskiy和Brox,2016年;Johnson等人,2016年)或感知判别器(Richter等人,2023年;Sungatullina等人,2018年)。Projected GAN(Sauer等人,2021年)利用预训练网络将生成样本和真实样本投影到预训练的特征空间中,从而显著提高了性能、训练稳定性和数据效率。StyleGAN-XL(Sauer等人,2022年)结合了卷积神经网络(CNNs)和视觉变换器(ViTs)网络以获得互补效果。此外,Vision-aided GAN(Kumari等人,2022年)通过在训练过程中逐渐增加预训练网络的数量来使用多个网络。
在本文中,我们提出了HP-GAN,这是一种新颖的方法,它利用预训练网络通过结合自我监督学习(SSL)技术来提高生成器的性能。首先,我们引入了FakeTwins,它利用预训练的特征网络作为SSL编码器,并通过生成的图像基于Barlow Twins(Zbontar等人,2021年)通过SSL训练生成器。最近,基于对比学习的SSL方法,如SimCLR(Chen等人,2020a)和MoCov2(Chen等人,2020b),已被集成到GAN中(Jeong和Shin,2021年;Li等人,2022年;Yang等人,2021年)。这些方法在GAN训练期间将对比学习作为辅助任务,从而增强了判别器的判别能力。相比之下,我们利用基于信息最大化的方法(Bardes等人,2022年;Ermolov等人,2021年;Zbontar等人,2021年)以不同的方式增强生成器的能力。Barlow Twins是一种SSL方法,它最小化了处理相同样本的不同扭曲(或增强)版本的两个相同网络的输出特征之间的冗余。我们假设使用预训练网络的Barlow Twins可以为具有多样图像的批次产生更低的损失值,这激发了开发FakeTwins以增强生成图像的多样性和质量。
此外,我们引入了判别器一致性损失,这是一种旨在确保多个判别器之间协同学习的正则化技术。我们使用卷积神经网络(CNN)和视觉变换器(ViT)作为特征网络(Sauer等人,2022年)。然而,由于CNN和ViT之间的固有架构差异,这些网络的判别器输出并不一致。判别器一致性损失通过鼓励判别器在图像质量方面达成高度共识来缓解这些差异。这种方法确保生成器收到统一且连贯的反馈,从而实现更稳定和可靠的训练。换句话说,判别器输出的对齐利用了预训练CNN和ViT之间的结构差异,提供了对生成图像的全面评估。
为了评估生成模型产生的图像质量,我们使用了几种指标进行综合比较。Fréchet Inception Distance(FID)(Heusel等人,2017年)测量特征空间内的分布密度差异,提供了图像质量的定量评估。此外,Kernel Inception Distance(KID)(Bińkowski等人,2018年)是FID的一个无偏替代方案,通常在样本量较小时提供更稳定的评估。精确度和召回率(Kynk??nniemi等人,2019年)通过量化生成图像与训练集的相似程度以及模型复制训练集的能力分别提供了额外的见解。
我们工作的主要贡献总结如下:
1. 我们提出了判别器一致性损失,这是一种新颖的正则化技术,可以缓解判别器输出之间的差异。判别器一致性通过向生成器提供连贯的反馈来提高训练稳定性和整体性能,确保训练的鲁棒性和稳定性。
2. 我们引入了FakeTwins,这是一种创新的方法,它结合了基于自我监督学习的方法来训练生成器。通过使用预训练的特征网络作为SSL编码器,FakeTwins提高了生成图像的多样性和保真度。
3. 通过对十七个不同图像域的数据集进行广泛的实验评估,HP-GAN在生成建模方面始终优于现有的最先进方法。我们的方法在图像合成质量方面取得了显著改进,在各种基准测试中达到了最先进的性能。
部分摘录
生成对抗网络
生成对抗网络(GANs)(Goodfellow等人,2020年)对给定训练数据集的数据分布进行建模。这是通过设置一个涉及两个神经网络的最小-最大游戏来实现的:生成器G 从潜在空间Z 中采样潜在代码z ,并生成看起来真实的样本G (z )。判别器D 被喂以真实样本x 或来自生成器的合成样本G (z ),并尝试准确区分它们
方法论
在本节中,我们介绍了我们的新颖方法,该方法结合了预训练模型的能力和自我监督学习(SSL)来生成多样化和高质量的合成图像。我们提出的方法称为Harnessing Pretrained Networks GAN(HP-GAN),基于FastGAN基线(配置A ),并加入了一系列渐进式改进以提高性能和鲁棒性。这些修改的逐步介绍及其相应的影响如下
实验
在本节中,我们通过将我们的HP-GAN与多个数据集上的最先进模型进行基准测试来评估其性能。在介绍实现细节后,我们展示了在不同数据集上的比较。此外,消融研究使用感知路径长度(PPL)调查了潜在空间的平滑性,并通过评估FFHQ数据集的一个子集上的性能来研究有限数据训练的影响。另外,我们探讨了不同
感知路径长度(PPL)
PPL(Karras等人,2019年)是一种用于评估潜在空间平滑性的指标,计算在潜在空间施加小扰动时生成图像之间的平均LPIPS距离(Zhang等人,2018b)。该指标还与形状的一致性和稳定性以及更高的整体图像质量相关(Karras等人,2020b)。如表1所示,我们在没有中心裁剪的整个图像中计算潜在空间的PPL,Z
结论
在这项研究中,我们介绍了HP-GAN,这是一种新颖的GAN方法,它有效地利用了预训练网络和自我监督学习的能力来提高图像合成效果。我们的方法利用FakeTwins来训练生成器,从而提高了图像的多样性和质量。此外,我们引入了判别器一致性,使具有不同特征网络架构的多个判别器的输出保持一致,从而促进更稳定和可靠的训练。我们的广泛
CRediT作者贡献声明
Geonhui Son: 写作——审稿与编辑,撰写——原始草稿,可视化,验证,方法论,调查,形式分析,数据管理,概念化。Jeongryong Lee: 概念化。Doisk Hwang: 项目管理,资金获取,概念化。
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。
致谢
这项工作部分得到了韩国国家研究基金会(NRF)的资助(由韩国政府(MSIT)提供(RS-2025-02215070,RS-2025-02217919);部分得到了韩国科学信息通信技术部(MSIT)在全球数字领域研究支持计划下的资助(RS-2024-00436680),该计划由IITP(信息与通信技术规划与评估研究所)监督;部分得到了延世大学人工智能研究生院项目的支持
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号