基于先验分布引导的高斯混合变分自编码器(PDGM-VAE)用于图像生成

《IEEE Transactions on Circuits and Systems for Video Technology》:Prior Distribution Guided Gaussian Mixture Variational Autoencoder (PDGM-VAE) for Image Generation

【字体: 时间:2026年02月22日 来源:IEEE Transactions on Circuits and Systems for Video Technology 11.1

编辑推荐:

  变分自编码器(VAE)通过引入潜在空间和变分推断实现图像生成,但传统高斯分布假设与真实数据分布存在偏差,影响建模效果。本文提出PDGM-VAE,采用高斯混合先验学习器(GMPL)捕捉数据复杂特征,并构建Semantic-Aware Module with Embedded Prior Distribution(SAMEPD)整合标签信息优化分布参数,通过近似后验分布到先验分布提升建模与重建能力,在五个公开数据集上FID指标显著优于传统VAE方法。

  

摘要:

变分自编码器(VAE)结合了自编码器和变分推断的思想,引入了潜在空间和变分推断的概念,使自编码器能够生成新的图像。VAE通常假设数据遵循高斯分布,但实际数据可能遵循其他分布。这种假设与真实分布之间的不一致性可能会影响VAE的建模和重建能力,使得传统模型难以准确捕捉真实分布。为了解决上述问题,我们提出了一种基于先验分布的高斯混合变分自编码器(PDGM-VAE)。具体来说,我们构建了一个高斯混合先验学习器(GMPL)来捕捉数据分布的复杂特征,使模型能够学习并得到一个合理且接近真实数据分布的高斯混合分布,该分布随后被用作网络中的先验分布。此外,我们还构建了一个具有嵌入式先验分布的语义感知模块(SAMEPD),整合数据和标签信息以学习分布参数,使网络能够学习和利用标签中包含的语义知识。在训练过程中,通过将后验分布近似为先验分布,我们增强了模型的建模和重建能力,提高了生成图像的质量。我们在五个公共数据集上评估了图像生成任务,根据FID指标,我们提出的方法优于其他VAE方法。

引言

生成模型对机器学习和人工智能有着重要影响,涵盖了计算机视觉和自然语言处理等领域[1]。生成模型在机器学习中至关重要,因为它们可以生成合成数据。它们在生成图像、文本等各种领域发挥着关键作用,并在多模态任务(如文本到图像)中展示了良好的性能。主要的生成模型包括变分自编码器(VAE)[2]、生成对抗网络(GANs)[3]和扩散模型[4]。在GANs中,生成器和判别器网络通过相互竞争的过程进行训练。生成器网络接收条件变量和噪声向量,生成符合条件的样本,而判别器网络学习区分真实样本和生成样本。尽管GANs可以生成高质量的样本,但训练这两个网络具有挑战性,经常导致收敛问题、多样性差以及梯度消失和模式崩溃等问题。扩散模型通过学习逆转加噪过程来生成高质量图像[4]。然而,它们面临计算需求高和多样性受限的挑战,因为它们倾向于某些数据分布模式,这使得训练和实现广泛的输出更加困难。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号