
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于先验分布引导的高斯混合变分自编码器(PDGM-VAE)用于图像生成
《IEEE Transactions on Circuits and Systems for Video Technology》:Prior Distribution Guided Gaussian Mixture Variational Autoencoder (PDGM-VAE) for Image Generation
【字体: 大 中 小 】 时间:2026年02月22日 来源:IEEE Transactions on Circuits and Systems for Video Technology 11.1
编辑推荐:
变分自编码器(VAE)通过引入潜在空间和变分推断实现图像生成,但传统高斯分布假设与真实数据分布存在偏差,影响建模效果。本文提出PDGM-VAE,采用高斯混合先验学习器(GMPL)捕捉数据复杂特征,并构建Semantic-Aware Module with Embedded Prior Distribution(SAMEPD)整合标签信息优化分布参数,通过近似后验分布到先验分布提升建模与重建能力,在五个公开数据集上FID指标显著优于传统VAE方法。
生成模型对机器学习和人工智能有着重要影响,涵盖了计算机视觉和自然语言处理等领域[1]。生成模型在机器学习中至关重要,因为它们可以生成合成数据。它们在生成图像、文本等各种领域发挥着关键作用,并在多模态任务(如文本到图像)中展示了良好的性能。主要的生成模型包括变分自编码器(VAE)[2]、生成对抗网络(GANs)[3]和扩散模型[4]。在GANs中,生成器和判别器网络通过相互竞争的过程进行训练。生成器网络接收条件变量和噪声向量,生成符合条件的样本,而判别器网络学习区分真实样本和生成样本。尽管GANs可以生成高质量的样本,但训练这两个网络具有挑战性,经常导致收敛问题、多样性差以及梯度消失和模式崩溃等问题。扩散模型通过学习逆转加噪过程来生成高质量图像[4]。然而,它们面临计算需求高和多样性受限的挑战,因为它们倾向于某些数据分布模式,这使得训练和实现广泛的输出更加困难。