《Neurocomputing》:Frequency-aware priors for variational autoencoders under class imbalance
编辑推荐:
针对类不平衡数据中VAE潜在表示失真问题,提出频率感知先验VAE(FAP-VAE)。通过逆频率缩放先验方差和指数移动平均更新先验均值与方差,缓解少数类过度正则化,提升潜在空间聚类质量。实验表明FAP-VAE在多个数据集上显著优于基准模型,同时保持重建与生成性能。
Soomin Kwon | Seongil Jo | Jaeoh Kim
韩国仁川市仁荷路100号,仁荷大学统计与数据科学系,22212
摘要
在类别不平衡的情况下,变分自编码器(VAEs)通常会产生扭曲的潜在表示,因为少数类别由于各向同性高斯先验的过度正则化而坍塌。我们提出了频率感知先验VAE(FAP-VAE),它通过将方差与类别频率成反比进行缩放,并通过编码器派生的统计量的指数移动平均来更新均值和方差来调整先验。这种设计减轻了少数类别的过度正则化,并保持了潜在的可分性。在七个基准测试上的实验表明,FAP-VAE提高了聚类质量——实现了更高的标准化互信息(NMI)和调整后的Rand指数(ARI),同时保持了重建和生成性能。这些结果表明,数据感知的先验调整增强了在不平衡条件下的表示学习的鲁棒性。
引言
学习尊重类别结构的潜在表示是生成建模中的一个核心问题。变分自编码器(VAEs)[1]通过将变分推断(VI)与深度神经网络相结合来解决这个问题,将输入编码为潜在变量的分布,并从采样的表示中重建。重新参数化技巧支持高效的基于梯度的优化[1],[2],证据下界(ELBO)提供了一个原理性的训练目标[3]。VAEs中先验分布的标准选择是各向同性高斯分布[1],它使得KL散度可以闭合计算并且训练稳定[1]。然而,这种简单性限制了表达能力:单峰先验无法捕捉多模态结构或解耦语义,并且在所有潜在维度上施加了均匀的正则化,这促使人们研究混合先验或学习先验[4],[5],[6],[7]。当数据分布是异构的或长尾的时,这种均匀的正则化可能会严重使潜在几何与底层数据流形不一致[8],[9]。
在类别不平衡的情况下,这一限制变得尤为关键,这是从医学成像到自然图像识别等现实世界数据集的普遍现象[8],[9],[10],[11]。在标准的VAE公式中,KL散度对少数类和多数类的样本施加相同的惩罚,忽略了类别频率。然而,由于覆盖范围有限,少数类的后验往往更加分散,因此被赋予了不成比例大的KL成本。由于KL散度同时与方差和与先验均值的距离成正比,少数类簇被推向多数类模式,导致潜在空间中的收缩和重叠。这些扭曲削弱了簇的可分性,并作为误分类、聚类质量下降和生成多样性降低的问题传递下来。
尽管有许多VAE扩展旨在提高潜在的可分性,但许多仍然对类别是不可知的或优化数据集平均目标,因此在长尾数据下仍然很脆弱,尽管有一些例外,如基于类别的条件变体。以灵活性为导向的先验——混合先验(例如GMMVAE)和伪输入先验(VampPrior),以及流式/层次化变体——可以更好地适应全局结构,但每个样本的KL预算仍然是均匀的;通过ELBO分解,聚合后验项是对经验数据分布的期望,因此多数类贡献了更多的质量,有效地主导了先验的对齐[[4],[5],[12]。以对齐为导向的方法(例如AAE/WAE、两阶段VAE、重采样或隐式先验变体)总体上减少了先验-后验不匹配,但它们仍然优化数据集平均目标;在不平衡的情况下,更新因此受到类别普遍性的影响,可能会低估少数类模式[13],[14],[15],[16]。以解耦为导向的目标(例如-VAE、FactorVAE、-TCVAE)调节全局正则化(速率或总相关性),而不是按类别进行定制;强正则化可以均匀压缩后验,并且在不平衡的情况下,会妨碍少数类的可分性[[6],[7],[17]。
尽管有这些进展,现有方法都有一个共同的限制:它们没有明确地将类别频率信息纳入先验中,因此无法纠正对少数类的不成比例的正则化。即使是基于类别条件的VAE——包括CC-VAE [18]、VaDE [19]、GM-VAE [4]和最近的特定类别变体[20]——也仅通过ELBO梯度学习类别依赖的先验。结果,先验参数是由重建目标间接塑造的,并受到多数类梯度的主导,没有机制来跟踪类别汇总的后验或防止少数类簇向多数类模式坍塌。这些限制通常会导致潜在几何的扭曲、可分性的下降以及在长尾数据下的生成多样性降低。这些失败的一个根本原因是基于梯度的CC-VAE学习没有施加将先验与经验后验矩联系起来的统计约束。相比之下,我们提出的FAP-VAE将先验学习与解码器优化解耦:先验通过明确的类别特定矩估计和指数移动平均(EMAs)进行演变,而不是通过ELBO梯度。这种更新规则实现了软经验贝叶斯形式的矩匹配,并诱导出一种频率感知的潜在几何,这种几何无法通过梯度下降或简单地用EMA平滑来复制。FAP-VAE还提供了内在的频率感知行为。逆频率初始化防止了少数类的早期过度正则化,而小批量后验统计量根据每个类别的可用样本数量成比例地进行调整,防止多数类压倒先验并保持少数类的认知不确定性。全局方差重缩放步骤稳定了各类别之间的幅度,这是传统CC-VAE框架中不存在的属性。除了这些稳定器之外,该框架还统一了(i)类别特定的矩估计,(ii)基于EMA的经验贝叶斯细化,以及(iii)频率感知的参数化,后者提供了期望KL散度的频率独立上界。现有的任何CC-VAE或基于类别条件的生成模型都没有提供这些约束或理论保证。最近的不平衡感知生成方法[20],[21],[22],[23],[24],[25],[26],[27],[28],[29]通常依赖于增强、对抗性训练或重新加权,而FAP-VAE则通过频率感知的矩更新直接调整潜在先验,提供了VAE家族中一个补充的、以前未探索的解决方案。这些概念上的差异激发了对VAE先验进行原理性重构的动机。
为了解决这些挑战,我们提出了频率感知先验VAE(FAP-VAE),这是一个直接将类别频率整合到先验调整中的生成框架。受到经验贝叶斯(EB)[30],[31]的启发,我们的方法引入了一个轻量级的、在线更新的先验,其均值和方差通过类别条件后验矩的指数移动平均(EMAs)进行调整。方差进一步与类别频率成反比进行缩放,减轻了少数类的KL过度正则化,而全局重缩放步骤在数据分布演变时稳定了方差幅度。此外,我们采用了一个简单的两阶段训练方案,交替更新变分后验和调整先验超参数,确保了稳定和一致的优化。通过将不平衡信息明确编码到先验中,FAP-VAE重塑了潜在几何,以保持少数类的多样性并提高可分性,而不牺牲重建质量或添加辅助网络。我们的主要贡献如下:
- •
我们引入了一个具有逆频率方差缩放和基于EMA的在线更新的频率感知、类别条件先验,以及一个用于稳定性的全局重缩放步骤。
- •
我们提出了一种原理性的机制来减轻少数类的KL过度正则化,在不平衡的情况下提高潜在的可分性,同时保持重建保真度和生成多样性。
- •
我们提供了理论证明,表明频率感知的缩放产生了期望KL的频率独立上界,从而促进了类别间的平衡正则化。
- •
我们在灰度(MNIST、Fashion-MNIST、KMNIST、USPS)和彩色(CIFAR-10、STL-10、SVHN)数据集上进行了全面评估,展示了在聚类指标和定性生成/重建方面相对于强VAE基线的持续改进。
本文的其余部分组织如下。第2节回顾了关于变分自编码器的先前研究,并讨论了类别不平衡带来的挑战。第3节介绍了所提出的FAP-VAE,描述了其关键设计原则和数学公式。第4节报告了在多个基准数据集上的实验评估,强调了与强基线相比在聚类质量、重建保真度和生成多样性方面的改进。最后,第5节总结了主要发现并提出了未来研究的方向。
相关工作
相关工作
VI提供了一个通用框架,用于用易处理的替代品近似难以处理的后验分布[32],[33],[34],而VAEs通过学习观测值和潜在变量之间的概率映射来实例化这一原理[1],[2],[3]。基础VAE通常使用各向同性高斯先验和对角高斯后验,以便于计算。尽管这种结构简单性对于可扩展的推断有效,但它降低了潜在的可分性,影响了潜在
类别条件频率感知先验
我们提出了一种新颖的类别条件先验,称为FAP,它扩展了第2节中介绍的标准各向同性高斯先验[1]。我们的基于先验的框架FAP-VAE旨在通过分配类别特定的均值和方差来克服传统VAE在类别不平衡下的局限性,如图1所示。这种先验可以解释为一种受经验贝叶斯启发的公式,其中超参数是从数据分布本身估计的。
实验
本节使用定量指标和定性可视化来评估在类别不平衡条件下提出的FAP-VAE。潜在聚类通过标准化互信息(NMI)[60]和调整后的Rand指数(ARI)[61]来衡量,正式定义为