PD-CBDM：利用感知区分损失进行班级平衡的扩散模型训练胡俊岩（Junyan Hu），罗伟（Wei Luo），陈通（Tong Chen），杨晓宝（Xiaobao Yang），侯志强（Zhiqiang Hou）

《Mathematics》：PD-CBDM: Training Class-Balancing Diffusion Models with Perceptual Distinguish Loss Junyan Hu, Wei Luo, Tong Chen, Xiaobao Yang and Zhiqiang Hou

【字体：大中小】 时间：2026年05月10日 来源：Mathematics 2.2

编辑推荐：

　　摘要：在图像生成领域，去噪扩散概率模型（DDPMs）展现了出色的性能。然而，在类别不平衡的训练数据下，许多现有模型倾向于过度拟合头部类别，从而降低了尾部类别的图像质量。为了解决这一问题，我们提出了一种新的生成方法——PD-CBDM（感知区分损失-类别平衡扩散模型）。首先，PD-C

　　摘要：在图像生成领域，去噪扩散概率模型（DDPMs）展现了出色的性能。然而，在类别不平衡的训练数据下，许多现有模型倾向于过度拟合头部类别，从而降低了尾部类别的图像质量。为了解决这一问题，我们提出了一种新的生成方法——PD-CBDM（感知区分损失-类别平衡扩散模型）。首先，PD-CBDM修改了基线流程中用于标签采样的目标标签分布，使得训练过程中尾部类别的采样频率更高，这在保持高保真的同时提升了生成图像的多样性。接下来，我们引入了一种感知区分损失，该损失通过反向过程中的KL散度来增大头部类别和尾部类别数据分布之间的差异，有助于抑制头部类别的过拟合，并提高各类别的生成质量。此外，我们提出了一个基于时间步长的自注意力（TSA）模块，该模块将时间步长信息注入自注意力机制中，以同时建模时间和空间依赖性，从而提升噪声估计的准确性和图像生成质量。实验表明，PD-CBDM在CIFAR100-LT数据集上的FID分数从5.81提升到了4.96，在CIFAR10-LT数据集上从5.46提升到了5.03，并且其性能可与BPA和NoisyTwins等近期代表性方法相媲美。

1. 引言
近年来，扩散模型[1,2]在图像生成[3]领域取得了显著进展。与基于GAN的方法[4]相比，它们通常提供更好的保真度和更强的样本多样性。除了样本质量，扩散模型还具有直观和稳定的优化特性，这支持了广泛的应用，包括文本到图像的生成[5,6,7]、视频生成[8,9]、音频生成[10,11]以及对象检测[12,13]。在条件扩散模型中，辅助信号被用来引导去噪过程朝期望的输出方向发展；这些信号可以是类别标签[14]或低分辨率输入[15,16]，从而生成与给定条件更匹配的图像。

大多数现有的扩散训练设置[1,17,18]隐含地假设数据分布大致平衡。实际上，许多真实世界的数据集是长尾的，即头部类别的样本数量远多于尾部类别。这种不平衡在某些领域尤为明显，例如医学图像生成[19,20]。尽管条件生成模型可以为头部类别生成令人满意的图像，但分布的偏斜使得捕捉尾部类别的特征变得困难，这通常会导致尾部类别生成质量下降，进而影响整体性能。因此，长尾扩散生成的核心挑战不仅仅是纠正类别频率的偏斜，还要在三种耦合难题下提高尾部类别的生成质量：头部类别主导的训练、尾部类别与视觉上占主导的头部类别之间的感知混淆，以及去噪网络中对时间步长的不足关注。现有的处理类别不平衡的策略主要集中在重采样、重新加权或先验调整上，以减少分布偏差；然而，这些策略并没有以统一的方式直接解决这三个难题。

对于长尾数据集，无条件扩散模型往往会产生大量低质量的图像。CBDM（类别平衡扩散模型）[21]是首批利用扩散模型进行长尾数据分布图像生成的方法之一。它引入了一个分布调整正则化器，鼓励生成的样本更紧密地匹配随机选择的目标标签。这有助于抑制头部类别的过拟合，并通过允许模型学习多数类别之外的特征来提高尾部类别的样本多样性。其他方法如BPA[22]从偏向感知的先验调整角度重新审视了长尾扩散训练。虽然这些方法有效地缓解了类别分布或先验调整层面的不平衡，但它们并没有明确解决生成过程中的头部-尾部感知混淆问题，也没有重新考虑去噪网络中的时间步长感知建模。PD-CBDM通过在统一的扩散框架内明确解决这两个问题，对这些类别平衡策略进行了补充。在CBDM的成功基础上，我们将其作为研究的基线，进一步探讨长尾图像生成。图1提供了所提出的PD-CBDM框架的概览。图1显示了PD-CBDM的整体架构：左侧将长尾类别分为头部/尾部，并通过反转目标标签分布来实现重新加权；中间在去噪U-Net的某个阶段插入TSA模块，在其中将时间步长嵌入与空间特征一起注入Q/K/V投影；右侧的感知区分损失通过强制增大头部和尾部分布之间的差异来提高生成质量（通过方程（7）计算）。绿色/蓝色/橙色分别表示头部/尾部/重叠分布。然而，仅通过分布或先验调整来缓解不平衡并不能完全防止采样过程中的头部-尾部混淆。我们观察到，在长尾扩散训练下，生成的尾部类别图像经常与视觉上占主导的头部类别图像有显著的相似性，如图2所示。例如，在训练集中，类别0的样本数量是类别83的百倍。因此，在为尾部类别（类别83）生成图像时，经常出现与头部类别相似的特征，如图2b所示。这种头部-尾部外观的重叠在最近关于类别不平衡扩散训练的研究中也有所讨论，其中直接规范头部和尾部分布之间的重叠可以减轻尾部类别的混淆[23]。为了解决这个问题，我们引入了感知区分损失，明确增大头部和尾部类别表示之间的差异，从而减少模型过度拟合头部类别特征的趋势。具体而言，在训练过程中，我们对头部-尾部类别的图像对进行重采样，并惩罚头部和尾部图像分布之间的KL散度。这个过程在反向过程中简化为噪声图像与平均图像之间的MSE损失，优化了更新后的损失函数。

2. 相关工作
本节讨论了与长尾学习及注意力机制相关的工作。
2.1. 长尾学习
长尾类别不平衡是真实世界数据集中的常见现象，其中少数类别的样本数量众多，而许多其他类别的样本则较为稀少[26,27,28]。这种不平衡经常导致深度学习模型偏向于数据丰富的头部类别，从而在样本有限的尾部类别上表现不佳[29,30,31]。
在长尾学习中，长尾识别引起了广泛关注。例如，SMOTE[32]通过在一个少数类实例及其k个最近邻之一之间进行插值来合成新样本，以增强少数类别。然而，这样的重采样方法可能会遇到边缘分布问题，并且在邻居选择上缺乏精确性。类别平衡（CB）损失[27]通过为每个类别的损失分配与其样本大小成反比的权重来解决问题，从而在训练期间平衡它们的贡献。基于迁移的方法，以领域特定的迁移学习（DSTL）[33]为代表，从长尾数据中学习表示，然后使用更平衡的子集进行适应，以便更好地将知识转移到尾部类别。类似地，SSP[34]依赖于自监督预训练（例如对比目标或基于旋转的预测）在长尾数据上进行标准监督学习之前，旨在获得更平衡的特征空间。然而，自监督方法实施起来可能较为复杂。最近的研究还将基于扩散的范式扩展到长尾学习，不仅限于生成，例如在不依赖外部知识的情况下改进长尾识别[35]，以及结合LLM衍生先验进行长尾扩散学习[36]。
在长尾图像生成领域，CBGAN[37]引入了一个类别平衡正则化器，利用预训练分类器的类别分布信息来约束GAN输出，以实现更平衡的类别分布。gSR（组谱正则化器）[38]通过引入组谱正则化项来缓解CGAN[39]中的模式崩溃问题。然而，CBGAN需要额外的分类器，而且如果gSR过于强大，可能会限制模型学习，降低多样性并增加计算成本。NoisyTwins[40]评估了各种GAN正则化技术用于长尾图像生成，识别了模式崩溃和类别混淆等常见问题。它提出了一种类别嵌入增强策略，以防止模式崩溃并提高生成性能。除了基于GAN的解决方案外，扩散模型也因其稳定的训练和强大的保真度而被最近用于长尾图像生成[35,36]。在扩散模型方面，Xu等人[22]观察到，所有类别之间的均匀噪声采样分布会使得模型偏向头部类别，降低生成尾部类别图像的质量和多样性，并提出了BPA（偏向感知的先验调整）来缓解这种效应。后续的长尾扩散研究从补充角度改进了尾部合成，包括定向校准以更好地转移和校准头部类别的知识[41]，重叠优化以减少头部-尾部外观的混淆[23]，以及对比条件-无条件对齐目标以增强长尾条件生成[42]。同时，期刊级别的努力也开始通过专门的求解器设计（如LTB-Solver[43]）来明确解决基于扩散的图像合成中的长尾偏差问题。
除了数据级别的重新weighting和损失级别的正则化之外，我们注意到在原始的U-Net中，时间步长提示主要通过残差块注入，而自注意力层则对时间步长保持无感知。受到[24]的启发，我们开发了一个基于时间步长的多头自注意力模块。该模块将时间步长提示纳入自注意力计算[25]中，使注意力层能够同时考虑时间上的去噪动态和空间上下文。这种设计提高了噪声预测能力，并提升了生成质量。

在本文中，我们的贡献如下：
我们提出了PD-CBDM，这是一种基于扩散的长尾图像生成框架，它通过共同解决类别先验不平衡、头部-尾部感知混淆和时间步长感知的去噪问题，扩展了之前的类别平衡扩散方法。
我们引入了一个重新加权的目标标签分布以及感知区分损失，以改善尾部类别的训练暴露度，并明确增大头部和尾部类别表示之间的差异，从而减少尾部类别样本模仿头部类别的倾向。
我们设计了一个基于时间步长的自注意力模块，将时间步长信息注入自注意力计算中，使去噪网络能够在不平衡的训练条件下更好地捕捉时间和空间依赖性。
在CIFAR100-LT、CIFAR10-LT、CIFAR-100和CIFAR-10上的广泛实验证明了所提方法在不平衡和平衡环境中的有效性，以及其与代表性近期基线的竞争性能。
本文的结构如下：第1节介绍问题和我们的方法动机。第2节总结相关工作。第3节描述实验设置并报告定量结果。第4节将我们的方法与现有的最先进方法进行基准测试。第5节展示定性结果，第6节讨论主要发现。第7节对本文进行总结。稳定扩散[47]是一种文本到图像的扩散系统，它使用跨注意力（cross-attention）来整合不同的条件信号（例如文本提示和边界框），从而实现高分辨率图像的合成。VPD[48]进一步表明，从预先训练的文本到图像扩散模型中提取的跨注意力图可以作为下游视觉感知任务的显式语义线索。通过平均不同分辨率的跨注意力图，它可以提供特定于类别的聚合语义信息。线性注意力机制在图像生成中也获得了关注。例如，参考文献[49]将自注意力（self-attention）转换为核特征映射的线性点积，将计算复杂度降低到线性时间，并提高了生成效率。线性变换器模型进一步促进了多样化样本的生成。触觉扩散[50]采用线性注意力来减少计算负担并加速生成，但用核风格映射替换基于Softmax的自注意力通常会导致性能下降。与此同时，扩散变换器架构（diffusion transformer backbones）在高质量合成和高效训练方面取得了快速进展（例如PixArt-）[44]。此外，一些最近的设计明确强调了沿去噪轨迹的步长/时间步长感知（step-/timestep-aware attention）或计算，包括逐步动态注意力中介（step-wise dynamic attention mediators）[51]、动态扩散变换器（dynamic diffusion transformers）[52]和逐步自适应计算（step-wise adaptive computation）[53]。受这些趋势的启发，PD-CBDM引入了一个时间步长依赖的注意力模块（TSA），该模块能够捕捉时间和空间信息，从而提高模型在噪声预测方面的精度。

3. 我们的方法
3.1. 前期工作
为了有效应对长尾类别分布下的图像生成挑战，我们在CBDM基线的基础上引入了一系列有针对性的改进。我们首先总结了扩散模型的背景和CBDM框架。

a. 扩散模型：扩散模型是一种生成框架，通过迭代去噪过程合成样本。它指定了一个将数据逐渐映射到高斯噪声的正向去噪链，以及一个从噪声输入中重建干净样本的逆向去噪链。在正向过程中，描述了原始数据点从真实分布中的扰动。这种扰动是通过在T步内以马尔可夫链的方式将均值为0、方差为的 Gaussian噪声混合来实现的，直到数据完全转变为高斯噪声。该过程数学上表示为方程（1）：
(1)
其中表示噪声水平超参数，表示正态分布，表示单位矩阵。此外，任何中间步骤的数据点可以直接使用封闭形式表达式从采样：
(2)
相反，逆向过程逐渐从噪声中恢复数据。真实的逆向转换概率通过一个可学习的高斯模型来近似，该模型由参数化，并表示为方程（3）：
(3)
在DDPM框架中，均值是通过神经网络参数化学习的，而方差通常被视为时间依赖的常数。工作[2]通过将噪声预测网络表示为方程（4）来重新参数化：
(4)
方程（4）表明可以从噪声中得到平均图像。此外，工作[2]引入了一个简化的训练目标，专注于噪声预测，显著提高了训练效率并生成了高质量的样本。简化的损失函数定义为方程（5）：
(5)

b. 条件扩散概率模型：条件生成扩散模型引入了条件信息作为我们长尾研究的基础。在条件生成设置中，对于训练数据，相关的条件信息c可以是类别标签或低分辨率图像，它们是从数据分布中联合采样的。因此，正向过程保持不变，目标是训练一个条件生成模型。逆向过程更新为方程（6）和（7）：
(6)
(7)
其中表示在条件信息下的平均图像，方差定义为常数。在这些条件下，损失函数更新为方程（8）：
(8)

c. CBDM：CBDM将扩散模型应用于长尾数据集设置，旨在在类别不平衡条件下为尾部类别生成高质量样本。在这种情况下，头部类别和尾部类别的训练图像数量存在显著差异（头部类别的图像数量是尾部类别的数百倍），导致生成的尾部类别图像缺乏多样性。CBDM通过在训练期间使用分布调整正则化器来解决这个问题，从而缓解了尾部类别的模式崩溃问题。CBDM的损失函数定义为方程（9），它包括方程（8）（b）中的条件扩散损失和一个分布调整项。
(9)
这里，“sg”表示停止梯度操作，和是权重超参数。此外，表示类别标签集。

3.2. 感知区分损失
在长尾分布下训练深度生成模型面临两个主要挑战：不同类别之间数据数量的不平衡导致深度生成模型偏向于头部类别，从而在尾部类别上的性能较差；尾部类别图像的稀缺进一步复杂化了这些模型的训练。现有的类别平衡策略主要通过调整采样或类别曝光来提高尾部性能，但它们并没有在生成过程中明确限制头部和尾部类别之间的感知区分。为了解决这个差距，我们引入了一个感知区分损失。它不仅仅作为一个通用的辅助正则化器，而是明确地扩大了头部和尾部类别逆向过程分布之间的区别，从而减少了尾部类别生成吸收视觉上占主导地位的头部类别特征的倾向。
具体来说，在扩散逆向过程中，如方程（7）所示，我们分别从头部和尾部数据（和）中随机采样为和。我们定义了头部和尾部数据在逆向过程中的转换概率为和。在生成尾部类别图像时，为了强调与头部类别图像的差异，我们引入了一个旨在最大化两个分布之间的Kullback–Leibler（KL）散度的惩罚项。这种惩罚就是我们所说的感知区分损失，我们引入了一个权重来平衡原始扩散损失和感知区分损失。因此，更新后的损失函数表示为方程（10）：
(10)
优化上述目标增加了生成的头部和尾部数据分布之间的区别，同时减少了扩散损失。在逆向过程中，给定一个时间步长t和噪声，平均图像可以按照方程（7）计算得出，方差固定为常数。因此，KL散度可以表示为方程（11）：
(11)
其中C是常数。另一种想法是直接对进行MSE损失计算，但在我们的实验中，我们发现这种方法并没有产生最佳结果。我们推断，在给定噪声下获得的误差太大。PD-CBDM训练算法详细说明在算法1中。

算法1 PD-CBDM的训练算法
输入：带有条件c的训练数据；t是时间步长；是目标标签分布；是标签集中的元素数量；是分割后的头部数据分布；是分割后的尾部数据分布。
输出：条件噪声预测模型。
1: 对于每个大小为N的批次执行
2: 对于该批次中的数据-标签对执行
3: 采样
4: 计算
5: 从采样
6: 计算分布调整项
7: 从采样，从采样
8: 使用方程（7）计算和
9: 计算pd损失
10: 使用更新
11: 结束循环
12: 结束循环

3.3. 重新思考目标标签分布
在CBDM中，表示经过正则化后的目标标签分布，这有助于模型更好地学习并生成尾部类别的样本，通过在训练期间调整分布来实现。然而，由于这个分布仍然来源于长尾数据，直接从中采样可能会继续在训练期间强调频繁出现的类别。与通用的类别重加权策略不同，我们直接重新审视CBDM中使用的目标标签分布，并反转原始的来构建调整后的分布。这种设计增加了尾部类别的曝光度，同时避免了与天真平衡采样相关的保真度下降。为了在增强多样性的同时缓解保真度下降的问题，我们提出反转原始目标标签分布，得到调整后的分布，如方程（12）所示：
(12)
与其使用平衡分布，我们通过为尾部类别分配相对较高的权重来反转目标标签分布。当包含的图像类别数量少于训练集中的数量时，分布调整损失将增加在训练期间选择代表性不足的尾部样本的概率。这种方法鼓励模型生成更多多样化的样本，同时保持高保真度。这种反转的分布为尾部类别分配了更大的概率，使得在训练期间更频繁地采样代表性不足的类别。

3.4. 时间步长依赖的自注意力
如3.1节所述，在CBDM中，时间步长信息仅在残差块中使用，并且仅采用简单的注意力机制。通常，去噪网络的时间维度依赖性是通过简单的时间位置嵌入实现的，这些嵌入通过空间加法等操作应用于不同的残差块。然而，这种简单的机制可能无法最佳地捕捉去噪过程中的时间依赖关系。为了克服这一限制，我们提出了一个时间步长依赖的自注意力（TSA）模块。TSA模块将时间步长信息注入自注意力机制中，以联合建模时间和空间依赖性，从而改进去噪过程中的噪声估计。具体来说，我们将时间步长依赖性引入自注意力的查询/键/值投影中。给定U-Net特征图和时间步长t，我们首先计算时间步长嵌入，其中表示扩散模型中使用的标准时间步长嵌入函数。然后我们通过单独的线性层传递和，并将投影的特征相加，构建时间步长条件化的Q、K和V，然后执行标准的缩放点积自注意力，产生更新后的输出特征，如图3所示。更新后的公式可以写为方程（13）和（14）：
(13)
(14)
图3. 时间步长依赖的自注意力（TSA）模块。该模块将空间特征与时间步长嵌入结合在Q/K/V投影中，使得自注意力可以在去噪过程中联合建模时间和空间依赖性。在4.3.3节中，我们测试了时间步长依赖的自注意力模块（TSA）在模型不同位置的性能。最终，我们决定将TSA模块放置在U-Net的特征图分辨率16处，具体是在第一次下采样之后和最后一次上采样之前。

4. 实验
4.1. 数据集和指标
为了在类别不平衡的生成设置下评估我们的方法，我们在CIFAR-10[55]和CIFAR-100[55]的长尾变体上进行了所有实验。长尾分割是按照[21,30]构建的。CIFAR-10包含60,000张RGB图像，分辨率为，分布在10个类别中（每个类别6000张图像）。CIFAR-100包含相同数量的RGB图像，但涵盖100个类别（每个类别600张图像），这些图像进一步分为20个超级类别，每个超级类别有5个类别。
在评估指标方面，我们选择了Fréchet inception距离（FID）[56]、inception score（IS）[57]、召回率[58]和[59]作为评估模型生成图像的保真度和多样性的指标。的值设置为8。召回率和被用来评估图像多样性，而IS和倾向于衡量图像保真度。此外，对于召回率和的计算，我们使用Inception-V3特征；召回率参数K为5，其聚类计数设置为类别数量的20倍。

4.2. 实验设置
训练设置：在CIFAR100和CIFAR100-LT数据集中，我们进行了500K次迭代；在CIFAR10和CIFAR10-LT数据集中，我们进行了800K次迭代，所有训练都在单个Nvidia RTX 3090 GPU上完成。对于所有数据集，我们使用了Adam优化器，学习率为，将模型的通道数设置为128，网络包括三个阶段，每个阶段之间的分辨率减半。每个阶段有2个残差块、2个TSA块，所有数据集的噪声策略使用了从到0.02的线性噪声时间表。
测试设置：在模型测试阶段，设置与基线模型相同。在消融实验中，我们随机采样了50,000张图像来测量所有指标；与SOTA模型比较时，我们随机采样了10,000张图像与GAN系列算法进行比较，以及5000张图像与扩散模型系列算法进行比较，所有数据集采样都在单个NVIDIA GeForce RTX 3090上完成。

4.3. 消融研究
4.3.1. 提出方法的性能分析
为了量化每个提出组件的贡献，我们对CIFAR100-LT进行了受控消融，选择性地启用了PD-CBDM的三个模块。我们展示了在基线模型中添加感知区分损失、重权重和TSA模块时的性能变化。如表1所示，引入感知区分损失后，FID从5.81降低到5.19，并且IS略有改善，这表明显式增强头部和尾部类别之间的分离主要是提高了生成的说服力。重新加权将召回率从0.57提高到了0.63，将IS从0.90提高到了0.94，表明增加尾部类别的曝光度主要增强了多样性和覆盖范围，尽管IS略有下降。TSA将FID提高到5.42，IS提高到13.57，表明时步意识注意力有助于提高去噪质量。当这三个组件结合使用时，PD-CBDM实现了最佳的总体权衡，将FID从5.81降低到4.96，将IS从13.34提高到了13.60。这些结果表明，这三个模块在改善长尾图像生成方面发挥了互补作用。表1. 我们提出的不同方法的性能分析。

4.3.2. 数据划分比例分析
在感知区分损失中，我们探讨了不同的头部和尾部数据划分比例对实验结果的影响。具体来说，我们按照类别频率对训练数据进行了排序，并将它们以6:4、7:3和8:2的比例划分为不同的训练模型。由于不平衡因素随着训练数据集的不同而变化，因此需要为不同的不平衡因素设置不同的划分比例，以确保模型能够达到最佳性能。如表2所示，使用感知区分损失后，模型性能显著提高，但当划分比例为7:3时，FID降低了0.62；当划分比例为6:4时，IS提高了0.25。因此，我们将所有数据集的划分比例设置为7:3。表2. 不同数据划分比例下感知区分损失的实验结果。

4.3.3. TSA模块位置选择
为了研究TSA模块在去噪U-Net中的作用，我们通过在网络内不同位置插入TSA进行了消融研究。具体来说，该模块分别在每个分辨率转换点添加——在下采样之后、上采样之前以及瓶颈处——对应的特征图分辨率为16、8和4。如表3所示，与仅在分辨率16处使用TSA相比，在所有分辨率处使用TSA导致性能下降：FID降低了0.34，IS降低了0.33。这表明，在所有分辨率上使用TSA可能会削弱模型性能。因此，对于分辨率有限的其他数据集，TSA模块仅应用于大小为16的特征图，没有进一步探索其在其他分辨率上的放置。这一结果表明，TSA的增益来自于局部化的时步意识注意力，而不仅仅是简单地堆叠更多的注意力操作，这进一步凸显了TSA的架构贡献。表3. 不同特征图分辨率下TSA放置的消融研究。

4.3.4. 不同指导强度分析
在条件生成设置中，指导强度是一个关键参数，用于控制生成样本的质量和多样性之间的权衡。在采样过程中，我们尝试了在没有分类器指导（CFG）的方法中，指导强度对模型生成效果的影响。因此，我们测试了不同数据集在指导强度[0.2, 2]范围内的FID和IS的影响。使用论文[24]中的方法，我们每0.2采样50,000张图像来测试它们的FID和IS，以确定每个数据集的最佳指导强度。如表4所示，我们发现随着指导强度的增加，模型的生成多样性受到影响，但说服力得到了提高。当指导强度为1.4时，模型的FID达到最佳值4.96，但随着指导强度的进一步增加，IS继续得到改善。因此，我们将CIFAR100-LT数据集的指导强度设置为1.4。使用相同的方法，我们为其他几个数据集寻找了最佳指导强度，分别为1.2（CIFAR10-LT）、0.9（CIFAR-100）和0.8（CIFAR-10）。表4. 不同指导强度对生成性能的影响。

4.4. 在平衡数据集上的性能
同时，为了证明所提出方法的有效性，我们还探讨了PD-CBDM在平衡数据集上的效果。具体来说，对于平衡的数据集，在打乱图像类别后，我们仍然使用7:3的比例进行数据划分，并且不再使用重新加权方法（因为目标标签分布已经是一个平衡的分布）。最近，GP-MI和MMD[60]提出了一种基于强化学习的微调方法，该方法利用称为“多样性奖励”的奖励函数来指导扩散模型的训练。结果显示，与无条件生成的DDPM相比，我们的方法在平衡数据集上的FID提高了0.59，IS提高了0.64，所有指标均超过了基线模型CBDM；然而，在生成多样性方面，MMD的表现更好。因此，我们的方法不仅适用于类别不平衡的数据集，而且在传统数据集上也表现良好。表5. 在平衡数据集上的性能比较。

5. 与SOTA模型的比较
图像生成研究进展迅速，最近的模型不断改进定量指标。为了与强大的基线模型进行比较，我们在几个不平衡因素（1、10和100）下评估了PD-CBDM，并以FID作为主要衡量标准。具体来说，我们在CIFAR10-LT上使用，在CIFAR100-LT上使用进行了评估。如表6所示，我们选择了一些GAN系列模型，如SNDCGAN[61]、CBGAN[37]和NoisyTwins[40]与PD-CBDM进行比较。其中，gSR[38]是在GAN系列模型训练期间的一个正则化方法。从表6可以看出，PD-CBDM在所有不平衡因素下的表现都优于其他模型，似乎GAN系列模型不擅长长尾数据集的图像生成任务。表6. 在CIFAR10-LT和CIFAR100-LT上，PD-CBDM与GAN系列模型在FID方面的比较。在CIFAR10-LT数据集上，当指导强度为100时，FID相比基线模型提高了1.38；当指导强度为10时，提高了0.62；当指导强度为1时，提高了1.14。与GAN领域最近的SOTA模型NoisyTwins相比，PD-CBDM在各种不平衡因素下实现了更好的FID分数。在CIFAR100-LT数据集上，其性能远高于几个GAN系列模型，与基线模型相比，FID提高了2.57。这表明PD-CBDM在更多类别和更强的不平衡因素下表现异常出色。

另一方面，我们进一步比较了几个基于扩散模型的图像生成算法在长尾分布下的性能，包括DDIM[65]和BPA[22]。具体来说，我们在不平衡因素为100的CIFAR100-LT和CIFAR100-LT数据集上评估了每个模型。遵循BPA模型的设置，我们随机采样了5000张图像来比较它们的FID和IS指标，结果如表7所示。表7. 在长尾分布下PD-CBDM与DDIM和BPA的性能比较。从表7可以观察到，与最近的SOTA扩散模型BPA相比，PD-CBDM在这两个数据集上都实现了更高的FID。在CIFAR10-LT数据集上，其FID比BPA高0.41，尽管其IS略低。同样，在CIFAR100-LT数据集上，PD-CBDM在FID上超过了BPA 0.64，但在IS上落后了0.14。

6. 定性分析
为了进一步评估生成图像的感知质量和多样性，我们展示了定性的视觉比较。具体来说，我们比较了基线模型、NoisyTwins和PD-CBDM模型在CIFAR100-LT数据集上的生成输出，如图4所示。如图4所示，在相同的随机种子下，PD-CBDM生成的尾部类别图像质量高于其他两个模型。PD-CBDM在尾部类别生成方面表现出更高的多样性和说服力，具有更明显的主要主题细节和多样的背景。例如，在生成“花朵”这一尾部类别时，基线和NoisyTwins模型倾向于产生均匀且细节较少的背景，表明对尾部类别数据的欠拟合和多样性有限。相比之下，PD-CBDM生成的“花朵”种类更多，背景细节更丰富、更多样化。图4. CBDM、NoisyTwins和PD-CBDM在CIFAR100-LT数据集上的生成结果比较。这种比较突出了PD-CBDM在生成高质量尾部类别图像的同时保持头部类别图像生成质量方面的优越能力。

7. 讨论
PD-CBDM旨在通过感知区分损失来区分头部和尾部类别分布，以最小程度地影响头部类别的质量来提高尾部类别图像的质量。本节从理论和实证两个方面分析了其有效性。从理论角度来看，PD-CBDM的有效性可以归因于三个关键组件的相互作用：感知区分损失、时步依赖的自注意力（TSA）模块和重新定义的目标标签分布。首先，感知区分损失增加了一个显式的正则化项，鼓励头部和尾部类别特征分布之间有更大的基于KL的分离。通过在感知特征空间中强制这种分离，模型被鼓励学习特定于类别的表示，特别是对于代表性不足的尾部类别。这有助于防止常见的特征崩溃问题，即尾部类别的特征被头部类别的特征所掩盖或对齐错误。其次，TSA模块通过向去噪过程中注入时间和空间线索来改进依赖性建模。U-Net架构中的传统注意力机制通常忽略了对扩散模型至关重要的时间步长上下文。通过使注意力明确依赖于时间步长，TSA有助于将时间步长信息纳入注意力计算中，从而改善噪声估计和整个扩散过程中的去噪效果。这种增强对于尾部类别特别有益，因为它们的生成路径可能需要更精细的时间步长建模来重构语义上有意义的样本。最后，重新定义的目标标签分布作为一种隐式的重新加权策略。通过为尾部类别分配更高的采样概率或训练重点，它符合长尾数据平衡的原则。这促进了代表性不足类别的更多样化且更具代表性的样本集的生成，从而在训练过程中缓解了类别不平衡。这些组件共同创建了一个协同框架：感知损失强调了类别间的可分性，TSA改进了时间步长建模能力，调整后的标签先验解决了样本多样性问题——所有这些都有助于PD-CBDM在长尾设置下生成高保真度、类别平衡的输出。

从计算角度来看，PD-CBDM的三个组件引入了不同类型的开销。重新加权的目标标签分布仅在训练期间改变标签采样，并不改变推理过程。感知区分损失在训练期间增加了额外的头部-尾部对处理和分离项，但在推理时并不使用。相比之下，TSA在训练和采样过程中都增加了计算量，因为引入了时步长条件下的投影到自注意力中。尽管如此，这种开销是局部的，因为TSA仅在U-Net的某一阶段插入，而不是在所有分辨率上。因此，与基线相比，额外的训练开销来自感知区分损失和TSA，而额外的推理时间开销主要来自TSA增强的注意力计算。尽管我们的实验是在CIFAR风格的基准数据集上进行的，但PD-CBDM的三个组件并不限于低分辨率设置。重新加权的目标标签分布在数据采样层面操作，感知区分损失修改了训练目标，而TSA作为去噪网络中的模块化注意力设计引入。因此，总体框架原则上可以转移到更高分辨率或真实世界的长尾数据集上。然而，将PD-CBDM扩展到这些设置可能会引入额外的挑战。更高分辨率的生成会增加内存和计算量，而真实世界的长尾数据集可能表现出更复杂的头部-尾部视觉重叠和更广泛的类别分布变化。这些问题可能会影响优化稳定性和当前模块配置的有效性。因此，我们将可扩展的长尾扩散生成到更高分辨率和真实世界的数据集视为未来工作的重要方向。

从实验角度来看，PD-CBDM在评估的基准下，在不平衡和平衡设置中都表现出强大的性能。如表6所示，在不同的不平衡因素下，PD-CBDM实现了比基线模型更低的FID分数。这表明PD-CBDM有效缓解了通常在类别不平衡下观察到的生成性能下降，即使对于尾部类别也能保持高视觉说服力。在这些具有挑战性的条件下的卓越性能突显了该方法更准确地建模代表性不足分布的能力。此外，在传统的平衡数据集上（表5），PD-CBDM在所有评估指标（包括FID和IS）上都优于DDPM和CBDM。这一结果证实，PD-CBDM引入的改进措施（如感知区分损失和TSA模块）并没有在数据不平衡的情况下出现过拟合现象，而是在建模和生成质量方面带来了更广泛的好处。这表明PD-CBDM增强了扩散模型中的去噪和样本质量机制，使其成为一种更具普适性的解决方案。定性结果进一步支持了这些发现。如图4所示，在CIFAR100-LT数据集上，PD-CBDM生成的样本质量明显优于基线和NoisyTwins模型，特别是在尾部类别上。与其他方法相比，PD-CBDM生成的图像具有更清晰的主要物体、更精细的结构细节以及更丰富多样的背景。这些视觉差异表明，PD-CBDM不仅提高了尾部类别样本的真实性，还增强了类别内部的多样性——这是长尾生成模型中常常缺乏的两个关键方面。此外，我们还通过测量采样时间噪声误差来量化TSA对噪声预测的影响。我们按照算法2进行操作，去除了采样随机性，然后在这种确定性设置下计算CBDM和PD-CBDM的预测误差。对于CIFAR100-LT数据集，图像被规范化到一个特定范围，我们使用每种模型学到的权重通过某种度量方法计算预测噪声与目标噪声之间的像素距离。如表8所示，PD-CBDM将噪声误差降低了0.18。这一改进表明，引入TSA有助于去噪网络更精确地捕捉与噪声相关的信息，从而实现更准确的噪声预测。

尽管如此，仍存在一些未解决的挑战。在极端不平衡的情况下，头部类别的主导性和头部与尾部类别之间的混淆可能会变得更加严重，这可能会进一步影响优化的稳定性和尾部类别的真实性。此外，将PD-CBDM扩展到更大或更高分辨率的数据集将引入更高的内存和计算成本，而跨域转移到更真实的长尾数据集可能会涉及更复杂的视觉重叠和更广泛的类别分布变化。这些问题仍然是未来研究的重要方向。

8. 结论
本文提出了一种名为PD-CBDM的方法，旨在长尾数据集上生成高质量的图像。在类别不平衡的情况下，生成模型往往过度依赖头部类别，导致尾部样本质量较低，类似于头部数据。为了解决这个问题，我们引入了感知区分损失来更好地分离头部和尾部类别的表示。此外，基线模型的目标标签分布被调整以在训练过程中给予尾部类别更多的权重，这有助于增加生成图像的多样性。为了进一步提高去噪质量，我们在去噪网络中添加了一个与时步相关的自注意力（TSA）模块，使模型能够利用时间和空间信息。实验表明，PD-CBDM将CIFAR100-LT数据集上的FID分数从5.81提升到了4.96，将CIFAR100-H10数据集上的FID分数从8.10提升到了7.48，并且在标准平衡数据集上也表现良好。

局限性与未来工作：尽管PD-CBDM在FID和IS分数上取得了有竞争力的成绩，但它仍存在一些局限性。该方法通过重新加权标签采样、感知损失正则化和时间步感知注意力相结合的方式改进了类别不平衡的图像生成，但没有为长尾扩散生成专门设计专属的架构。特别是，其整体生成效率仍然受到扩散模型迭代采样本质的限制，而添加的TSA模块进一步增加了计算量。在更极端的不平衡情况下，当前配置可能会面临额外的优化难度和更强的头部与尾部类别之间的混淆。在未来的工作中，我们计划探索更高效的架构和更快的采样策略来生成长尾图像，并在更大、更高分辨率和更真实的长尾数据集上进一步评估所提出的框架。

热点排行