BMMC-GAN：一种双向映射和多类别控制的生成对抗网络，用于生成多种工业缺陷图像

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：BMMC-GAN: A bi-directional mapping and multi-category controlled generative adversarial network for diverse industrial defect images generation

【字体：大中小】 时间：2026年01月29日 来源：Neurocomputing 6.5

编辑推荐：

　　针对工业缺陷检测中数据不足及分布不均的问题，本文提出双向映射与多类别控制的生成对抗网络BMMC-GAN，通过双向映射策略实现图像空间与潜在空间的编码与重构，结合Haar小波变换分离背景与缺陷特征并融合多尺度特征，同时嵌入分类标签控制生成多样性缺陷样本，显著提升生成图像质量与检测率。

Junchao Chen|Yahui Cheng|Guojun Wen|Xingyue Liu

中国地质大学机械工程与电子信息学院，武汉430074，中国

摘要

基于深度学习的新兴缺陷检测技术在现代工业制造中引起了广泛关注。然而，获取充足且分布均匀的真实缺陷样本以用于模型训练颇具挑战性，这限制了基于深度学习的模型在缺陷检测性能上的提升。本文提出了一种创新的双向映射和多类别可控生成对抗网络（BMMC-GAN），用于生成多样化的工业缺陷图像。首先，采用图像空间与潜在空间之间的双向映射策略对缺陷图像进行编码和重建，并在整个生成器中添加潜在编码噪声以增加缺陷样本的多样性。然后，引入Haar小波变换通过低通滤波器提取缺陷图像的低频背景信息，通过高通滤波器提取高频细节信息。还提出了一种频率特征聚合方法，用于融合多个尺度上的不同频率特征。这有助于提高对缺陷区域的捕捉能力、细节保真度以及生成图像的整体质量，同时减少数据冗余和干扰。因此，生成图像中背景与缺陷之间的适应性显著增强。此外，精心设计的类别标签被嵌入到模型中，以增强缺陷类别生成的可控性。图像质量评估和下游缺陷检测任务的实验结果验证，与仅使用少量训练数据的其他流行生成模型相比，BMMC-GAN生成的工业缺陷图像具有更高的质量和多样性，从而实现了更优越的缺陷检测率。

引言

在现代大规模工业制造中，缺陷检测已成为确保产品一致性和可靠性的不可或缺的程序，为质量控制提供了保障。近年来，基于深度学习的缺陷检测技术由于其高检测精度和泛化性能而在工业领域得到了广泛应用。传统基于深度学习的检测模型的有效性在很大程度上依赖于大量准确标注的缺陷数据的可用性。然而，在现实世界的工业环境中，产品缺陷往往难以出现且分布不均，尤其是在高质量生产条件下[1]。因此，获取足够且多样的缺陷样本以进行高效模型训练仍然是一个重大挑战。此外，手动标注缺陷图像不仅成本高昂，还容易受到操作者主观性的影响，进一步限制了模型性能。

图像数据增强是缓解负样本不足和不平衡问题的有效方法，从而提高模型检测性能[2]。到目前为止，生成模型在图像任务中取得了显著进展，为工业缺陷样本的生成开辟了新途径。新兴的扩散模型已成为图像生成领域的热点话题，因为它可以通过逐步向图像中引入噪声然后反向去除噪声来生成高保真样本[3]。Wang等人[4]提出了一种基于逐步训练的扩散框架的工业缺陷样本生成模型，对热轧钢带的六种表面缺陷进行两阶段特征学习，以生成更高保真的缺陷图像。Tai等人[5]调整了扩散模型的参数，以减少真实钢材表面缺陷图像与生成图像之间的特征分布差距。还采用了以图像为导向的生成策略，而不是纯高斯噪声生成，将缺陷识别精度提高了约20％。Capogrosso等人[6]提出了一种名为In&Out的数据增强方法，能够在KSDD2数据集中生成划痕和斑点等缺陷图像[7]，分别在零缺陷样本或少量缺陷样本的情况下。这有助于解决以往方法仅从分布外部增强数据而未理解缺陷真实含义的问题，并提高了下游任务中的缺陷分类召回性能。

然而，扩散模型在真实工业检测中的广泛应用受到其高计算成本和时间成本的阻碍。一方面，扩散模型通常需要大量的计算资源以及较长的推理时间，这对设备成本要求过高。另一方面，它们在生成高维数据方面效率较低，特别是在需要大量训练数据的工业缺陷检测任务中，使其不适合实时工业检测。

相比之下，生成对抗网络（GAN）[8]作为一种具有快速图像生成能力和高生成质量的典型生成模型，仍然是工业缺陷图像生成领域的研究焦点。GAN通过生成器和判别器网络的对抗过程，能够以较低的时间成本生成逼真的图像样本。由于GAN对训练数据量的依赖性较高，当可用数据不足时容易引发模式崩溃[9]。此外，GAN模型主要用于生成自然图像（如人和动物图像），而在工业缺陷图像生成方面的研究较少。Li等人[10]提出了一种基于缺陷位置敏感性的数据增强GAN方法。通过关注缺陷区域的位置特征，GAN被引导生成符合缺陷分布特征的合成数据，有效提高了缺陷检测精度。Zhang等人[11]构建了Defect-GAN模型，通过移除和添加缺陷前景在图像背景上生成不同的工业缺陷内容。但Defect-GAN模型的训练依赖于大量的真实样本和准确的缺陷掩码。Niu等人[12]提出了表面缺陷-GAN（SD-GAN）模型，通过将正常样本和缺陷样本相互转换来生成缺陷图像，用于后续的缺陷分类任务。但其复杂的结构、较长的训练时间、对真实训练样本的高依赖性以及生成图像的多样性不足限制了其在工业中的实时应用。

Wei等人[13]开发的多样化多类别可控缺陷-GAN（DCDGANc）模型可以通过缺陷内容生成和正常背景合成，生成具有可控类别的多样化缺陷图像，显著提高了后续的缺陷分割性能。然而，DCDGANc的样本生成过程复杂，训练好的模型不能直接用于生成完整的缺陷图像。Duan等人[14]提出了一个两阶段缺陷感知特征操控GAN（DFMGAN）框架，将缺陷特征转移到预训练模型中的无缺陷图像中，使用有限的（10?25）数据有效生成高质量和多样化的缺陷样本。但该模型中每个缺陷类别必须单独训练，导致训练时间较长，限制了其在多缺陷场景中的效率。其他工业缺陷生成方法，如多样化轮胎缺陷GAN（DTD-GAN）[15]也需要大量训练样本，并且生成的图像多样性不足。BicycleGAN[16]通过建立潜在编码与生成图像之间的相关性，提供了一种新的解决方案，确保生成器网络在忽略噪声的情况下合成多样化图像。

受BicycleGAN训练策略的启发，开发了一种新的BMMC-GAN模型，主要由条件空间-潜在编码器（CSLE）和新的生成网络架构组成，仅使用少量训练数据即可生成多样化的工业缺陷图像。输入图像首先由CSLE映射到潜在空间，然后由生成器从潜在空间映射回图像空间，实现缺陷图像的多样化重建。精心设计的类别标签也被引入到生成器中，以控制缺陷类别的生成。本工作的主要贡献总结如下：

1.

设计了一种新的生成网络架构，实现了图像空间与潜在空间之间的双向映射，仅使用少量训练数据即可生成高质量和多样化的缺陷图像。它放弃了传统生成模型中先生成缺陷再与正常样本结合的单独过程。此外，我们的BMMC-GAN模型可以通过一次训练会话有效控制缺陷类别，无需分别为每个缺陷类别进行训练。

2.

首次将Haar小波变换策略引入工业缺陷样本生成场景。这显著增强了模型学习缺陷纹理信息和背景特征的能力，减少了生成过程中背景与缺陷之间的不匹配，并提高了图像生成的质量。

3.

提出了一种类别标签嵌入技术，以更好地控制生成图像的缺陷类别，从而避免了生成多类别缺陷图像时的多重复杂训练过程。它还帮助生成器通过将潜在编码噪声与类别标签结合并通过归一化将其整合到整个生成器架构中，从而更精确地控制类别特征，提高了生成图像的多样性。

4.

作为一种数据增强方法，BMMC-GAN有助于提高缺陷识别性能。与其他代表性生成模型相比，使用BMMC-GAN生成的缺陷样本训练的模型在缺陷分类精度上有了显著提升。

章节片段

工业缺陷检测

工业缺陷检测是对产品缺陷进行分类、识别或分割的过程，在实际工业生产中具有重要意义。传统的缺陷检测方法通常依赖于手动设计的特征提取和规则，如数字图像处理[17]和统计分析[18]。Liu等人[19]提出了一种修改后的多块局部二值模式（MB-LBP）算法，用于提取钢材上的缺陷特征

方法论

本节详细描述了所提出的基于数据增强的工业缺陷检测方法。图1展示了我们方法的总体工作流程，主要包括三个阶段：工业缺陷图像生成、图像质量评估和缺陷分类。在缺陷图像生成阶段，构建了一个创新的BMMC-GAN，主要包括条件空间-潜在编码器（CSLE）和新的生成网络

数据集

图像生成实验是在MVTec-AD数据集[49]中的五种木材和皮革缺陷图像上进行的。每种工业产品类别包含大约250个正常样本，每个缺陷类别包含10-25个缺陷样本。这种分布非常适合我们的实验设置，因为我们专注于基于少量样本生成更多缺陷样本。这确保了我们的模型即使在训练不平衡的数据集上也能稳定运行

结论

本文提出了一种创新的双向映射和多类别可控生成对抗网络BMCC-GAN，用于解决工业缺陷检测中缺陷图像多样性差和数量不足的问题。该方法通过双向映射策略将条件空间-潜在编码器（CLSE）与生成器结合，构建了图像空间与潜在空间之间的映射关系，使得缺陷

CRediT作者贡献声明

Junchao Chen：撰写 – 原始草稿、方法论、形式分析、数据管理、概念化。Yahui Cheng：调查、形式分析、概念化。Guojun Wen：验证、监督。Xingyue Liu：撰写 – 审稿与编辑、监督、方法论、资金获取、概念化。

利益冲突声明

本手稿的提交不存在利益冲突，所有作者均同意发表。我代表我的合作者声明，本工作是原创研究，尚未在其他地方全部或部分发表。所有列出的作者均已批准附上的手稿。

致谢

作者感谢以下机构的财政支持：国家自然科学基金（资助编号：52305623）、武汉自然科学基金（资助编号：2024040801020282）、重庆自然科学基金（资助编号：CSTB2023NSCQ-MSX0636）以及中国地质大学（武汉）的基础研究基金（资助编号：120–162301212389）。

Junchao Chen于2023年在湖北工业大学机械工程学院获得学士学位。他目前正在中国地质大学（武汉）机械与电气信息学院攻读研究生学位，专注于机器视觉和深度学习。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号