缺陷检测是制造业中的关键任务。尽管人们付出了大量努力来提高产品质量,但由于缺陷样本的固有稀缺性,收集和准确标注缺陷样本仍然是一个挑战。随着计算机视觉技术的发展,以数据为中心的深度学习方法已成为常态。训练用于缺陷分类和分割的强大模型需要正常样本和缺陷样本,但在实践中获取标注良好的缺陷数据往往很困难。此外,生成模型经常产生结构不一致的图像(Wang, Zhang, Zheng, & Jin (2024)),导致合成输出无法真实反映实际缺陷。因此,大量研究集中在生成合成缺陷上(Cho, Jeon, & Park (2023); Ding, Huang, Wu, & Cui (2025); Wang et al. (2025))。我们认为,对于实际工业应用而言,合成缺陷样本必须满足三个严格标准:它们应与实际缺陷高度相似(Hammad, Smaoui, Fakhfakh, & Hashim (2024)),并且适合自动标注。在不需要详细掩码注释的缺陷分类中,可以容忍合成缺陷的轻微变化。相比之下,在需要像素级精确度的缺陷分割中,即使是微小的缺陷特征差异也需要不同的掩码标签,因此需要重新标注以捕捉这些细微差异。
我们认为,生成没有结构不一致性的缺陷对于实现自动标注至关重要。然而,对当前使用的各种生成模型的回顾揭示了一个显著矛盾:尽管这些模型能够生成与真实缺陷高度相似的输出,但由于生成算法的固有随机性(通常基于高斯噪声(Goodfellow et al. (2014); Ho, Jain, & Abbeel (2020); Rombach, Blattmann, Lorenz, Esser, & Ommer (2022)),它们经常无法生成没有结构不一致性的缺陷。这种随机性使得模型能够正常运行,但也使得它们难以控制,因为重复使用相同的噪声向量每次都会产生不同的图像。这种不一致性是生成算法随机行为和管理高斯噪声的挑战的直接后果。
这引发了一个关键问题:我们如何严格减少结构不一致性?为了解决这个问题,我们提出了一种方法,该方法在保持高信噪比(PSNR)的同时,能够紧密模仿原始产品。我们的初步工作(Jo, Sahadewa, Gazali, & Park (2024))通过结合LoRA权重(Hu et al. (2022)和Stable Diffusion XL(SDXL)(Podell et al. (2024)),并优化空嵌入和空池嵌入,以实现最佳的潜在表示,从而生成与原始图像高度相似的缺陷。总之,我们引入了空嵌入优化来捕获与原始图像相同的潜在空间,通过注意力图混合和放大生成多样化的缺陷样本,并证明了使用合成生成图像显著提高了现成缺陷检测模型的准确性。
基于我们之前的工作,我们进一步扩展了我们的方法,以解决缺陷分类和分割问题。具体来说,我们通过引入残差线性插值(RLI)连接来改进UNet架构,这些连接有助于保留细粒度的结构细节。重要的是,我们的方法消除了对LoRA训练的需求,仅依赖于SDXL模型内部潜在表示的基于优化的细化。实验结果证实,我们的改进方法生成的缺陷样本不仅提高了分类准确性,还增强了分割模型的精度,为实际工业应用中的缺陷检测提供了全面的解决方案。