《Journal of Visual Communication and Image Representation》:Guided mask-enhanced diffusion framework for multi-class anomaly detection
编辑推荐:
工业异常检测通过扩散模型结合掩码指导提升高保真重建与异常定位,在MVTec-AD数据集上实现像素级98.6% AUROC等优异性能。
万一博|姚敏如|吴万新|万宏强
新加坡国立大学生物化学系,新加坡
摘要
工业异常检测在确保产品质量和生产安全方面发挥着关键作用,特别是在自动化制造环境中,早期识别缺陷至关重要。传统的基于重建的方法在异常检测方面难以取得竞争优势。在本文中,我们提出了MG-DDAD(Mask-Guided Denoising Diffusion for Anomaly Detection),这是一种新颖的基于扩散的框架,它通过掩码引导的监督来扩展潜在扩散,用于工业异常检测。通过将掩码引导纳入去噪过程,我们的方法能够高保真地重建正常区域,同时防止异常区域的恢复,从而提高了重建质量和异常定位的准确性。异常是通过原始图像和重建图像之间的像素级和特征级差异来识别的。在MVTec-AD数据集上的广泛实验表明,MG-DDAD的性能优于现有的最先进方法,在瓶子类别上达到了100%的AUROC,在图像级别上达到了99.5%的AUROC,在大多数其他类别上也始终提供了最佳结果。这些结果突显了掩码引导扩散在提高鲁棒性、准确性和可解释性方面的有效性。
引言
随着工业自动化和智能制造的快速发展,质量检测已成为确保生产安全和产品可靠性的关键组成部分[1]。然而,传统的手动检测存在劳动力成本高、效率低以及易受人为错误影响的问题,这使得它越来越无法满足现代工业对高精度和高吞吐量的需求[2]。因此,基于计算机视觉的自动化检测成为了一个有前景的替代方案[3]。
异常检测在工业视觉检测中起着至关重要的作用,其目标是从大量的正常样本中识别出罕见的缺陷样本[3]。这不仅对于降低生产线上的缺陷率至关重要,也有助于减少对手动检测的依赖。MVTec-AD数据集已成为该领域研究的基准,涵盖了多种工业对象和真实的缺陷类型[4]。
早期的工业检测方法主要基于手工制作的特征提取与传统的机器学习分类器相结合。一个典型的例子是使用灰度共生矩阵(GLCM)[5]结合支持向量机(SVM)[6]或k最近邻(KNN)[7]。虽然这些方法在检测规则和相对简单的纹理中的异常时证明是有效的,但当应用于更复杂或不规则的图案时,它们的性能显著下降。
基于这些局限性,后续研究转向了更具泛化能力的异常检测框架。传统的异常检测方法包括基于分类的方法、基于重建的方法和基于密度估计的方法。基于重建的模型,如自动编码器(AEs)[8]、变分自动编码器(VAEs)[9]和生成对抗网络(GANs)[10][11],通过重建错误来学习复制正常样本并检测异常。然而,面对复杂的纹理或结构化缺陷时,这些模型往往会产生模糊的重建结果,并且细节保留不足,限制了检测性能。
由于AE和GAN基方法在保留细节和复杂纹理方面的局限性,研究转向了基于扩散的生成模型。去噪扩散概率模型(DDPMs)[12]通过逐步添加噪声并学习逆向去噪过程来实现高保真的图像合成,因此非常适合异常检测。它们在医学成像领域也表现出强大的性能,例如在脑肿瘤检测[13]中,AutoDDPM[14]的表现超过了基于GAN的方法。尽管有这些优势,但由于在像素空间中的迭代采样,DDPMs在计算上仍然成本较高,限制了它们在现实工业场景中的可扩展性。
为了缓解这些问题,潜在扩散模型(LDMs)[15]在通过变分自动编码器获得的压缩潜在空间中进行扩散过程,显著降低了计算负担,同时保持了高视觉保真度。此外,LDMs结合了条件机制,如交叉注意力,允许可控和多模态生成,从而将其应用范围扩展到了除了图像合成之外的各种视觉任务。然而,尽管有这些改进,LDMs在重建过程中往往难以忠实保留语义信息,导致生成图像与原始图像之间存在不一致性。这一限制在异常检测中尤为关键,因为准确恢复正常结构是必不可少的——这也是我们工作的动机。
为了解决现有基于扩散方法的上述局限性,我们提出了MG-DDAD(Mask-Guided Denoising Diffusion for Anomaly Detection),这是一种新的框架,它通过掩码引导的重建来扩展潜在扩散,用于工业异常检测。与传统的LDMs不同,后者可能无法忠实保留语义信息,我们的方法在去噪过程中结合了掩码引导,使模型能够选择性地关注正常区域,同时避免异常区域的重建。这种设计不仅提高了重建的保真度,还改善了细粒度结构异常的定位。通过将生成过程与区域特定的先验对齐,MG-DDAD即使在缺陷微妙或高度结构化的复杂工业场景中也能实现更鲁棒和准确的检测。本工作的主要贡献总结如下:
- 我们引入了MG-DDAD,这是一种将区域级引导集成到潜在扩散中的掩码引导去噪扩散框架,用于工业异常检测。
- 通过利用掩码引导的监督,所提出的方法能够高保真地重建正常区域,同时有效地突出异常区域,从而提高检测的鲁棒性和定位准确性。
- 广泛的实验表明,MG-DDAD在图像级别和像素级别上都始终优于现有的最先进异常检测方法。
生成模型
传统的基于重建的异常检测方法,如自动编码器(AEs)[8]和变分自动编码器(VAEs)[9],旨在学习正常数据的紧凑潜在表示,并通过重建错误来检测异常。然而,这些方法在应用于复杂的工业纹理时往往会出现重建模糊和细节保留不足的问题。生成对抗网络(GANs)[10]通过对抗训练提高了视觉真实性,但
我们使用向量量化变分自动编码器(VQ-VAE)来学习一个离散的潜在空间,作为扩散建模的结构化先验。给定一个输入图像,编码器将其映射到一个潜在表示:,其中表示压缩后的潜在嵌入。