工业视觉异常检测是一种关键技术,用于识别和定位制造产品中的异常,从而有助于降低异常率和运营成本。由于异常样本的固有稀缺性,近期研究主要集中在仅使用正常数据进行训练的无监督学习方法上。这些方法大致可以分为两类:1)基于嵌入的方法(Batzner, Heckler, K?nig, 2024; Defard, Setkov, Loesch, Audigier, 2021; Jiang, Liu, Yan, Wei, Cui, 2025; Liu, Zhou, Xu, Wang, 2023),这些方法利用深度特征表示来检测和定位异常;2)基于重建的方法(Chen, You, Zhang, Xi, Le, 2022; Yao, Liu, Yin, Yan, Hong, Zuo, 2024; Zhao, 2023),这些方法试图通过重建图像与原始图像之间的差异来识别异常。
尽管这些方法很有用,但仅依赖正常数据会显著限制它们的检测能力。为了解决这一限制,已经提出了一些合成异常的策略。其中,非生成方法(Chen, Luo, Lv, Zhang, 2024; Jia, Chen, 2025; Li, Sohn, Yoon, Pfister, 2021; Zavrtanik, Kristan, Sko?aj, 2021)通过对正常图像应用确定性或随机扰动来合成异常。然而,这些合成的异常往往缺乏视觉真实感,无法捕捉现实世界异常的复杂统计特性。相比之下,生成方法(如DFMGAN(Duan et al., 2023)和RealNet(Zhang et al., 2024)使用生成对抗网络或扩散模型来生成更逼真的异常。然而,这些方法不能立即应用于新场景,因为它们依赖于训练,通常需要额外的调整或微调。
在本文中,我们提出了一种基于基础模型的异常合成(FMAS)流程,该流程整合了基础模型的能力,包括GPT-4(Achiam et al., 2023)、Segment Anything Model(SAM)(Kirillov et al., 2023)和Stable Diffusion(Podell et al., 2023),无需模型微调或针对特定类别的训练即可合成高度真实的异常数据。具体来说,GPT-4用于自动生成描述性提示,以指导图像合成过程。SAM用于分割前景对象并为后续的异常生成提供空间上下文。然后利用Stable Diffusion根据生成的提示在图像中绘制合理的异常。然而,由于缺乏特定任务的约束,生成过程可能包含一定程度的随机性,这偶尔会导致质量不达标或过度失真的样本。为了解决这个问题,我们引入了一种称为“选择器”的过滤机制,自动排除此类低质量输出。图1展示了代表性的定性结果。
我们使用离散小波变换(DWT)分析合成和真实异常,捕捉它们的空间-频率特征。分析显示,异常特征在四个子带(LL、LH、HL、HH)上的显著性各不相同,如图2所示,缺陷位置被突出显示并放大以便清晰观察。为了进一步量化这一观察结果,表1报告了像素级变化测量值,通过计算每个类别中正常图像与异常图像对之间的绝对差异,对数据集进行平均,并在子带之间进行归一化。结果表明,异常特征在子带间的分布不均匀,这突显了基于子带感知的建模对有效异常检测的潜在益处。
基于这些发现,我们提出根据图像组件的不同频率特征进行分别处理。具体来说,我们提出的小波域注意力模块(WDAM)动态地为每个小波子带分配可学习的权重,权重分布被优化以放大对异常敏感的频率成分,同时抑制无关特征。WDAM首先将输入特征分解为小波子带,然后根据异常的显著性为每个子带应用自适应注意力权重。通过逆离散小波变换重建加权特征,有效放大与异常相关的模式,同时保留空间信息。通过动态增强特定频率的特征,WDAM显著提高了异常检测任务中的异常灵敏度和特征区分度。WDAM作为一个即插即用模块,可以无缝集成到现有网络架构中。
总结如下:
•我们提出了一种基于基础模型的异常合成(FMAS)流程,该流程无需模型微调或针对特定类别的训练即可生成高度真实的异常样本
•基于频域分析,我们引入了小波域注意力模块(WDAM),这是一个在
小波子带级别操作的即插即用组件。通过自适应学习每个频率带的重要性,WDAM通过特征增强显著提高了异常检测能力
•在MVTec AD(Bergmann et al., 2019)和VisA(Zou et al., 2022)上的实验表明,FMAS与WDAM的结合在异常检测性能上取得了持续的改进。在另外两种网络架构上的进一步评估也证实了WDAM增强了异常特征提取,并显示出广泛的适用性
本文的其余部分组织如下。第2节回顾了相关工作。第3节详细介绍了所提出的异常检测方法。第4节提供了广泛的实验和基准测试评估,第5节为结论。