用于工业质量检测的少量样本异常检测旨在仅使用少量无缺陷样本来识别生产缺陷。在智能制造中,这是一个关键挑战(Li, Goodge, Liu, & Foo (2024); Yu, Zhu, Cao, Xia, & Kang (2024))。此类技术也被广泛用于医学成像(Zhou, Pang, Tian, He, & Chen (2023a); Zhu & Pang (2024))和视频监控(Liu, He, Zhang, & Li (2024); Sultani, Chen, & Shah (2018); Wang, Li, Luo, Lv, & Zhang (2024b))。以往的研究(Guo et al. (2023); Lei, Hu, Wang, & Liu (2023); Li, Sohn, Yoon, & Pfister (2021))主要集中在无监督训练上。然而,这些方法需要大量的正常图像。实际上,由于现实世界的限制,收集各种类别的大量图像是非常具有挑战性的。因此,少量样本和零样本异常检测开始受到广泛关注。这是一个具有挑战性的任务,旨在仅使用少量的正常样本来实现有效的缺陷识别,从而完成分类和分割等任务。
近年来,对比语言-图像预训练(CLIP)模型在各种零样本/少量样本任务中展示了出色的泛化能力。在CLIP成功应用的基础上,最近的研究通过使用与异常相关的语义来指导异常区域的检测,将其应用于少量样本/零样本异常检测任务。具体来说,视觉编码器将异常图像映射到更接近文本异常的视觉特征(Lin et al. (2023); Zhou, Lei, Zhang, Liu, & Liu (2023b))。一些方法专注于增强CLIP的补丁级特征表示(Cao et al. (2024); Chen, Han, & Zhang (2023); Gao et al. (2022); Zhu et al. (2023)以更好地与文本特征对齐。然而,大多数这些先前方法依赖于具有异常意识的语文本征来有效区分异常。进一步的研究(WinCLIP)直接利用CLIP的语义理解能力,构建文本提示并使用滑动窗口机制来捕捉不同大小的缺陷,从而展示了出色的零样本/少量样本异常检测性能。此外,为了保持CLIP的泛化能力,文本处理完全依赖于CLIP的原始编码器,因此语义对齐只能通过手动设计的提示模板来优化。这不仅阻止了文本特征的动态调整,还限制了模型在工业异常检测中的有效性。
根据我们的观察(如图1(a)所示),一些现有的基于CLIP的方法采用端到端训练,并仅使用CLIP提取文本特征和全局视觉特征进行图像检测。因此,这些模型在某种程度上忽略了多层空间特征的提取和利用。为了保持CLIP的泛化能力,大多数方法也仅依赖于CLIP的文本编码器。这种方法阻止了文本特征动态适应工业语义,从而只能依赖手动设计的提示模板进行语义校准。因此,为了解决这个问题并进一步提高工业场景中异常检测的性能,我们提出了基于CLIP的文本引导的视觉残差融合(TGRF-CLIP)。实际上,为了更好地使CLIP与工业缺陷检测的语义要求对齐,我们选择在文本编码器的浅层插入一个轻量级的文本适配器。然而,我们发现,虽然插入这样的适配器可以增强语义对齐,但在端到端训练过程中也会引入参数冲突。这些冲突指的是梯度干扰,它会损害CLIP的预训练特征和跨模态对齐。这些冲突不仅削弱了CLIP的固有跨域泛化能力,还混淆了视觉特征,使得区分微妙的工业缺陷和正常纹理变得困难。为了解决这个问题,我们随后提出了一个两阶段训练方法(如图1(b)所示)。
首先,在CLIP的骨干网络被冻结的情况下,我们训练一个轻量级的文本适配器和一个替代的语义投影层来学习特定于工业类别的正常/异常语义锚点。与AA-CLIP(Ma et al. (2025)不同,我们的锚点不是通用的异常信号,而是为检测任务中的目标工业对象类别(例如,电缆、瓶子)量身定制的动态表示。这个阶段确保了准确捕获工业正常/异常语义差异,同时避免覆盖CLIP的预训练知识。其次,在CLIP的骨干网络仍然被冻结的情况下,我们引入了一个多层次的空间特征残差学习机制。我们进一步将文本语义引导集成到残差计算和融合中,进行联合处理,以提高模型对工业缺陷的敏感性。
总的来说,我们的贡献可以总结如下:
- •
我们设计了一个轻量级的文本适配器,它可以动态学习工业语义锚点。它利用浅层适应和语义投影来减少对手工制作提示的依赖。
- •
我们提出了一种文本引导的视觉残差融合机制。它在语义锚点的引导下计算和融合多层次视觉残差,有效弥合了通用视觉特征和特定缺陷语义之间的差距。
- •
我们构建了一个两阶段解耦的训练范式。它从专门的文本适应逐步发展到联合的视觉-文本优化,解决了参数冲突同时提高了对缺陷的敏感性。
- •
广泛的实验表明,我们的方法在各种工业数据集中的性能优于现有方法。