在当代制造中,自动化质量控制的追求不断提高了工业异常检测在计算机视觉中的重要性[[1], [2], [3]]。制造过程本身会产生微妙的产品变化;区分可接受的波动和真正的缺陷通常需要超出人类视觉能力的细粒度模式识别[4,5]。这一挑战在真实生产线上尤为突出:一条生产线可能会遇到数百种潜在的缺陷类型——从微观表面瑕疵到复杂的结构变形——每种缺陷都表现出传统的建模方法难以处理的视觉特征[[6], [7], [8]]。尽管监督学习在受限环境中取得了显著的成功[[9], [10], [11], [12]],但将其扩展到实际工业应用通常是不可行的:为每种产品变体、材料成分和工艺构建全面的注释数据集成本过高。
视觉-语言模型的出现,特别是对比语言-图像预训练(CLIP)[13]及其后续模型[14,15],引发了零样本学习的范式转变。这些模型在庞大的互联网规模图像-文本对上进行训练,通过自然语言描述获得了能够泛化到未见概念的多模态表示[16,17]。在工业异常检测的背景下,这种能力原则上允许在无需明确监督特定异常类别的情况下识别缺陷,通过将视觉特征与正常和异常状态的文本描述对齐[[18], [19], [20]]。然而,直接将通用视觉-语言模型应用于工业任务暴露了一个长期存在的瓶颈:依赖于手工制作的文本提示,这些提示无法捕捉到区分工业异常和正常变化所需的细粒度视觉信息[21,22]。
在工业环境中进行提示工程面临的困难源于几个与通用识别任务不同的因素[23,24]。工业异常通常表现为纹理、几何形状或表面特性的微妙偏差,这些在自然语言中缺乏精确、易于使用的描述符[25,26]。例如,金属上的“细线裂纹”在语义上很难与“划痕”、“凹槽”或材料的固有纹理区分开来。此外,最佳文本描述会因材料、照明和视角的不同而大相径庭,使得静态提示模板无效[27,28]。现有方法试图使用可学习的提示令牌[29,30]、提示集合[31]和上下文感知的提示生成[32,33]来缓解这些问题。然而,它们都有一个根本的限制:提示学习被建模为嵌入空间中的点估计,要么寻找单一的最优提示,要么学习一小组独立的提示。这与工业异常的统计特性相矛盾,因为在不同的照明、视角和材料属性下,同一缺陷会产生多模态的特征模式[34]。在镜面照明下,金属划痕可能表现为明亮的不连续性,而在漫射照明下则表现为暗色凹槽——这些表示无法通过单一的嵌入向量共同捕捉。虽然离散的提示集合可以容纳多种模式,但它们需要手动指定提示数量,在独立优化时容易发生模式崩溃,并且无法模拟沿视觉流形的连续变化。
为了解决这一根本限制,我们将提示学习重新定义为近似有效提示的分布,而不是寻找孤立的最优值。我们的出发点是工业异常本质上是多形态的——相同的缺陷根据获取条件会产生多种有效的视觉表现——因此需要基于分布的提示表示,而不是基于点的提示表示。我们通过基于粒子的变分推断来实现这一点:一组相互作用的粒子根据Stein变分梯度下降(SVGD)[35]在参数空间中演化,共同逼近目标提示分布。粒子动态平衡了两种力量:一个由任务驱动的梯度项将粒子拉向高性能区域,以及一个核诱导的相互作用,防止崩溃并保持分布多样性。这带来了几个根本优势:粒子系统可以自动发现适当的模式数量和配置,而无需手动指定提示数量或进行初始化;连续的分布表示能够在不同异常方面之间实现平滑插值,提高对视觉变化的鲁棒性;最重要的是,核相互作用以系统的方式提供了原则性的多样性保持,抑制了模式崩溃[36]。同时,分布视图消除了对手工制作模板的依赖,让提示从数据和优化动态中自我组织。以启发式表述为中心的工作流程(例如,“[缺陷类型][对象]的照片”)不仅引入了人为偏见,也难以涵盖高度多样化的工业场景[[37], [38]]。我们提出的基于粒子的提示学习框架如图1所示。
与依赖于显式先验的方法不同,我们的实现采用了针对工业条件定制的非参数核相互作用和稳定性增强:我们采用逆多二次(IMQ)核[43]来保持远距离粒子之间的长距离相互作用,并将其与基于几何的逆平方排斥力结合使用,当多样性不足时动态激活,从而有效抵抗单模崩溃[39,40]。此外,我们为正常和异常提示维护了两个独立但可分离的粒子分布,鼓励足够的中心间距,同时避免过度的类内收缩,以提高决策边界的鲁棒性。为了训练-推理的一致性,我们仅使用轻量级的图像条件亲和力进行两种形式的路由:(i) 每个样本梯度的相似性加权聚合,以及 (ii) 基于注意力的每个位置的粒子集聚合到单个上下文向量中。这些元素是为了完整性而包含的,但不是作为核心创新来强调的。
除了提示学习本身之外,有效的零样本工业异常检测还需要适应检测细粒度需求的视觉表示。现有的视觉-语言模型主要在自然图像上进行训练,优先考虑语义抽象,而忽略了对于缺陷检测至关重要的局部表面细节[19,41]。为了弥合这一差距,我们提出了一种分层视觉特征提取(HVFE)机制,它融合了来自不同来源和尺度的互补编码器,结合了CLIP的语义强度和在捕获局部模式方面表现出色的自监督模型(如DINO[42])。分层注意力机制构建了一个多尺度金字塔,实现了从像素级细节到全局结构的自适应聚焦。
对于定位,我们解决了工业图像中缺陷的稀疏性和局部性问题。传统的全局池化对所有区域一视同仁,导致小的异常区域被大的正常背景稀释。因此,我们引入了最远点采样池化(FPS-Pooling),它根据预测的异常分数自适应地选择和聚合最具区分性的空间特征。这保持了表示多样性,同时将计算集中在最有可能包含缺陷的区域,显著提高了检测和定位的准确性。这三个组成部分——基于粒子的分布提示学习、分层特征提取和自适应池化——协同作用,形成了一个统一的框架,推进了零样本工业异常检测,同时保持了适合实际应用的效率。我们的主要贡献总结如下:
(1) 我们将基于粒子的变分推断引入视觉-语言模型的提示学习中,将点估计扩展到分布表示,显著提高了对工业异常多样性的覆盖范围。
(2) 我们开发了一种分层注意力机制,融合了来自互补编码器的多尺度特征,实现了从微观到结构尺度的精确定位。
(3) 我们提出了一种基于FPS的自适应池化策略,有效处理了高分辨率工业图像中异常的稀疏和局部特性。
(4) 通过在七个工业基准测试中的广泛实验,我们展示了平均93.7%的图像级AUROC和96.8%的像素级AUROC,以及对学习到的多模态提示分布的可解释性分析。
本文的其余部分组织如下:第2节介绍方法,第3节提供实验分析,第4节总结本文。