PAPL:基于粒子的自适应提示学习方法,用于零样本工业异常检测

《Pattern Recognition》:PAPL: Particle-based Adaptive Prompt Learning for Zero-Shot Industrial Anomaly Detection

【字体: 时间:2026年03月14日 来源:Pattern Recognition 7.6

编辑推荐:

  零样本工业异常检测中,提出基于粒子分布的提示学习框架PAPL,通过Stein变分梯度下降实现分布式优化,解决传统单点提示无法捕捉多模态缺陷的问题,结合多尺度特征提取和自适应采样策略,在七项工业基准测试中达到93.7%和96.8%的AUROC。

  
马瑞晨|李超|陈景龙|冯勇|谢静松
西安交通大学制造与系统工程国家重点实验室,中国西安710049

摘要

零样本工业异常检测是当代制造质量控制中的一个关键挑战,要求检测方法能够在没有预先接触特定缺陷类型的情况下识别异常模式。本文提出了PAPL(基于粒子的自适应提示学习)这一新颖的理论框架,它通过Stein变分梯度下降(SVGD)将提示学习重新概念化为一个分布优化问题。与传统方法追求单一最优提示不同,我们的方法维护了一个动态粒子系统,该系统能够捕捉工业异常的固有多模态特性。我们通过将提示优化视为对一组相互作用粒子的分布推断来消除对手工制作的文本模板的依赖,用多粒子表示替代了单点提示估计。此外,我们还通过分层视觉特征提取(HVFE)机制增强了检测能力,该机制结合了多尺度表示和最远点采样池化(FPS-Pooling)策略,选择性地聚合了具有区分性的空间区域。在七个工业基准测试中的全面实验表明,PAPL取得了最先进的性能,平均图像级AUROC为93.7%,像素级AUROC为96.8%,同时提供了对学习到的提示分布的可解释性洞察。

引言

在当代制造中,自动化质量控制的追求不断提高了工业异常检测在计算机视觉中的重要性[[1], [2], [3]]。制造过程本身会产生微妙的产品变化;区分可接受的波动和真正的缺陷通常需要超出人类视觉能力的细粒度模式识别[4,5]。这一挑战在真实生产线上尤为突出:一条生产线可能会遇到数百种潜在的缺陷类型——从微观表面瑕疵到复杂的结构变形——每种缺陷都表现出传统的建模方法难以处理的视觉特征[[6], [7], [8]]。尽管监督学习在受限环境中取得了显著的成功[[9], [10], [11], [12]],但将其扩展到实际工业应用通常是不可行的:为每种产品变体、材料成分和工艺构建全面的注释数据集成本过高。
视觉-语言模型的出现,特别是对比语言-图像预训练(CLIP)[13]及其后续模型[14,15],引发了零样本学习的范式转变。这些模型在庞大的互联网规模图像-文本对上进行训练,通过自然语言描述获得了能够泛化到未见概念的多模态表示[16,17]。在工业异常检测的背景下,这种能力原则上允许在无需明确监督特定异常类别的情况下识别缺陷,通过将视觉特征与正常和异常状态的文本描述对齐[[18], [19], [20]]。然而,直接将通用视觉-语言模型应用于工业任务暴露了一个长期存在的瓶颈:依赖于手工制作的文本提示,这些提示无法捕捉到区分工业异常和正常变化所需的细粒度视觉信息[21,22]。
在工业环境中进行提示工程面临的困难源于几个与通用识别任务不同的因素[23,24]。工业异常通常表现为纹理、几何形状或表面特性的微妙偏差,这些在自然语言中缺乏精确、易于使用的描述符[25,26]。例如,金属上的“细线裂纹”在语义上很难与“划痕”、“凹槽”或材料的固有纹理区分开来。此外,最佳文本描述会因材料、照明和视角的不同而大相径庭,使得静态提示模板无效[27,28]。现有方法试图使用可学习的提示令牌[29,30]、提示集合[31]和上下文感知的提示生成[32,33]来缓解这些问题。然而,它们都有一个根本的限制:提示学习被建模为嵌入空间中的点估计,要么寻找单一的最优提示,要么学习一小组独立的提示。这与工业异常的统计特性相矛盾,因为在不同的照明、视角和材料属性下,同一缺陷会产生多模态的特征模式[34]。在镜面照明下,金属划痕可能表现为明亮的不连续性,而在漫射照明下则表现为暗色凹槽——这些表示无法通过单一的嵌入向量共同捕捉。虽然离散的提示集合可以容纳多种模式,但它们需要手动指定提示数量,在独立优化时容易发生模式崩溃,并且无法模拟沿视觉流形的连续变化。
为了解决这一根本限制,我们将提示学习重新定义为近似有效提示的分布,而不是寻找孤立的最优值。我们的出发点是工业异常本质上是多形态的——相同的缺陷根据获取条件会产生多种有效的视觉表现——因此需要基于分布的提示表示,而不是基于点的提示表示。我们通过基于粒子的变分推断来实现这一点:一组相互作用的粒子根据Stein变分梯度下降(SVGD)[35]在参数空间中演化,共同逼近目标提示分布。粒子动态平衡了两种力量:一个由任务驱动的梯度项将粒子拉向高性能区域,以及一个核诱导的相互作用,防止崩溃并保持分布多样性。这带来了几个根本优势:粒子系统可以自动发现适当的模式数量和配置,而无需手动指定提示数量或进行初始化;连续的分布表示能够在不同异常方面之间实现平滑插值,提高对视觉变化的鲁棒性;最重要的是,核相互作用以系统的方式提供了原则性的多样性保持,抑制了模式崩溃[36]。同时,分布视图消除了对手工制作模板的依赖,让提示从数据和优化动态中自我组织。以启发式表述为中心的工作流程(例如,“[缺陷类型][对象]的照片”)不仅引入了人为偏见,也难以涵盖高度多样化的工业场景[[37], [38]]。我们提出的基于粒子的提示学习框架如图1所示。
与依赖于显式先验的方法不同,我们的实现采用了针对工业条件定制的非参数核相互作用和稳定性增强:我们采用逆多二次(IMQ)核[43]来保持远距离粒子之间的长距离相互作用,并将其与基于几何的逆平方排斥力结合使用,当多样性不足时动态激活,从而有效抵抗单模崩溃[39,40]。此外,我们为正常和异常提示维护了两个独立但可分离的粒子分布,鼓励足够的中心间距,同时避免过度的类内收缩,以提高决策边界的鲁棒性。为了训练-推理的一致性,我们仅使用轻量级的图像条件亲和力进行两种形式的路由:(i) 每个样本梯度的相似性加权聚合,以及 (ii) 基于注意力的每个位置的粒子集聚合到单个上下文向量中。这些元素是为了完整性而包含的,但不是作为核心创新来强调的。
除了提示学习本身之外,有效的零样本工业异常检测还需要适应检测细粒度需求的视觉表示。现有的视觉-语言模型主要在自然图像上进行训练,优先考虑语义抽象,而忽略了对于缺陷检测至关重要的局部表面细节[19,41]。为了弥合这一差距,我们提出了一种分层视觉特征提取(HVFE)机制,它融合了来自不同来源和尺度的互补编码器,结合了CLIP的语义强度和在捕获局部模式方面表现出色的自监督模型(如DINO[42])。分层注意力机制构建了一个多尺度金字塔,实现了从像素级细节到全局结构的自适应聚焦。
对于定位,我们解决了工业图像中缺陷的稀疏性和局部性问题。传统的全局池化对所有区域一视同仁,导致小的异常区域被大的正常背景稀释。因此,我们引入了最远点采样池化(FPS-Pooling),它根据预测的异常分数自适应地选择和聚合最具区分性的空间特征。这保持了表示多样性,同时将计算集中在最有可能包含缺陷的区域,显著提高了检测和定位的准确性。这三个组成部分——基于粒子的分布提示学习、分层特征提取和自适应池化——协同作用,形成了一个统一的框架,推进了零样本工业异常检测,同时保持了适合实际应用的效率。我们的主要贡献总结如下:
(1) 我们将基于粒子的变分推断引入视觉-语言模型的提示学习中,将点估计扩展到分布表示,显著提高了对工业异常多样性的覆盖范围。
  • (2) 我们开发了一种分层注意力机制,融合了来自互补编码器的多尺度特征,实现了从微观到结构尺度的精确定位。
  • (3) 我们提出了一种基于FPS的自适应池化策略,有效处理了高分辨率工业图像中异常的稀疏和局部特性。
  • (4) 通过在七个工业基准测试中的广泛实验,我们展示了平均93.7%的图像级AUROC和96.8%的像素级AUROC,以及对学习到的多模态提示分布的可解释性分析。
  • 本文的其余部分组织如下:第2节介绍方法,第3节提供实验分析,第4节总结本文。

    章节片段

    概述

    我们研究零样本工业缺陷检测,将其视为学习一个函数,该函数将输入图像x映射到一个二进制标签y{0,1}(正常 vs. 异常),在训练期间无法访问特定缺陷类型的标记实例。在视觉-语言设置中,决策是通过将图像表示与来自描述正常和异常状态的提示的文本嵌入进行比较来产生的。核心难点在于制作能够忠实捕捉微妙且条件依赖的提示

    概述

    我们在多样化的工业异常检测数据集上对提出的PAPL框架进行了全面评估,这些数据集涵盖了广泛的异常类型、纹理和尺度。本研究使用的数据集包括MVTec-AD [25]、VisA [48]、MPDD [49]、BTAD [50]、KSDD [51] 和 DTD [8]。遵循之前的工作[19,20],我们在一个工业数据集上进行辅助训练,然后直接在其他工业数据集上进行推理。MVTec-AD数据集作为主要

    结论

    本文介绍了PAPL,这是一个零样本工业异常检测框架,它将提示学习重新概念化为通过基于粒子的变分优化的分布推断,使用Stein变分梯度下降。与单点提示或手工设计的模板不同,PAPL维护了多模态提示分布,能够更好地覆盖从微妙的表面划痕到复杂结构缺陷的各种异常表现。该框架整合了基于粒子的

    CRediT作者贡献声明

    马瑞晨:撰写——原始草稿,方法论。李超:撰写——原始草稿,方法论。陈景龙:撰写——审阅与编辑,监督。冯勇:验证。谢静松:验证。

    利益冲突声明

    作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。

    致谢

    作者衷心感谢所有匿名审稿人的宝贵意见,这些意见极大地帮助改进了手稿。
    本研究得到了液体火箭发动机实验室(编号2024JJ015006)、国家自然科学基金(编号52565009)、陕西省自然科学基础研究计划项目(编号2024JC-TBZC-08)和中央高校基本研究经费(编号XZY022024089)的财政支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号