一种基于CLIP和LLM的开源词汇工业异常检测方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Advanced Engineering Informatics》：An Open-Vocabulary Industrial Anomaly Detection method based on CLIP and LLM

【字体：大中小】 时间：2026年03月18日 来源：Advanced Engineering Informatics 9.9

编辑推荐：

　　工业零样本异常检测模型通过CLIP与LLM协同优化，提出异常感知提示学习（GAPL）和LLM驱动的专家提示工程（LEPE），结合异构特征协作架构（HFCA）和测试时上下文评分策略（TCS），有效解决跨生产线泛化与语义漂移问题。

王俊雄|李春瑞|张毅|刘子伟

四川大学计算机科学学院，成都，610065，四川，中国

摘要

基于视觉的工业异常检测（IAD）面临着两个挑战：一是标注数据稀缺，二是需要在智能制造中实现跨生产线的泛化。然而，现有的基于CLIP的开箱即用方法受到手动模板语义偏差的局限，且在检测多尺度缺陷时存在盲点。在本文中，我们提出了一种具有跨数据集泛化能力的零样本IAD模型。该模型基于对比语言-图像预训练（CLIP）和大型语言模型（LLM）。首先，我们开发了一个通用的异常感知提示学习器，用于在图像中对一般正常/异常模式进行粗粒度定位。其次，构建了一个由LLM驱动的专家提示工程，用于描述特定对象的异常特征，其中LLM用于生成和优化标准提示模板，并利用多模态融合机制来解决手动模板语义覆盖不足的问题。第三，我们阐明了一种异构特征协作架构，以抑制背景噪声。最后，我们提出了一种测试时上下文评分策略，在推理阶段过滤掉响应较低的异常提示噪声，从而提高模型对异常语义的分类能力。在6个公共数据集上的实验结果表明，我们的模型性能优于其他流行方法，为开箱即用IAD提供了一种新的技术范式。代码将通过https://github.com/1192207336/CLOVAS发布。

引言

IAD在现代工业制造过程中发挥着关键作用，其目标是自动识别和定位工业产品中的缺陷或异常，从而提高生产效率并降低劳动力成本。在传统的工业生产中，异常检测主要依赖于人工视觉检查，这种方法效率低下、主观性强且容易疲劳。随着计算机视觉和深度学习技术的发展，IAD经历了重大变革。对于基于视觉的IAD，主要研究焦点是如何在有限的已知正常/异常样本的基础上检测未知类型的异常（即零样本）。零样本方法在工业应用中的实际价值显著，原因有二：首先，在工业制造中，不同对象之间的相似异常（如“划痕”）可能具有不同的视觉模式。传统的监督/半监督方法难以覆盖长尾异常分布、动态工艺变化和数据隐私限制下的所有类型缺陷。其次，由于材料、工艺或环境因素，缺陷形态可能会发生不可预测的变化。在这种情况下，零样本方法可以直接使用文本描述来检测新缺陷，而无需额外标注。此外，少量样本方法（即使用少量正常样本）可以进一步提高模型的鲁棒性和泛化能力。

早期的IAD方法[1]、[2]、[3]主要采用了无监督重建方法（例如自动编码器[4]、GAN[5]）和手工制作的特征匹配技术（例如SIFT[6]）。前者通过图像重建错误来识别异常，后者通过使用工程化的局部描述符进行模板匹配来检测偏差。然而，这些方法对图像纹理很敏感。近年来，视觉语言模型（VLMs）的兴起为IAD注入了新的活力。CLIP[7]通过联合学习图像和文本之间的语义对齐实现了零样本图像分类和语义分割。它已被引入到IAD任务中（例如AnomalyCLIP[8]和WinCLIP[9]），将异常检测问题转化为视觉-文本匹配任务。它使用自然语言描述来定义异常类别，从而摆脱了对特定数据分布的依赖。其主要优势在于其开箱即用能力，即无需预定义异常类型即可检测未知缺陷，这满足了工业场景中异常形式的动态变化需求。然而，现有的基于CLIP的IAD方法仍面临几个挑战：首先，CLIP的通用视觉表示可能无法捕捉工业场景中的缺陷（即领域偏移）；其次，工业缺陷的语义描述往往具有多样性和特殊性，而简单的文本难以满足所有实际需求。同时，LLM的推理和上下文理解能力为IAD提供了新的思路。例如，Myriad[10]将视觉专家模块与LLM集成，实现了异常的多模态描述和交互式诊断。它试图弥合视觉特征和语义知识之间的差距，但其架构复杂性和计算成本阻碍了其在工业场景中的应用。

为了解决CLIP的领域偏移和跨对象歧义问题以及传统方法的可解释性不足问题，本文提出了一种新的开箱即用IAD框架，该框架结合了专家提示工程和多模态对齐。它赋予CLIP粗粒度异常定位和细粒度异常语义分析的能力。其次，我们利用LLM根据不同对象之间异常类别的共性提取异常超类。它生成专家提示，指导CLIP通过组合粗粒度异常定位图创建细粒度语义掩码。第三，我们开发了一种协作架构来解决局部语义漂移问题，通过重构视觉编码器来强制对齐视觉特征投影方向。最后，我们提出了一种动态评分机制，以解决工业混合生产线检测中的跨对象语义歧义问题。我们的模型在零样本条件下实现了异常区域的准确分割和语义类别的识别，为复杂工业环境下的多类别检测提供了理论上的完整且工程上可行的解决方案。简而言之，本文的主要贡献可以总结如下：

•
开发了一个通用的异常感知提示学习器（GAPL），它整合了全局视觉嵌入来学习二进制提示向量，并通过计算视觉-文本相似性实现异常区域的粗粒度定位。
•
提出了一种由LLM驱动的专家提示工程（LEPE）以及基于LLM的IAD数据集专家提示生成器，该生成器自动生成细粒度的异常超类提示。同时，采用了一种对象感知的语义融合机制来解决语义漂移问题。
•
设计了一种异构特征协作架构（HFCA），用于修改CLIP视觉编码器，以减少背景噪声引起的语义漂移。同时，引入了一种双流特征保留机制，以并行方式保留原始计算路径和转换后的语义对齐路径。
•
提出了一种测试时上下文评分（TCS）机制，使用区间距离测量来过滤掉不太相关和噪声较大的提示。

我们提出的模型在6个主流IAD数据集上的有效性已经得到验证，在这些数据集中，我们的模型取得了最佳的整体性能。

部分摘录

视觉-语言预训练

视觉-语言预训练技术的出现标志着多模态学习[7]、[11]、[12]、[13]的重要突破，它通过大规模图像-文本对学习跨模态对齐表示，为下游任务构建了一个通用的视觉-语言共享语义空间。作为里程碑，CLIP[7]基于大量图像-文本对对VLM进行了编码，并在共享的嵌入空间中建立了跨模态语义关联。它展示了强大的泛化能力

方法

我们提出的方法将在本节中详细描述。整体架构如图1所示。输入图像

I

首先将由视觉编码器编码，生成全局视觉嵌入

g

和局部补丁特征

H

。然后，我们提出的GAPL和LEPE将分别生成粗粒度的通用提示

T_{b}

和细粒度的专家提示

{\overset{?}{T}}_{g}

。在[8]中引入的文本提示调优基础上，我们将可学习令牌集成到文本编码器中以进行调整

数据集

我们在6个公共数据集上进行了广泛的实验，包括MVTec AD [29]、VisA [30]、MPDD [31]、BTAD [32]、SDD [33] 和 DTD [34]。MVTec AD [29] 和 VisA [30] 包含大量高分辨率的工业图像（MVTec AD为700 × 700和1024 × 1024，VisA约为1500 × 1000），并附有相应的注释。MVTec AD包含10个单目标对象和5个纹理对象，每个对象类别包含大量异常类别（如孔洞等）

结论

在本文中，我们提出了一种具有跨数据集泛化能力的零样本IAD模型。这是一个基于CLIP和LLM协同优化的开箱即用框架。为此，通过使用GAPL和LEPE，实现了从像素级异常定位到细粒度语义分类的端到端检测能力。为了解决CLIP在工业场景中的语义偏差问题，HFCA重构了视觉的自注意力投影矩阵

CRediT作者贡献声明

王俊雄：验证、软件、调查。李春瑞：软件、资源、方法论。张毅：写作 – 审稿与编辑、撰写 – 原稿、项目管理、数据管理、概念化。刘子伟：可视化。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号