TGRF-CLIP：基于CLIP的文本引导的视觉残差融合方法，用于少样本异常检测

《Expert Systems with Applications》：TGRF-CLIP: CLIP-Based Text-Guided Fusion of Visual Residuals for Few-Shot Anomaly Detection

【字体：大中小】 时间：2026年05月10日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　严洪亮 | 徐新顺山东大学软件学院，中国山东省济南市，250101摘要少量样本异常检测（FSAD）在工业质量检测中仍然是一个关键挑战。基于对比语言-图像预训练（CLIP）的现有方法通常会冻结文本编码器以保持泛化能力，仅依赖于手工制作的提示模板和端到端训练，这限制了它们动态适应工业

严洪亮 | 徐新顺

山东大学软件学院，中国山东省济南市，250101

摘要

少量样本异常检测（FSAD）在工业质量检测中仍然是一个关键挑战。基于对比语言-图像预训练（CLIP）的现有方法通常会冻结文本编码器以保持泛化能力，仅依赖于手工制作的提示模板和端到端训练，这限制了它们动态适应工业缺陷文本特征的能力。为了解决这些限制，我们提出了基于CLIP的文本引导残差融合（TGRF-CLIP），这是一种在保持CLIP缺陷识别能力的同时增强其泛化能力的文本引导融合框架。具体来说，TGRF-CLIP通过两阶段训练策略实现，从专门优化逐步发展到联合优化。首先，一个轻量级的文本适配器和语义投影层学习工业正常/异常语义，减少了对推理过程中手工制作提示工程的依赖。其次，多层次视觉残差在文本语义的指导下进行融合，实现了面向缺陷的融合，并防止了通用特征和特定缺陷特征之间的脱节。广泛实验表明，TGRF-CLIP在少量样本设置下的性能优于现有方法，在VisA和MVTec AD上分别取得了90.7%和97.0%的竞争性AUROC分数。

引言

用于工业质量检测的少量样本异常检测旨在仅使用少量无缺陷样本来识别生产缺陷。在智能制造中，这是一个关键挑战（Li, Goodge, Liu, & Foo (2024); Yu, Zhu, Cao, Xia, & Kang (2024)）。此类技术也被广泛用于医学成像（Zhou, Pang, Tian, He, & Chen (2023a); Zhu & Pang (2024)）和视频监控（Liu, He, Zhang, & Li (2024); Sultani, Chen, & Shah (2018); Wang, Li, Luo, Lv, & Zhang (2024b)）。以往的研究（Guo et al. (2023); Lei, Hu, Wang, & Liu (2023); Li, Sohn, Yoon, & Pfister (2021)）主要集中在无监督训练上。然而，这些方法需要大量的正常图像。实际上，由于现实世界的限制，收集各种类别的大量图像是非常具有挑战性的。因此，少量样本和零样本异常检测开始受到广泛关注。这是一个具有挑战性的任务，旨在仅使用少量的正常样本来实现有效的缺陷识别，从而完成分类和分割等任务。

近年来，对比语言-图像预训练（CLIP）模型在各种零样本/少量样本任务中展示了出色的泛化能力。在CLIP成功应用的基础上，最近的研究通过使用与异常相关的语义来指导异常区域的检测，将其应用于少量样本/零样本异常检测任务。具体来说，视觉编码器将异常图像映射到更接近文本异常的视觉特征（Lin et al. (2023); Zhou, Lei, Zhang, Liu, & Liu (2023b)）。一些方法专注于增强CLIP的补丁级特征表示（Cao et al. (2024); Chen, Han, & Zhang (2023); Gao et al. (2022); Zhu et al. (2023）以更好地与文本特征对齐。然而，大多数这些先前方法依赖于具有异常意识的语文本征来有效区分异常。进一步的研究（WinCLIP）直接利用CLIP的语义理解能力，构建文本提示并使用滑动窗口机制来捕捉不同大小的缺陷，从而展示了出色的零样本/少量样本异常检测性能。此外，为了保持CLIP的泛化能力，文本处理完全依赖于CLIP的原始编码器，因此语义对齐只能通过手动设计的提示模板来优化。这不仅阻止了文本特征的动态调整，还限制了模型在工业异常检测中的有效性。

根据我们的观察（如图1(a)所示），一些现有的基于CLIP的方法采用端到端训练，并仅使用CLIP提取文本特征和全局视觉特征进行图像检测。因此，这些模型在某种程度上忽略了多层空间特征的提取和利用。为了保持CLIP的泛化能力，大多数方法也仅依赖于CLIP的文本编码器。这种方法阻止了文本特征动态适应工业语义，从而只能依赖手动设计的提示模板进行语义校准。因此，为了解决这个问题并进一步提高工业场景中异常检测的性能，我们提出了基于CLIP的文本引导的视觉残差融合（TGRF-CLIP）。实际上，为了更好地使CLIP与工业缺陷检测的语义要求对齐，我们选择在文本编码器的浅层插入一个轻量级的文本适配器。然而，我们发现，虽然插入这样的适配器可以增强语义对齐，但在端到端训练过程中也会引入参数冲突。这些冲突指的是梯度干扰，它会损害CLIP的预训练特征和跨模态对齐。这些冲突不仅削弱了CLIP的固有跨域泛化能力，还混淆了视觉特征，使得区分微妙的工业缺陷和正常纹理变得困难。为了解决这个问题，我们随后提出了一个两阶段训练方法（如图1(b)所示）。

首先，在CLIP的骨干网络被冻结的情况下，我们训练一个轻量级的文本适配器和一个替代的语义投影层来学习特定于工业类别的正常/异常语义锚点。与AA-CLIP（Ma et al. (2025)不同，我们的锚点不是通用的异常信号，而是为检测任务中的目标工业对象类别（例如，电缆、瓶子）量身定制的动态表示。这个阶段确保了准确捕获工业正常/异常语义差异，同时避免覆盖CLIP的预训练知识。其次，在CLIP的骨干网络仍然被冻结的情况下，我们引入了一个多层次的空间特征残差学习机制。我们进一步将文本语义引导集成到残差计算和融合中，进行联合处理，以提高模型对工业缺陷的敏感性。

总的来说，我们的贡献可以总结如下：

•
我们设计了一个轻量级的文本适配器，它可以动态学习工业语义锚点。它利用浅层适应和语义投影来减少对手工制作提示的依赖。
•
我们提出了一种文本引导的视觉残差融合机制。它在语义锚点的引导下计算和融合多层次视觉残差，有效弥合了通用视觉特征和特定缺陷语义之间的差距。
•
我们构建了一个两阶段解耦的训练范式。它从专门的文本适应逐步发展到联合的视觉-文本优化，解决了参数冲突同时提高了对缺陷的敏感性。
•
广泛的实验表明，我们的方法在各种工业数据集中的性能优于现有方法。

章节摘录

异常检测

传统的异常检测方法通常建立在无监督学习框架之上。单类分类方法（Bergman & Hoshen (2020）学习形成决策边界的支持向量，以包含正常样本同时排除异常。例如，Chen等人（Chen, Tian, Pang, & Carneiro (2022）采用了特征插值技术来锐化正常类边界，从而显著提高了深度单类分类的性能。Liu等人（Liu）

概述

我们的TGRF-CLIP通过两阶段训练策略解决了CLIP在少量样本工业异常检测中的关键限制。如图2所示，第一阶段通过将一个轻量级的文本适配器插入CLIP的文本编码器来关注语义增强。通过正交约束优化，该适配器学习了特定于工业领域的区分性正常和异常语义锚点，同时保持了CLIP的原始泛化能力。第二阶段

数据集

为了验证TGRF-CLIP方法的有效性，我们在五个真实的异常检测（AD）数据集上进行了全面实验，即MVTec AD（Bergmann, Fauser, Sattlegger, & Steger (2019）、VisA（Zou, Jeong, Pemula, Zhang, & Dabeer (2022）、AITEX（Silvestre-Blanes, Albero-Albero, Miralles, Pérez-Llorens, & Moreno (2019）、ELPV（Deitsch et al. (2019）和Real-IAD（Wang et al. (2024a)）。我们的实验训练基于MVTec AD和VisA。这两个数据集都包含多个子集：

限制和未来方向

尽管TGRF-CLIP在少量样本工业异常检测中表现优异，但我们承认当前方法存在局限性。该模型在具有密集排列的重复正常纹理的多实例工业样本上存在不可忽视的误报风险，因为我们的语义锚点缺乏对这些特殊场景的正常语义的细粒度学习，这也是本文中提出的主要失败案例。因此，我们提出了两个具体的未来研究方向

结论

在这项工作中，我们提出了TGRF-CLIP，这是一种用于少量样本工业异常检测的文本引导的多层次残差框架，旨在解决工业场景中注释数据有限和精细缺陷识别关键挑战的问题。它通过渐进的两阶段训练策略有效缓解了语义适应和残差学习之间的冲突。TGRF-CLIP在复杂类别中表现出强大的泛化能力，并且具有一致性和显著性

CRediT作者贡献声明

严洪亮：概念化、数据策划、形式分析、方法论、软件、可视化、写作——原始草稿、调查、验证。徐新顺：概念化、方法论、资金获取、项目管理、监督、写作——原始草稿、写作——审稿与编辑。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

摘要

引言

章节摘录

异常检测

概述

数据集

限制和未来方向

结论

CRediT作者贡献声明

利益冲突声明

热点排行