《Knowledge-Based Systems》:SAM-IAD: Injecting Specific Knowledge into SAM for Industrial Anomaly Detection
编辑推荐:
视觉异常检测框架SAM-IAD通过跨颜色空间映射获取图像和特征残差,将特征残差作为mask提示注入Segment Anything Model(SAM),并引入可学习的异常相关适配器优化冻结的图像编码器,有效结合细粒度图像信息和语义特征,显著提升异常分割精度和泛化能力,实验表明在多个基准数据集上达到最优性能。
陈一驰|陈斌|冼伟志|王俊杰|龚欣怡|韩建文|陶显
中国科学院成都计算机应用研究所,中国成都,610041
摘要
无监督视觉异常检测在智能制造中起着关键作用,其目标是通过仅使用正常样本进行训练来识别与正常模式的偏差。现有方法从图像或预训练特征中建模正常分布,忽略了细粒度信息和语义信息之间的互补性,这限制了异常分割的精确度和泛化能力。为此,提出了一种名为SAM-IAD的新框架,旨在将来自图像和特征空间的知识有效注入到Segment Anything Model(SAM)中,以实现高质量的异常分割和检测。具体而言,首先通过提出的跨颜色空间映射获得由图像和特征残差表示的异常知识。随后,使用图像残差作为输入与特征残差进行交互,特征残差作为掩码提示,有效地将特定的异常知识注入SAM中。此外,还在SAM的冻结图像编码器中引入了可学习的异常相关适配器,以实现高效微调,旨在保留SAM中的通用先验知识,以便能够精确分割各种异常对象。在MVTec AD、VisA和DAGM基准测试上的广泛实验结果表明,所提出的方法在异常检测方面取得了最先进的性能,特别是在异常分割方面表现优异。
引言
工业视觉异常检测是智能制造中的关键任务[1],旨在识别图像中偏离正常标准的意外模式。它已广泛应用于各种工业场景,例如表面缺陷检测[2]、智能交通系统[3]、印刷电子检测[4]等。然而,异常样本的稀缺性和不确定性往往阻碍了监督方法在实际应用中的部署。因此,开发了仅使用正常样本进行训练的无监督异常检测方法,并引起了学术界和工业界的广泛关注。
对于无监督异常检测,基于重建的方法是主要选择,这些方法使用自动编码器(AE)[7]、[8]和生成对抗网络(GAN)[9]等模型来重建正常图像,然后利用重建误差来估计异常分数并定位异常区域。通常,未见的异常图像会产生比正常图像更高的重建误差。然而,异常区域有时也被重建得非常好,使得它们几乎与正常区域无法区分。为了缓解这个问题,提出了异常合成策略作为预训练任务,该策略会遮盖正常图像的某些区域[10]、[11],然后通过修复来重建它们。与此类似,最近的一种突出方法是训练一个判别网络[5]、[12],以自动识别输入图像与其修复图像之间的差异,如图1(a)所示。通过这种方式,可以完全捕获图像空间内的细节差异,从而实现异常的细粒度分割。另一种有竞争力的选择是使用预训练网络将图像嵌入到更强大和具有判别能力的特征空间[13]中,然后进行检测。嵌入的特征空间通常是多层次和语义丰富的,使模型能够专注于正常实例的语义表示。例如,如图1(b)所示,基于知识蒸馏的方法[6]、[14]利用判别网络来利用学生网络和预训练教师网络在异常输入上的输出特征图之间的差异。然而,现有方法面临几个挑战,这些挑战限制了它们在实际应用中的有效性。首先,原始图像提供了细粒度异常分割所需的高频细节信息,而预训练特征提供了强大的语义表示。缺少其中任何一个都会阻碍正常图像分布的完整建模。因此,现有方法通常依赖于单一的图像或特征空间,使得无法完全分割异常区域。如图1(a)和(b)所示,对于榛子上的大面积裂纹异常,仅使用图像的方法[5]只能分割左侧一半,而仅使用特征的方法[6]则忽略了中央区域。其次,判别网络的训练依赖于特定的合成训练数据,这些数据不仅无法覆盖所有可能的异常类型,而且与现实世界的异常情况也有偏差。因此,现有异常检测方法中判别网络获得的知识范围受到限制,难以有效泛化以分割各种未见过的异常对象。
幸运的是,诸如Segment Anything Model(SAM)[15]、[16]、[17]、[18]之类的视觉基础模型最近展示了出色的分割性能,特别是在零样本条件下。SAM在大规模多领域数据上进行了预训练,并具有灵活的提示交互机制。在此基础上,它可以精确分割任何目标区域,包括之前未见过的对象。通过适配器的微调[19],它在各种下游视觉任务中实现了显著的适应性和泛化能力[20]、[21]。在视觉异常检测中,SAM的特性使其能够有效处理多样和复杂的异常模式。现有方法[22]、[23]是早期尝试将SAM集成进来以识别不规则和未知的异常区域的尝试,从而缓解了高误报率和分割精度有限的问题。然而,这些方法仅将SAM作为后处理工具使用,未能有效整合特定领域的异常知识,使得难以检测图像中不明显可见的异常,例如缺失的对象。因此,SAM在这一领域的潜力尚未得到充分探索。
为了解决上述问题,提出了一种名为SAM-IAD的新方法,以适应SAM以实现高质量的异常分割。SAM-IAD旨在将来自图像和特征空间的特定异常知识注入SAM框架中。特定异常知识通过图像和特征残差来表示,这些残差是通过将图像从不同颜色空间与其预训练特征进行跨映射获得的。然后,SAM将图像残差作为图像编码器的输入,而特征残差则作为密集提示与之结合。通过这种方式,SAM中的判别预训练特征和图像的细粒度信息可以有效地相互作用,从而实现更全面的异常分割。值得注意的是,SAM学习的是图像和特征的残差分布,而不是它们的初始分布,从而能够更有效地适应异常。此外,为了保留SAM对任意对象进行分割的通用先验知识,设计了可学习的异常相关适配器(AR-Adapter),将其嵌入到SAM的冻结图像编码器的每个块中进行微调。与先前方法的结构比较如图1所示。所提出的方法利用SAM利用来自图像和特征空间的信息,并促进它们之间的交互,从而获得与真实异常区域紧密匹配的高质量异常分数图。总之,我们的贡献如下:
•提出了一种名为SAM-IAD的新框架,通过整合来自图像和特征空间的异常知识来适应视觉基础模型SAM,以实现高质量的异常分割。
•为了将特定异常知识注入SAM,通过跨不同颜色空间的映射获得图像和特征残差,并将后者作为掩码提示进行交互。
•为了保留SAM中用于准确分割任何对象的通用先验知识,引入了可学习的异常相关适配器,并将其嵌入到SAM的冻结图像编码器中以实现高效微调。
•在MVTec AD、VisA和DAGM数据集上进行了广泛的实验。结果表明,该方法在异常检测和分割方面取得了最先进的性能。
本文的其余部分组织如下。第2节回顾了无监督异常检测的相关文献。接下来,第3节描述了所提出的架构。第4节对使用的数据集进行了广泛的定量和定性分析。最后,第5节总结了本文并讨论了未来的工作。
部分片段
相关工作
本节回顾了无监督异常检测的相关工作,包括基于图像重建的方法、基于特征的方法以及该领域的最新SAM应用。此外,为了更清晰的比较,还分析了在场地、使用的信息、判别网络和局限性方面的代表性先前的工作,如表1所示。
概述
在无监督异常检测中,目标仅使用正常样本训练模型来检测和分割未见过的异常。为此,提出了一种高效的异常检测框架SAM-IAD,其整体架构如图2所示。该框架利用SAM在吸收额外知识和准确分割未见目标方面的泛化能力。它由三个部分组成:(1)为SAM准备异常知识。
实验
在本节中,对提出的SAM-IAD在不同的数据集上进行了广泛的实验,以定性和定量评估其有效性。此外,为了更深入地了解所提出方法的工作机制,从多个角度进行了消融研究。
结论与未来工作
在这项研究中,我们提出了一种名为SAM-IAD的新框架,用于无监督视觉异常检测。SAM-IAD通过整合图像和特征空间的优势有效增强了异常分割能力,而以前的方法通常仅依赖其中一个。具体而言,首先通过跨颜色空间映射获得由残差表示的特定异常知识。然后,使用图像残差作为输入,并与作为掩码的特征残差进行交互
CRediT作者贡献声明
陈一驰:撰写——原始草案、方法论、概念化。陈斌:软件、方法论。冼伟志:可视化。王俊杰:调查。龚欣怡:可视化、软件。韩建文:验证。陶显:撰写——审阅与编辑、监督。
利益冲突声明
作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:
陶显报告获得了中国国家自然科学基金的财务支持。龚欣怡报告获得了中国国家自然科学基金的财务支持。陶显报告获得了中国科学院青年创新促进协会的财务支持。陶显报告获得了北京Nova计划的财务支持。