S 3 AD：通过选择、空间和尺度实现高效的工业异常检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：S 3 AD: Efficient industrial anomaly detection via selection, space, and scale

【字体：大中小】 时间：2026年05月02日 来源：Pattern Recognition 7.6

编辑推荐：

　　彭中华 | 李成阳 | 刘波 | 李作勇 | 曾坤 | 李家龙深圳大学计算机科学与软件工程学院，中国深圳518060 **摘要** 现实世界的工业视觉异常检测（VAD）需要在严格的实时约束下同时处理多种产品类别。然而，标准视觉变换器（ViTs）中固有的自注意力机制

　　彭中华 | 李成阳 | 刘波 | 李作勇 | 曾坤 | 李家龙
深圳大学计算机科学与软件工程学院，中国深圳518060

**摘要**
现实世界的工业视觉异常检测（VAD）需要在严格的实时约束下同时处理多种产品类别。然而，标准视觉变换器（ViTs）中固有的自注意力机制在全局上下文建模过程中会产生二次计算复杂度，从而限制了它们在VAD中的实时应用。这一瓶颈主要源于工业场景中普遍存在的大量背景冗余的统一处理。为了在保持高精度的同时绕过这种低效率问题，我们提出了S3AD，这是一个基于选择（Selection）、空间（Space）和尺度（Scale）的统一框架。S3AD不采用密集的全局交互，而是采用显著性引导的稀疏注意力（Salience-Guided Sparse Attention）将资源仅集中在显著区域。在选择方面，我们设计了一种由注意力分数和特征大小的混合指标指导的Top-K剪枝策略，以过滤掉无信息的数据点，从而降低成本。在空间方面，我们结合了保持几何形状的位置嵌入（Geometry-Preserving Positional Embeddings）来明确锚定选定的数据点，确保在稀疏交互的情况下仍能保持结构完整性。最后，在尺度方面，我们集成了可交换特征金字塔网络（Exchangeable Feature Pyramid Network, E-FPN）以确保跨分辨率的严格特征融合。广泛的实验表明，S3AD取得了先进的性能，并建立了卓越的精度-效率帕累托前沿，在多个基准测试中始终优于强基线。代码可访问地址：https://github.com/CreatedTRYNA/S3AD

**引言**
工业视觉异常检测（VAD）是智能制造中的核心技术[1]。现代生产线越来越需要统一的多类检测，但由于类别间的分布多样和缺陷模式的复杂性，这带来了重大挑战[2]。因此，实际的VAD模型面临着在严格遵循实时推理约束的同时，稳健地捕获全局上下文信息的双重挑战[3]。
为了解决这些挑战，最近的研究主要探索了状态空间模型（SSMs）和视觉变换器（ViTs）。虽然像MambaAD系列[4]、[5]这样的SSMs实现了线性推理复杂度，但它们在精确的长距离特征对齐方面可能存在局限性，而这对于识别需要严格点对点对应的细微缺陷至关重要[6]、[7]。相反，基于ViT的架构表现出卓越的鲁棒性。例如UniAD[8]和ViTAD[9]利用显式的自注意力在MVTec AD[10]和VisA[11]等基准测试中取得了有竞争力的准确率。这些发现表明，显式注意力仍然是捕捉工业场景所需细节的强大工具。
然而，仅依赖标准ViT会引入一个重大瓶颈：计算冗余（图1(a)）。将所有数据点平等对待会导致昂贵的全局注意力计算，这是非常低效的，因为大多数工业图像区域都是非异常背景。在这些信息稀疏的区域进行二次计算会增加推理延迟，而不会带来相应的性能提升[12]、[13]。为了满足严格的工业要求（例如，> 30 FPS），最近的方法通常会缩小网络架构。然而，这种妥协会降低在VisA、MPDD和Real-IAD等复杂数据集上检测细微、高影响缺陷的能力，这突显了在不牺牲表示能力的情况下减轻背景冗余的迫切需求。
为此，我们提出了S3AD，这是一个平衡表达性全局建模和高效推理的统一框架。S3AD基于选择、空间和尺度的原则，从密集的全局计算转向自适应的稀疏聚焦。具体来说，我们采用选择策略来剪除背景冗余，引入基于空间的几何锚点来补偿稀疏采样过程中丢失的结构感知，并利用参数高效的尺度交换机制来解决传统融合网络中的语义混淆。

**技术细节**
在技术上，我们引入了显著性引导的稀疏注意力（SGSA）机制来实现选择维度。SGSA采用由注意力分数和特征大小的混合指标驱动的动态数据点选择，将计算资源集中在信息密集区域，同时剪除冗余的背景数据点。为了在这种稀疏交互中确保鲁棒性，我们结合了保持几何形状的位置嵌入来明确锚定选定的数据点。此外，我们在网络中集成了可交换特征金字塔网络（E-FPN），利用参数高效的通道交换策略来最大化多尺度特征利用，而不会增加额外开销。

**主要贡献**
• 我们提出了S3AD，这是一个基于选择、空间和尺度的统一VAD框架，成功解决了表达性全局上下文建模与严格工业效率要求之间的冲突。
• 我们设计了显著性引导的稀疏注意力（SGSA）机制，通过混合指标动态过滤掉无信息的背景数据点，最小化计算开销，同时不牺牲显著区域的精度。
• 我们结合了保持几何形状的位置嵌入和可交换特征金字塔网络（E-FPN），以明确锚定选定的数据点到它们的空间上下文，并促进参数高效的多尺度特征融合，即使在稀疏交互的情况下也是如此。
• 在四个基准测试上的广泛实验表明，S3AD的性能优于ViT和Mamba基线，建立了卓越的精度-效率帕累托前沿。

**部分摘录**
视觉异常检测（VAD）对于工业和医学检测至关重要[15]、[16]。现有方法通常分为三种范式：基于增强的方法（如RealNet[17]、SaliencyCut[18]和SimpleNet[19]）合成人工异常进行判别训练；基于嵌入的方法使用归一化流[20]或记忆库[13]在预训练的特征空间中对正常分布进行建模；最后是基于重建的方法（如ViTAD[9]）。

**S3AD概述**
为了在最小化计算开销的同时增强全局上下文建模，我们提出了基于选择、空间和尺度的S3AD框架（图2）。在训练过程中，S3AD采用教师-学生蒸馏范式。给定输入图像X，一个固定的教师网络（如ResNet-34[43]）从第2到第4阶段提取多尺度特征。可交换特征金字塔网络（E-FPN，第3.4节）将这些特征对齐并融合成一个统一的语义先验。

**数据集和评估指标**
我们在四个基准测试上评估S3AD，这些测试评估了不同的异常复杂性。对于已建立的工业场景，我们使用了包含15个类别的MVTec AD（5354张图像）和包含12个类别的VisA（10,821张图像）。为了严格测试可扩展性和泛化能力，我们使用了包含30个对象和超过150,000张图像的Real-IAD，这是最大的工业数据集。最后，我们还包括了包含6个金属类别和1346张图像的MPDD，以评估鲁棒性。

**结论与讨论**
在这项工作中，我们提出了S3AD，以解决工业异常检测中全局建模精度和推理效率之间的权衡。我们的框架基于选择、空间和尺度，用显著性引导的稀疏注意力替代了密集的交互，以过滤背景冗余。将这种稀疏性与保持几何形状的位置嵌入和可交换特征金字塔网络相结合，确保了结构完整性和鲁棒的多尺度融合。

**CRediT作者贡献声明**
彭中华：撰写——原始草稿、软件、方法论。
李成阳：撰写——原始草稿、方法论。
刘波：撰写——审阅与编辑、监督。
李作勇：监督、资金获取。
曾坤：撰写——审阅与编辑、验证。
李家龙：撰写——审阅与编辑、监督。

**关于生成式AI的声明**
作者使用AI工具进行了语言改进，并对最终手稿负全责。

**关于利益冲突的声明**
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文所述的工作。

**致谢**
本工作得到了国家自然科学基金（62471207）、福建福州-厦门-泉州国家自主创新示范区协同创新平台项目（2025E3006）和福建省自然科学基金（2024J02029）的支持。我们还要感谢匿名审稿人的宝贵意见。

联系信箱：

粤ICP备09063491号

热点排行