综述：通过基础模型合成和小波域注意力机制提升异常检测性能

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：Improving Anomaly Detection with Foundation-Model Synthesis and Wavelet-Domain Attention

【字体：大中小】 时间：2026年03月16日 来源：Neural Networks 6.3

编辑推荐：

　　工业异常检测面临样本稀缺和现实异常复杂性挑战，本文提出基础模型驱动的异常合成管道（FMAS）与小波域注意力模块（WDAM）。FMAS通过GPT-4生成描述、SAM分割前景、Stable Diffusion合成并Selector过滤低质样本，构建与MVTec AD和VisA对齐的合成数据集。WDAM基于离散小波变换，动态为LL/LH/HL/HH子带分配权重，增强异常敏感特征，实验表明其可提升现有模型检测敏感度达15.2%且保持计算效率。

吴文生|卢泽明|卢子倩|何泽伟|孙学成|王钊|韩俊功|余云龙

中国浙江省杭州市浙江大学航空航天学院，310027

摘要

由于异常样本的稀缺性和现实世界中异常情况的复杂性，工业异常检测面临重大挑战。在本文中，我们提出了一种基于基础模型的异常合成流程（FMAS），该流程无需微调或针对特定类别的训练即可生成高度真实的异常样本。受到异常在频域特征上的差异启发，我们引入了小波域注意力模块（WDAM），该模块利用自适应子带处理来增强异常特征提取。FMAS与WDAM的结合显著提高了异常检测的灵敏度，同时保持了计算效率。在MVTec AD和VisA数据集上的全面实验表明，作为即插即用模块的WDAM相比现有基线方法取得了显著的性能提升。

引言

工业视觉异常检测是一种关键技术，用于识别和定位制造产品中的异常，从而有助于降低异常率和运营成本。由于异常样本的固有稀缺性，近期研究主要集中在仅使用正常数据进行训练的无监督学习方法上。这些方法大致可以分为两类：1）基于嵌入的方法（Batzner, Heckler, K?nig, 2024; Defard, Setkov, Loesch, Audigier, 2021; Jiang, Liu, Yan, Wei, Cui, 2025; Liu, Zhou, Xu, Wang, 2023），这些方法利用深度特征表示来检测和定位异常；2）基于重建的方法（Chen, You, Zhang, Xi, Le, 2022; Yao, Liu, Yin, Yan, Hong, Zuo, 2024; Zhao, 2023），这些方法试图通过重建图像与原始图像之间的差异来识别异常。

尽管这些方法很有用，但仅依赖正常数据会显著限制它们的检测能力。为了解决这一限制，已经提出了一些合成异常的策略。其中，非生成方法（Chen, Luo, Lv, Zhang, 2024; Jia, Chen, 2025; Li, Sohn, Yoon, Pfister, 2021; Zavrtanik, Kristan, Sko?aj, 2021）通过对正常图像应用确定性或随机扰动来合成异常。然而，这些合成的异常往往缺乏视觉真实感，无法捕捉现实世界异常的复杂统计特性。相比之下，生成方法（如DFMGAN（Duan et al., 2023）和RealNet（Zhang et al., 2024）使用生成对抗网络或扩散模型来生成更逼真的异常。然而，这些方法不能立即应用于新场景，因为它们依赖于训练，通常需要额外的调整或微调。

在本文中，我们提出了一种基于基础模型的异常合成（FMAS）流程，该流程整合了基础模型的能力，包括GPT-4（Achiam et al., 2023）、Segment Anything Model（SAM）（Kirillov et al., 2023）和Stable Diffusion（Podell et al., 2023），无需模型微调或针对特定类别的训练即可合成高度真实的异常数据。具体来说，GPT-4用于自动生成描述性提示，以指导图像合成过程。SAM用于分割前景对象并为后续的异常生成提供空间上下文。然后利用Stable Diffusion根据生成的提示在图像中绘制合理的异常。然而，由于缺乏特定任务的约束，生成过程可能包含一定程度的随机性，这偶尔会导致质量不达标或过度失真的样本。为了解决这个问题，我们引入了一种称为“选择器”的过滤机制，自动排除此类低质量输出。图1展示了代表性的定性结果。

我们使用离散小波变换（DWT）分析合成和真实异常，捕捉它们的空间-频率特征。分析显示，异常特征在四个子带（LL、LH、HL、HH）上的显著性各不相同，如图2所示，缺陷位置被突出显示并放大以便清晰观察。为了进一步量化这一观察结果，表1报告了像素级变化测量值，通过计算每个类别中正常图像与异常图像对之间的绝对差异，对数据集进行平均，并在子带之间进行归一化。结果表明，异常特征在子带间的分布不均匀，这突显了基于子带感知的建模对有效异常检测的潜在益处。

基于这些发现，我们提出根据图像组件的不同频率特征进行分别处理。具体来说，我们提出的小波域注意力模块（WDAM）动态地为每个小波子带分配可学习的权重，权重分布被优化以放大对异常敏感的频率成分，同时抑制无关特征。WDAM首先将输入特征分解为小波子带，然后根据异常的显著性为每个子带应用自适应注意力权重。通过逆离散小波变换重建加权特征，有效放大与异常相关的模式，同时保留空间信息。通过动态增强特定频率的特征，WDAM显著提高了异常检测任务中的异常灵敏度和特征区分度。WDAM作为一个即插即用模块，可以无缝集成到现有网络架构中。

总结如下：

•

我们提出了一种基于基础模型的异常合成（FMAS）流程，该流程无需模型微调或针对特定类别的训练即可生成高度真实的异常样本

•

基于频域分析，我们引入了小波域注意力模块（WDAM），这是一个在

小波子带级别操作的即插即用

组件。通过自适应学习每个频率带的重要性，WDAM通过特征增强显著提高了异常检测能力

•

在MVTec AD（Bergmann et al., 2019）和VisA（Zou et al., 2022）上的实验表明，FMAS与WDAM的结合在异常检测性能上取得了持续的改进。在另外两种网络架构上的进一步评估也证实了WDAM增强了异常特征提取，并显示出广泛的适用性

本文的其余部分组织如下。第2节回顾了相关工作。第3节详细介绍了所提出的异常检测方法。第4节提供了广泛的实验和基准测试评估，第5节为结论。

部分摘录

异常合成方法

在无监督异常检测中，由于真实缺陷数据的稀缺或缺失，大多数方法仅基于正常样本进行训练。为了弥补这一限制，提出了多种异常合成技术。这些方法大致可以分为两类：非生成方法，它们应用手工制作或基于规则的转换来模拟异常；以及生成方法，它们依赖深度生成模型来产生语义连贯的异常

方法

在本节中，我们介绍了我们的异常检测流程。首先，我们提出了一种无需训练的异常合成方法来为检测模型生成训练数据。接下来，我们介绍了小波域注意力模块（WDAM），这是一个关键组件，使模型能够从不同的频率分布中学习出区分性表示。最后，我们证明了WDAM作为一个即插即用模块，可以无缝增强现有的异常检测方法。

数据集和指标

数据集实验评估主要在两个流行的基准数据集上进行，即MVTec AD（Bergmann et al., 2019）和VisA（Zou et al., 2022）。MVTec AD数据集包含15个不同的类别，包括5个基于纹理的类别和10个基于对象的类别。训练集包含总共3,629张无异常图像。测试集为每个类别提供正常和异常样本，总计1,725张图像。异常样本进一步分为15种类型

结论

在本文中，我们介绍了FMAS，这是一种无需训练的异常生成流程，以及WDAM，一个用于异常检测的小波域注意力模块。FMAS通过结合GPT生成的提示、基于SAM的前景掩码和Stable Diffusion修复技术，在无需微调或针对特定类别的训练的情况下合成真实的异常。WDAM通过重新加权LL/LH/HL/HH子带并重建特征，以最小的开销增强了异常线索

CRediT作者贡献声明

吴文生：撰写 – 原始草稿，方法论。卢泽明：监督，方法论。卢子倩：可视化，调查。何泽伟：概念化。孙学成：形式分析，数据管理。王钊：方法论，调查。韩俊功：撰写 – 原始草稿。余云龙：撰写 – 审稿与编辑，监督，资金获取。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

本研究部分得到了中国国家自然科学基金（项目编号62576313）、浙江省2025年重点研发计划（项目编号2025C01075）以及浙江省自然科学基金（项目编号LD24F020016）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号