使用零嵌入优化进行鲁棒缺陷图像合成,以应用于工业领域

《Expert Systems with Applications》:Robust Defect Image Synthesis Using Null Embedding Optimization for Industrial Applications

【字体: 时间:2026年03月05日 来源:Expert Systems with Applications 7.5

编辑推荐:

  提出结合null embedding优化与Residual Linear Interpolation(RLI)连接的方法,通过改进生成模型生成高保真、结构一致的缺陷图像,有效解决工业缺陷数据稀缺问题,显著提升分类和分割模型性能。

  
Jo Hyunwook | Park Jun Hyung | Park In Kyu
电气与计算机工程系,仁荷大学,仁川 22212,韩国

摘要

在制造业中,准确的缺陷分类和分割至关重要,然而这两项任务常常受到数据不平衡和缺陷样本稀缺的阻碍。传统的合成数据增强方法往往会产生结构不一致的图像,从而限制了其有效性。在这项工作中,我们提出了一种新方法,该方法将空嵌入优化与残差线性插值(RLI)连接相结合,生成与原始图像高度相似的潜在表示,同时保持结构保真度。此外,我们采用了一种提示到提示的增强技术,系统地修改基础文本提示,从而生成多样的缺陷形态。这一统一框架主要通过生成多样的缺陷形态来提高数据集的多样性,同时生成与真实缺陷在视觉上对应的高保真度合成图像,从而显著提升了分类和分割模型的性能。源代码和模型可在以下链接获取:https://acerghjk-cloud.github.io/ESWA2025/

引言

缺陷检测是制造业中的关键任务。尽管人们付出了大量努力来提高产品质量,但由于缺陷样本的固有稀缺性,收集和准确标注缺陷样本仍然是一个挑战。随着计算机视觉技术的发展,以数据为中心的深度学习方法已成为常态。训练用于缺陷分类和分割的强大模型需要正常样本和缺陷样本,但在实践中获取标注良好的缺陷数据往往很困难。此外,生成模型经常产生结构不一致的图像(Wang, Zhang, Zheng, & Jin (2024)),导致合成输出无法真实反映实际缺陷。因此,大量研究集中在生成合成缺陷上(Cho, Jeon, & Park (2023); Ding, Huang, Wu, & Cui (2025); Wang et al. (2025))。我们认为,对于实际工业应用而言,合成缺陷样本必须满足三个严格标准:它们应与实际缺陷高度相似(Hammad, Smaoui, Fakhfakh, & Hashim (2024)),并且适合自动标注。在不需要详细掩码注释的缺陷分类中,可以容忍合成缺陷的轻微变化。相比之下,在需要像素级精确度的缺陷分割中,即使是微小的缺陷特征差异也需要不同的掩码标签,因此需要重新标注以捕捉这些细微差异。
我们认为,生成没有结构不一致性的缺陷对于实现自动标注至关重要。然而,对当前使用的各种生成模型的回顾揭示了一个显著矛盾:尽管这些模型能够生成与真实缺陷高度相似的输出,但由于生成算法的固有随机性(通常基于高斯噪声(Goodfellow et al. (2014); Ho, Jain, & Abbeel (2020); Rombach, Blattmann, Lorenz, Esser, & Ommer (2022)),它们经常无法生成没有结构不一致性的缺陷。这种随机性使得模型能够正常运行,但也使得它们难以控制,因为重复使用相同的噪声向量每次都会产生不同的图像。这种不一致性是生成算法随机行为和管理高斯噪声的挑战的直接后果。
这引发了一个关键问题:我们如何严格减少结构不一致性?为了解决这个问题,我们提出了一种方法,该方法在保持高信噪比(PSNR)的同时,能够紧密模仿原始产品。我们的初步工作(Jo, Sahadewa, Gazali, & Park (2024))通过结合LoRA权重(Hu et al. (2022)和Stable Diffusion XL(SDXL)(Podell et al. (2024)),并优化空嵌入和空池嵌入,以实现最佳的潜在表示,从而生成与原始图像高度相似的缺陷。总之,我们引入了空嵌入优化来捕获与原始图像相同的潜在空间,通过注意力图混合和放大生成多样化的缺陷样本,并证明了使用合成生成图像显著提高了现成缺陷检测模型的准确性。
基于我们之前的工作,我们进一步扩展了我们的方法,以解决缺陷分类和分割问题。具体来说,我们通过引入残差线性插值(RLI)连接来改进UNet架构,这些连接有助于保留细粒度的结构细节。重要的是,我们的方法消除了对LoRA训练的需求,仅依赖于SDXL模型内部潜在表示的基于优化的细化。实验结果证实,我们的改进方法生成的缺陷样本不仅提高了分类准确性,还增强了分割模型的精度,为实际工业应用中的缺陷检测提供了全面的解决方案。

部分摘录

缺陷检测

缺陷检测是工业视觉检测中的关键组成部分,包括缺陷分类和分割等关键任务。随着深度学习的发展,这些技术在各种实际场景中取得了显著的成功,包括工业制造、安全检查和结构评估(Zhou & Zhao (2025))。与依赖手动特征提取的传统方法不同,基于深度学习的方法能够实现自动对象

提出的方法

图1展示了所提出方法的总体结构,该方法利用预训练的SDXL模型生成高度逼真的缺陷图像。通过利用预训练模型,我们的方法有效地近似了对于优秀图像合成至关重要的复杂概率分布。
为了提高结构一致性和优化潜在表示,我们在第3.3节中引入了RLI连接。认识到自注意力机制本质上编码了

实验结果

在本节中,我们展示了关于优化驱动的图像合成、缺陷分类和缺陷分割的实验结果。有关详细的实验设置和超参数配置,请参阅附录A。

残差线性插值(RLI)的消融研究

为了严格验证所提出的残差线性插值(RLI)的有效性并确定其最佳配置,我们首先进行了详细的消融研究,调查了将RLI应用于U-Net架构不同块的影响。如表14所示,RLI的位置显著影响重建质量:仅将RLI应用于Down块或Mid块几乎没有改进,甚至会导致性能下降(例如,SSIM降低到0.793)

结论

在这项工作中,我们通过引入将空嵌入优化与残差线性插值(RLI)相结合的框架来解决工业数据的稀缺性问题。这种确定性方法减少了扩散模型中固有的结构不一致性,保持了细粒度的几何完整性,同时实现了多样的缺陷形态。重要的是,我们的方法在无需微调或LoRA的情况下实现了高保真度的合成,从而在下游分类中取得了显著收益

CRediT作者贡献声明

Hyunwook Jo:方法论、软件、验证、形式分析、调查、数据管理、初稿撰写、审稿与编辑、可视化。Jun Hyung Park:软件、验证、形式分析、数据管理、初稿撰写。In Kyu Park:概念化、方法论、调查、资源管理、审稿与编辑、可视化、监督、项目管理、资金获取。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:
In Kyu Park报告称获得了信息与通信技术规划与评估研究所的财务支持。In Kyu Park拥有正在仁荷大学产业-学术合作基金会待审的“缺陷部件图像合成方法与系统”专利申请。如果还有其他作者,他们声明没有已知的利益冲突
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号