编辑推荐:
针对芯片表面缺陷检测中少样本数据下的语义分割难题,本文提出SFFINet框架,通过多尺度特征交叉增强模块和动态频率信息融合模块实现高效特征交互,结合频率特征解码器提升分割精度。实验表明,在1 shot条件下mIoU达到75.57%,显著优于现有方法。
向宏宇|顾金娜|向佳云|夏子琳|朱永民|王文博
江苏大学机械工程学院,中国江苏省镇江市学府路301号,212013
摘要
芯片表面缺陷的视觉检测是检测芯片质量的重要技术。传统的缺陷检测方法依赖于从大量数据中进行的监督学习,无法有效分割新的、未经训练的类别。针对上述问题,本文提出了一种名为SFFINet的少样本语义分割框架,该框架整合了多尺度特征交叉增强和频率特征融合技术。首先,为了提高表面缺陷的表示能力,我们引入了多尺度特征交叉增强(MFCE)模块,该模块从特征交叉和特征融合两个方面获得了更全面的缺陷特征表示。其次,为了提高支持集特征的指导能力,我们从特征信息中提取不同频率的特征,并提出了一个动态频率信息融合模块。我们通过快速傅里叶变换(FFT)自适应调整动态滤波参数,然后使用空间自适应交互(SSAI)模块在不同频率层次上融合支持特征和查询特征。第三,为了更好地聚合不同频率特征的信息,我们设计了一个频率特征解码器以实现更详细的特征描述。在少样本芯片表面缺陷数据集和两个工业少样本缺陷数据集上进行的广泛对比实验表明,SFFINet具有优越的性能。在1次样本设置下,我们的方法分别实现了57.61%、63.50%和75.57%的mIoU分数,显著优于现有的最先进方法。最后,一组完整的消融实验调查了其有效性和适用性。
引言
作为现代光电子技术和微电子技术的先进产品,芯片在现代工业中发挥着重要作用。在芯片制造过程中,表面缺陷的出现不可避免,芯片表面缺陷检测是确保芯片质量的关键步骤[1]。人工检测效率低下,难以准确检测低对比度、小尺寸的缺陷。因此,为了满足工业生产的高效率和精度要求,高效准确的视觉检测算法已成为芯片制造领域的一个重要挑战[2]。
随着深度学习算法的不断涌现,基于CNN的模型在工业检测场景中得到了广泛应用,许多改进的YOLO检测算法取得了优异的结果,用于提取复杂的目标特征[3,4]。该模型对绝大多数目标具有出色的特征提取能力,从而降低了人工特征提取的成本。当前主流的检测算法主要应用于三大任务:目标检测[5]、语义分割[6]和图像分类[7],这些任务都需要大量标注的数据来支持模型训练。样本量不足会大幅降低模型的泛化能力,而稀疏的类别样本使得模型无法满足工业应用的标准[8]。对于语义分割来说,数据量的缺乏会导致模型无法准确分割图像中的目标,这是因为语义分割模型是在像素级别进行预测的[9],缺乏足够的数据支持会导致模型失去准确分割的能力。随着工业技术的发展,芯片表面缺陷的概率降低了;然而,获取大量样本数据变得更加困难,而且不能忽视缺陷对质量的影响。在样本数据不足的情况下实现芯片表面缺陷的分割任务是一个重大挑战[10]。此外,基于CNN的模型是一种监督学习方法,用于调整模型参数以完成训练样本类别上的视觉任务[11]。它们无法预测与训练样本数据不同的新类别。这使得传统的语义分割模型无法对新类别的样本进行泛化预测。
为了解决传统基于CNN的模型对大规模标注数据的强烈依赖性以及它们在数据稀缺场景下的不足性能问题,少样本学习(FSL)在研究中受到了越来越多的关注[12]。FSL旨在使模型仅使用少量标注样本就能学习到具有区分性的特征表示,并能够泛化到新类别,从而弥合数据稀缺性与工业和其他实际应用中对高性能需求之间的差距[13]。与仅在大规模基础类别数据集上优化模型的传统监督学习不同,FSL主要采用元学习框架。通过在多样化的任务上进行训练,FSL使模型具备了“学会学习”的能力,允许它们在参数更新最少的情况下快速适应新任务[14]。FSL中的度量学习专注于学习一个具有区分性的嵌入空间,使得同一类别的样本在这个空间中聚集在一起,不同类别的样本彼此分离。此外,它通过支持集和查询集之间样本的相似性测量来实现准确的分类或分割。近年来,研究人员在特征表示优化[15]和对标注噪声的鲁棒性[16]等核心问题上取得了突破,为FSL的实际应用奠定了基础[17]。提出了一种新颖的协作密度感知表示学习方法,用于小样本视觉识别,该方法通过共享卷积神经网络生成高级语义特征,并通过结合协作密度损失模块来优化模型。还提出了一种基于语义引导的泛化增强方法,以应对数据稀缺的挑战[18],该方法整合了来自多个预训练模型的知识,基于类别标签的语义线索优化数据增强和特征提取,生成语义一致的增强样本,并实现了语义和图像数据的融合。
为了解决上述困境和挑战,少样本语义分割(FSS)理论应运而生,FSS旨在在目标样本非常少的情况下实现小样本的分割任务[19]。与传统的语义分割方法不同,FSS将输入数据分为支持集和查询集,并利用支持集的图像和标签来指导查询集图像的分割[20]。FSS首先使用多个类别的样本进行训练,以此训练出具有特征自举和特征比较能力的模型,然后在新类别上实现目标像素级的分割任务。如图1所示,传统的语义分割基于编码器-解码器结构来完成训练类别样本的预测任务。FSS利用支持集和查询集的交互来完成与新训练类别不同的样本的预测任务。总体而言,基于元学习的FSS取得了非常显著的结果,并且能够在不对新类别进行训练的情况下实现有效的分割[21]。
尽管提出了许多FSS方法,但这些模型难以直接应用于检测芯片表面缺陷的任务。最初的FSS方法使用池化来表示一些分割难度较低的样本[20,22,23]。样本数据具有连续分布和规则扩展的特点。而对于芯片表面缺陷来说,缺陷出现的区域具有高度离散化[24],全局池化方法不可避免地会丢失局部特征信息。同一类别样本的特征也不规则,传统模型的类内特征融合方法难以应用于芯片表面缺陷数据[25]。不仅如此,芯片表面缺陷在目标大小、形状、纹理、颜色等方面存在差异,这些特征导致视觉检测精度低,类别间相似性和类内变异性较大。总之,现有的FSS方法能够在样本不足的情况下解决表面缺陷分割任务,但当直接应用于芯片表面缺陷的分割时,它们的模型泛化能力略有不足。
因此,为了解决小样本情况下芯片表面缺陷检测的问题,本文提出的针对性改进如下:
(1)一种基于交互的空间频率特征交互网络(SFFINet)可以充分融合支持集和查询集中不同频率的特征信息,避免无关特征融合的干扰。我们的方法可以自适应地学习频率特征之间的边界,区分背景、边缘和大小特征之间的差异,并融合具有相似语义的特征,从而更有效地分割目标。
(2)我们设计了多尺度特征交叉增强(MFCE)模块,该模块可以快速应用于特征提取层的特征增强,避免浅层特征信息的丢失,实现了同一源数据的多尺度特征交互功能,并在FSS中展示了其有效性。
(3)使用动态频率信息融合(DyFIF)将滤波阈值作为可学习参数来提取频率特征。为了融合从支持集和查询集提取的频率信息,提出了一种基于变换器的空间自注意力交互(SSAI)模块,该模块关注空间中不同输入的块间连接,对具有不同键的相同参数化查询进行响应,以更高效和具体的方式融合相同频率的信息。
(4)最后,我们分别为支持集和查询集特征融合分支设计了解码模块,特征重构解码(FRD)块可以有效监督支持集特征融合,从而使MFCE中的多尺度特征融合更加有效。为了适应最终的频率特征,我们提出了频率特征解码(FFD)模块,通过平滑频率信息来增强模型的鲁棒性。
本文的后续部分安排如下。第2节描述了与小样本芯片表面缺陷检测相关的研究。第3节详细介绍了所提出的方法。第4节在多个数据集上进行了对比实验并进行了消融实验。第5节总结了本文并概述了未来的研究方向。
相关工作
相关工作
有三类文献与本研究相关:工业表面缺陷检测、小样本的分割方法、特征增强和特征交互。
提出的架构
本节介绍了FSS的基本范式以及本文提出的SFFINet网络结构,同时使用公式和图表详细描述了网络中的重要模块及其功能。
实验
在这项工作中,我们进行了一项独特的实验测试,即使用其他缺陷数据集作为模型的训练集,芯片表面缺陷作为测试集,这是一种跨领域的FSS任务,这种设置更符合芯片表面缺陷检测中所有样本类别都较小的实际场景。同时,我们还在通用的FSS任务中测试了我们的方法。
结论
在本文中,针对芯片表面缺陷的FSS,我们提出了一种名为SFFINet的FSS方法。基于特征提取框架,我们利用多个MFCE进行多尺度特征融合,通过在同一特征图中融合不同方向的多尺度详细特征,大大提高了前景和背景的准确分割性能。通过特征交叉增强,我们能够从特征图的细节中获取控制信息。
CRediT作者贡献声明
向宏宇:撰写——原始草稿、软件、方法论。顾金娜:监督、资源、概念化。向佳云:可视化、验证、监督。夏子琳:调查。朱永民:数据管理。王文博:监督。
CRediT作者贡献声明
向宏宇:撰写——原始草稿、软件、方法论。顾金娜:监督、资源、概念化。向佳云:可视化、验证、监督。夏子琳:调查。朱永民:数据管理。王文博:监督。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能会影响本文报告的工作。
致谢
本项工作得到了国家自然科学基金 [资助编号:52375499]的支持。作者感谢他们的实验室在本研究中的支持和帮助。