随着半导体制造行业的快速发展,集成电路(IC)芯片已成为现代电子设备的核心组件。它们是推动现代高科技产业发展的关键力量,不断为我们的日常生活带来革命性的变化。(Ebayyeh & Mousavi, 2020)为了提高计算能力,现代半导体制造工艺不断进步,使得芯片设计的复杂性达到了前所未有的水平。现代IC芯片可以集成数百亿个晶体管。这种纳米级精确设计对芯片制造设备和工艺提出了重大挑战。因此,晶圆故障的频率呈指数级增长,晶圆故障的根本原因也变得越来越复杂和多样化。(Zhu et al., 2022)
晶圆图是半导体制造行业中可视化晶圆故障和芯片产量分布的关键工具。(Hsu & Chien, 2007)与从现实世界捕获的图像不同,晶圆图是通过将晶圆测试过程中获得的数据与晶圆上的二维物理坐标(x, y)相关联而生成的。识别相似的晶圆图故障模式使领域专家能够高效地追溯到晶圆制造过程中的根本原因。(Yu & Lu, 2016)以WM811K数据集(Wu, Jang, & Chen, 2015)中的八种故障模式为例,包括中心、甜甜圈、边缘环、边缘定位、局部、随机、划痕和接近全损,许多研究工作(Hansen, Thyregod, 1998, Hansen, Nair, 1997, Hsu, Chen, Chien, 2020, Jeong, Kim, Jeong, 2008, Kim, Choi, Lee, Kim, Bae, Oh, 2021, Ng, Yet, Liau, 2009, Tello, Al-Jarrah, Yoo, Al-Hammadi, Muhaidat, Lee, 2018, Xie, Huang, Gu, Cao, 2014, Yuan, Kuo, Bae, 2011)成功地将这些特定故障模式的发生与晶圆制造过程中的常见原因联系起来。这验证了晶圆图故障模式识别在行业中的重要研究价值。
经验丰富的工程师可以通过手动分析特定的晶圆图故障模式来确定晶圆故障的根本原因。然而,这一过程非常耗时,已无法满足现代半导体制造行业的需求,因为芯片产量和复杂性都在迅速增加。(Liu & Chien, 2013)随着机器学习和深度学习技术的发展,特别是在计算机视觉领域,晶圆图故障模式识别已成为一个活跃的研究领域。现有的研究工作侧重于提高晶圆图分类任务的模型性能。机器学习方法(Fan, Wang, van der Waal, 2016, Hwang, Kuo, 2007, Jeong, Kim, Jeong, 2008, Ooi, Sok, Kuang, Demidenko, Chan, 2013, Piao, Jin, Lee, Byun, 2018, Wang, 2008, Wu, Jang, Chen, 2015, Yu, Lu, 2016, Yuan, Kuo, Bae, 2011)依赖于领域专家的特定先验知识,从而能够手动构建晶圆图的启发式特征。它们的强解释能力也为追溯晶圆故障的根本原因提供了宝贵的中间信息。然而,模型性能仍然是传统机器学习在晶圆图分类任务中的一个关键瓶颈。相比之下,越来越流行的深度学习方法(Bae, Kang, 2023, Kim, Choi, Lee, Kim, Bae, Oh, 2021, Kong, Ni, 2020, Nag, Makwana, Sai Chandra Teja, Mittal, Mohan, 2022, Nakazawa, Kulkarni, 2018, Shim, Kang, Cho, 2020, Shinde, Pai, Adiga, 2022, Yu, Liu, 2021)利用卷积神经网络自动提取晶圆图的特征。这些方法显著减少了手动工作量,并充分利用了GPU的计算能力。此外,卷积神经网络自动提取的特征在应对多种晶圆图故障模式时表现出更强的泛化能力。
WM811K(Wu et al., 2015)和MixedWM38(Wang, Xu, Yang, Zhang, & Li, 2020)是该研究领域中最广泛使用的数据集。WM811K数据集包含811457个单模式晶圆图,其中包括172950个标记样本和638507个未标记样本。MixedWM38数据集包含39015个混合模式晶圆图。这两个数据集都使用元素值{0, 1, 2}来表示晶圆外部区域、无缺陷芯片和有缺陷芯片。然而,仅使用值1和2来表示无缺陷和有缺陷芯片的二进制表示方式存在一定的局限性。晶圆测试过程涉及数十个测试项目,而在不同项目中失败的芯片可能对应于不同的根本原因。因此,依赖于上述两个数据集的现有研究无法满足工业生产环境的实际需求。
同时,大多数现有研究依赖于监督学习。以这种方式训练的模型通过最小化每个样本的预测值与真实值之间的距离来拟合训练集的数据分布(例如,使用交叉熵损失函数)。这种方法严重依赖于标签提供的信息,因此使得监督学习无法识别超出现有标签的新类别。此外,深度学习中常用的分类器,如卷积神经网络中经常使用的softmax或sigmoid函数,本质上将模型的预测限制在预定义的标签集内。然而,工业生产环境是动态的,经常引入各种变化,导致晶圆出现以前未知的故障。因此,现有研究中流行的闭集分类模型无法满足半导体制造行业中晶圆图故障模式识别的所有要求。
为了同时解决已知类别图像分类和新类别图像检测的任务,我们希望采用开放世界学习方法来为已知类别建立紧密且明确的决策边界,从而有效检测新样本。然而,二进制表示{0, 1, 2}缺乏足够的语义粒度,常常导致决策边界模糊,新故障模式容易与已知故障模式混淆。在本文中,我们介绍了两种来自工业生产环境的专用晶圆图:芯片探针图(简称CP Map)和Delta熔丝计数图(简称DFC Map)。CP Map使用多重表示来记录晶圆测试过程中获得的数据,其中每个元素值表示相应芯片失败并中断晶圆测试过程的项目编号。DFC Map是通过捕获熔丝修剪操作期间冗余电子单元的累积消耗变化而获得的数据。相比之下,包含多项目信息的CP Map和包含关于熔丝修剪操作的多值信息的DFC Map为故障模式提供了多维特征。这些丰富的信息使特征提取器能够将已知类别映射到特征空间中的更紧凑的簇中,并使新样本检测器以更高的灵敏度区分新样本和已知类别样本。对于CP Map和DFC Map的独特属性,我们采用基于逐项分层的数据预处理方法来解耦同一网格内的多项目信息,然后对这两种类型的晶圆图进行全面的语义分析。同时,我们设计了一个开放世界学习框架,包括两个组成部分:(1)M3Net用于已知类别图像分类。利用我们对CP Map和DFC Map的理解,我们设计了一个以ResNet为骨干的深度卷积神经网络,并结合了卷积块注意力模块(CBAM)。该模型分别通过多任务学习、多尺度特征融合和多标签分类损失函数探索CP Map和DFC Map的独特属性。(2)并行支持向量机(简称PSVM)用于新类别图像检测。该模块使用多个独立的SVM来划分每个类别与其他所有类别之间的决策边界,识别远离所有已知类别簇的样本。这些样本被标记为潜在的新故障类型,由领域专家进行分析,并根据需要添加到已知类别故障列表中,从而实现这个开放世界学习框架的迭代改进。
本文的其余部分结构如下。第2节回顾了晶圆图故障模式识别领域的现有研究工作。第3节具体描述了CP Map和DFC Map的数据格式,清晰解释了它们的语义信息,并简要介绍了开放世界学习框架的定义。第4节介绍了所提出的开放世界学习框架,包括两个组成部分:M3Net用于已知类别图像分类和并行支持向量机用于新类别图像检测。第5节展示了实验结果,并证明了所提出的开放世界学习框架在以CP Map和DFC Map为主的晶圆制造过程中的强大适用性。第6节总结了本文并简要概述了未来的研究方向。