近年来,故障检测(Fault Detection, FD)的方法经历了三个范式的进步。首先是基于模型的方法,这些方法利用分析冗余(观察者、奇偶关系)和状态估计技术(如卡尔曼观察器(Kalman Observers,Isermann,2004年)以及概率模型(如贝叶斯网络和隐马尔可夫模型(Bayesian Networks and Hidden Markov Models)来表示系统不确定性(Dong和He,2007年;Flores-Quintanilla等人,2005年)。尽管方程和物理约束有助于故障隔离的残差生成,但它们需要准确的系统动态,对于复杂、非线性或时变工业设备来说并不实用。因此,基于知识的方法(包括基于规则的专家系统、模糊逻辑、因果推理和基于案例的推理)应运而生,直接编码人类专业知识(Peng等人,2010年)。然而,这两种方法严重依赖于领域专家,并且随着工业设备复杂性的增加而难以扩展。随着工业传感器的普及,FD转向了数据驱动的方法,包括经典机器学习(如偏最小二乘法(Partial Least Squares, PLS)和支持向量机(Support Vector Machines, SVMs)以及概率学习方法(如高斯混合模型(Gaussian Mixture Models)用于异常检测,从而直接从测量数据中提取模式(Yan等人,2017年;Yin等人,2014年)。
最近,传感技术和计算能力的进步推动了深度学习(Deep Learning, DL)的发展,DL通过从原始多变量时间序列中学习分层和非线性表示来超越早期范式,而无需手动特征工程,同时处理大量数据(Li等人,2021年;Wang等人,2024年;Zhou等人,2022年)。基于重建的方法(如自动编码器(Autoencoders, AE)和通用对抗网络(General Adversarial Networks, GAN)通过重建错误来检测设备异常和故障实例(Chen等人,2020年;Hashimoto等人,2021年;Jebril等人,2022年)。另一方面,基于序列的方法(如循环神经网络(Recurrent Neural Networks, RNN)、长短期记忆(Long Short-Term Memory, LSTM)和门控循环单元(Gated Recurrent Units, GRU)捕捉多变量时间序列的数据动态以预测设备性能(Choi和Kim,2024年;Hsu等人,2022年)。然而,这两种DL方法可能无法完全结合设备组件的空间和时间表示。这在以过程为导向的操作(如半导体制造)中往往无法充分表示设备的空间结构和过程顺序。一种结合时空关系和操作顺序的过程感知方法可以提高检测、预测和故障定位的准确性(Shen等人,2022年)。
图神经网络(Graph Neural Networks, GNN)是一种能够实现时空表示学习的模型。GNN可以在非欧几里得结构(如设备拓扑)上进行时空表示学习。通过节点和边传递信息,GNN可以有效地捕捉组件之间的耦合(Hoang等人,2023年)。此外,多年来GNN的性能也得到了提升,无论是通过引入注意力机制来增强关系洞察力,还是通过在产生分类和预测等任务的结果之前对GNN的输出进行下游编码-解码处理(Jin等人,2024年)。然而,大多数现有的GNN应用在工业环境中并不以过程为导向,因为它们没有明确映射子过程的操作顺序和测量数据的获取顺序。在GNN中使用编码-解码流程的情况下,它们通常依赖于全局或学习到的池化方法,这会丢弃节点身份,从而无法有效保留原始图拓扑。这限制了组件级别的定位和可操作的诊断。
因此,本文提出的Graph-Recurrent Networks for Equipment Prognostics(GR4EP)是一种基于过程的图论-时间框架,它利用了跨设备的多模态数据。GR4EP结合了来自设备/过程A的电机特征的上游传感器读数和由设备/过程B记录的下游电气测试结果,反映了A的行为对B的测量结果的影响,同时保留了图拓扑。这些模态数据按操作顺序进行循环同步和融合,使模型能够捕捉半导体制造FT工作流等工业操作中的因果线索。这与以往仅关注单一设备内部传感器流的工作不同,后者通常结合与该设备相关的信号和记录(如设备传感器及其维护历史(Chung等人,2023年)或该设备的内部事件日志(Bae等人,2023年)。这些设备内部的多模态设计没有明确编码子过程之间的交互作用。
据我们所知,目前没有发表的文献专注于半导体制造FT阶段等工业过程,将上游设备组件的电机特征与下游设备数据(如被测设备(Device-under-Test, DUT)的电气测试结果)相结合。GR4EP的过程感知多模态原则也可以应用于其他制造场景中的故障检测,其中上游工具的行为影响了由其他工具捕获的下游测量结果。
本文的主要发现和贡献如下:
- 1. 一种适用于以过程为导向的工业操作(如半导体FT阶段)的设备故障检测的过程感知图论-时间框架。
- 2. 跨设备的多模态数据融合,其性能优于使用单模态数据的现有最佳算法(State-of-the-Art, SOTA)。
- 3. 通过结合保留索引的池化和反池化操作进行上下文分析,以保持节点身份并整合注意力系数。
- 4. 用于数据驱动的退化监控的潜在空间嵌入,同时重建的输出可以指示下一周期的故障,以便进行闭环方式的早期干预。
- 5. 具有低计算成本的可行性,并且可以推广到其他以过程为导向的工业操作,例如使用多模态数据的CNC铣削。
本文的其余部分组织如下:第2节解释了半导体制造中FT设置的背景、FT中的多模态数据、用于故障检测的相关DL方法以及GNN的概述。第3节阐述了问题,并详细介绍了GR4EP的三个阶段。第4节使用FT生产数据评估了GR4EP的有效性,并验证了预测结果。最后,第5节总结了研究结果,并提出了GR4EP在其他领域的适用性及未来研究方向。
背景
提出的过程感知图论-时间框架
本节介绍了GR4EP,这是一个三阶段的、基于过程的框架,反映了FT阶段的顺序流程。如图3所示,首先从测试处理设备获取电机特征,然后收集DUT的电气测试结果。
GR4EP遵循这一过程顺序,首先使用GAT对处理设备的电机图进行编码,以在学习电气测试开始之前了解空间依赖性和短期时间背景。
结果与讨论
本节介绍了使用GR4EP在半导体制造FT阶段进行设备预测的实验结果。这些结果与FT阶段的测试过程以及测试处理设备的电机运动和DUT的电气测试机制进行了分析和解释。
结论
总之,本文提出了GR4EP,这是一种创新的基于过程的图论-时间三阶段故障检测框架,适用于以过程为导向的工业操作(如半导体制造),特别是在FT阶段。GR4EP结合了上游测试处理设备的电机特征和下游DUT的电气测试结果的多模态数据,按测试处理设备先于测试设备的操作顺序进行融合,以预测下一个故障点。
CRediT作者贡献声明
Lerroy Ashwin Amal Roy:撰写 – 审稿与编辑、原始草稿撰写、可视化、验证、软件开发、方法论、调查、形式分析、数据整理、概念化。
James Sze Boon Beh:撰写 – 审稿与编辑、可视化、验证、资源管理、调查、形式分析。
Chai Kiat Yeo:撰写 – 审稿与编辑、监督、资源管理、项目管理。
Shyamsunder Regunathan:撰写 – 审稿与编辑、验证、监督、资源管理。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
致谢
本工作部分得到了新加坡经济发展委员会(Economic Development Board of Singapore)工业研究生项目的支持。