具有因果关系推断功能的图自动编码器，用于复杂工业过程中的故障检测和根本原因识别

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ADVANCED ENGINEERING INFORMATICS》：Graph autoencoder with causal relationship inference for fault detection and root cause identification in complex industrial process

【字体：大中小】 时间：2026年02月15日 来源：ADVANCED ENGINEERING INFORMATICS 9.9

编辑推荐：

　　现代工业过程因高度互联性导致故障传播复杂，传统方法难以有效整合时空依赖与因果关联。本文提出图自编码器带因果推断（GACRI）模型，通过双解码器同步重构特征与图结构，结合全局索引和因果发现网络，实现故障检测、隔离与根因分析的端到端解决方案。实验表明其在半导体等四类流程监控中优于传统及深度学习方法。

李世进|郝军|于建波

同济大学机械工程学院，中国上海曹安路4800号，邮编201804

摘要

现代工业过程的特点是各个单元高度互联和相互依赖，干扰和故障会在变量、设备和子系统之间动态传播。这种复杂的相互作用使得在现实应用中（如半导体制造）识别根本原因变得尤为困难。尽管有许多现有的方法能够进行根本原因分析，但大多数方法在有效整合时间动态和空间因果依赖性方面存在不足，从而限制了其整体模型性能。在这项研究中，提出了一种名为“带有因果关系推断的图自动编码器”（GACRI）的新网络来应对这一挑战。首先，提出了一种双视图解码器图自动编码器（即特征级和解码器级解码器），以同时考虑时间特征和空间因果关系。其次，基于学习到的特征和重构的残差空间开发了一个全局索引用于故障检测。通过重构损失分析变量贡献度，以隔离故障变量。最后，设计了一个因果发现网络来预测故障变量之间的因果关系，以便进行根本原因识别。在四个过程（即数值过程、田纳西东曼过程、半导体过程和液压系统）上的测试结果证明了GACRI在过程监控方面的优越性能。

引言

现代工业过程，特别是在资本密集型制造领域（如半导体制造），是高度互联的系统。这种固有的互联性引入了重大的系统脆弱性，因为局部故障或干扰可以通过物理耦合和逻辑操作依赖性传播，从而影响下游生产单元并导致系统性能下降。因此，在这种情况下确保操作安全和经济效率需要强大且智能的过程监控技术，这对于防止经济损失至关重要[1]、[2]、[3]。

在过程监控应用中，一个关键挑战是准确识别故障的根本原因，这比单纯的检测更为重要，因为它能够精确定位故障源并采取有针对性的干预措施。这项任务被称为根本原因识别（RCI），由于高度互联系统中故障的传播特性，这仍然是一个挑战。一个组件的干扰很少会局限于该组件。它通常会随着时间推移并通过因果链接在过程变量或子系统之间传播。这使得区分故障源及其传播效应变得特别困难。已经有很多研究致力于解决过程监控的挑战，这些研究通常遵循故障检测、隔离和RCI的顺序流程。然而，一个主要限制是：这三个阶段通常分别使用不同的方法实现，导致分析流程不连贯。

对于故障检测，已经开发了多种数值技术，包括多变量统计方法（如主成分分析[PCA] [4]、独立成分分析[ICA] [5]和偏最小二乘[PLS] [6]），以及基于深度学习（DL）的模型，如卷积神经网络、循环神经网络、图神经网络（GNNs）和自动编码器（AE）[1]。特别是AE，由于其能够学习正常运行数据的压缩表示而具有独特优势。它们的内在结构依赖于重构误差，可以构建平方预测误差（SPE）统计量，从而有效检测异常并指示故障存在[1]。李等人[7]提出了一种两阶段堆叠AE方法用于过程监控。在第一阶段，AE单元非线性扩展信号以消除相关性并对其进行归一化；然后在第二阶段，通过限制变化来提取深层慢特征。杨等人[8]设计了一种基于对抗域适应的双网络AE用于过程故障诊断。纪等人[9]开发了一种差分循环AE，通过优化遗忘门更新来增强短期非平稳特征学习能力。

故障隔离技术负责识别可能导致故障的最相关过程变量[10]。一般来说，现有方法可以分为三类：传统统计方法、基于变量选择的方法和基于DL的技术[11]。传统统计方法，如基于PCA或ICA的贡献分析，被广泛使用，但经常受到“模糊”效应的影响，可能导致误导性的隔离结果[12]、[13]。后来，基于变量选择的方法被设计出来作为特征选择问题来缓解这一问题。例如，最小绝对值收缩和选择算子（LASSO）及其变体（如L₂正则化）被用来选择最能区分正常状态和故障状态的变量[14]、[15]。最近，DL模型也被应用于故障隔离。这些方法利用神经网络的强大特征提取能力（即知识引导的架构[16]、图网络[17]、去噪AE[18]）来捕捉复杂的变量关系并提高隔离精度。

根据故障隔离结果，进行根本原因识别以定位根本原因。经典方法包括……虽然这些方法可以分析变量之间的因果关系，但它们的输出在实际工业场景中往往很复杂且难以处理。为了提高可解释性，引入了诸如通过最大生成树[19]和神经网络[20]进行图简化等技术来处理非线性和动态因果关系。最近的改进还解决了非平稳变量的问题，并结合了先进的统计技术以进行更准确的因果推断[[21]、[22]、[23]]。

现有方法的一个主要限制是它们忽略了过程变量之间的空间关系。如前所述，单元之间的空间相互作用是不可避免的，这意味着根本原因可能源于互联单元变量的综合影响。因此，捕捉空间相关性至关重要。最近，GNNs已被应用于建模这些空间和时间依赖性，用于过程监控[[24]、[25]、[26]]。例如，刘等人[27]将因果发现与图注意力机制结合用于故障检测，而吴等人[28]提出了一种对比增强图学习网络用于半监督特征表示。刘等人[29]将图注意力网络与卷积神经网络结合用于特征学习和GC分析。在无监督设置中，图AE被用来学习未标记数据中的潜在图结构。吴等人[30]开发了一种结合局部和全局信息的分布式图AE，而刘等人[31]提出了一种图动态AE来建模样本之间的动态关系。然而，这些基于图AE的方法只采用了一个解码器，该解码器仅负责重构特征嵌入或邻接矩阵。由于图自动编码器的编码器利用了节点特征和图结构的信息，因此解码器仅重构特征矩阵或邻接矩阵是不合适的。

尽管上述方法在过程监控方面取得了相当大的成功，但仍存在三个关键挑战：（1）缺乏端到端的诊断框架：当前方法通常将故障检测、隔离和根本原因分析作为离散的、顺序的任务使用不同的模型。这会导致级联错误、计算开销和集成复杂性，最终阻碍了连贯和高效诊断系统的部署；（2）时空特征表示的不足：现有方法主要强调时间动态，但缺乏对空间和拓扑依赖性的充分整合，通常导致定位不准确；（3）因果发现中的参数约束：现有因果推断方法（即基于GC和TE的方法）的性能受到线性因果关系假设和严格数据分布要求的限制。

本研究提出了一种名为“带有因果关系推断的图自动编码器”（GACRI）的新过程监控模型来解决上述问题。本研究的主要贡献如下：（1）GACRI具有重要的应用价值，因为它可以在单个网络内执行故障检测、故障隔离和根本原因识别，从而消除与多个离散模型级联相关的错误传播；（2）设计了一种双视图解码器，用于联合重构节点特征和图结构，这使得在复杂变量依赖性下能够进行稳健的表示学习；（3）提出了一个因果发现模块来推断隔离的故障相关变量之间的因果关系，从而消除了对严格线性或分布假设的需求。这使得在复杂工业过程中进行更灵活和准确的根本原因分析成为可能。

本文的其余部分结构如下。第二节介绍了GACRI和基于GACRI的过程监控方法。第三节给出了实验结果。最后，第四节总结了结论。

节选

GACRI的架构

在本节中，图1展示了用于过程故障检测和根本原因识别的GACRI的概述。GACRI主要包含三个部分：（1）图结构构建；（2）基于双视图解码器图自动编码器的特征学习；（3）基于因果关系预测模块的根本原因识别。GACRI首先将一维过程数据转换为图结构 G = {V, E, X），其中 V = {v₁, v₂, …, v_n} 是图中的一组节点，n 是节点的数量