具有异常值检测功能的统一自适应先验图投影方法,用于实现鲁棒的过程监控
《Process Safety and Environmental Protection》:Outlier-aware unified adaptive-prior graph projection for robust process monitoring
【字体:
大
中
小
】
时间:2026年05月11日
来源:Process Safety and Environmental Protection 7.8
编辑推荐:
杨旺|梅燕轩|应正|蒋青雷|刘文忠
香港城市大学数据科学系,九龙999077,中国香港
摘要
在实际的工业过程中,异常值频繁出现,阻碍了可靠的故障检测。现有的鲁棒方法通常直接将受污染的数据投影到低维子空间中,导致潜在表示被破坏,监控阈值不准确。此外,它们在降维过程中很少同时确保
杨旺|梅燕轩|应正|蒋青雷|刘文忠
香港城市大学数据科学系,九龙999077,中国香港
摘要
在实际的工业过程中,异常值频繁出现,阻碍了可靠的故障检测。现有的鲁棒方法通常直接将受污染的数据投影到低维子空间中,导致潜在表示被破坏,监控阈值不准确。此外,它们在降维过程中很少同时确保适应性(允许数据确定自身的结构)和特异性(结合先验结构知识)。为了解决这些限制,本文提出了一种新的异常值感知的统一自适应先验图投影(OUAP-GP)方法,用于鲁棒故障检测。OUAP-GP将受污染的数据分解为干净数据和异常值矩阵,仅使用干净数据矩阵进行投影,以确保子空间不受污染。在降维过程中,自动学习并保留干净数据的稀疏重建关系,以确保适应性。同时,构建一个捕捉原始数据局部和全局结构的几何图,并将其嵌入到稀疏学习过程中,以提高特异性。然后在干净的低维子空间和残差上进行故障检测。通过对数值案例和工业多相流设施过程的实验验证,OUAP-GP在鲁棒性方面优于现有方法,在不同的异常值污染水平下具有更高的故障检测率和更低的误报率。
引言
现代工业过程变得大规模、集成化和操作复杂化,这可能导致异常操作条件的潜在后果。由于设备退化、传感器漂移或过程干扰引起的故障可能会通过高度耦合的系统传播,如果不能及时检测到,可能会导致重大事故、环境污染事件或重大经济损失。因此,有效的过程监控已成为提供可靠决策支持以缓解风险和防止损失的基本组成部分(Rao等人,2026年)。随着大数据时代的到来,从工业工厂不断收集大量数据,推动了数据驱动过程监控方法的快速发展(Wu等人,2026年)。
在各种数据驱动的方法中,多变量统计过程监控(MSPM)方法获得了广泛的应用(Wang等人,2024b;Zhang等人,2025年)。通常,高维过程数据被投影到低维子空间中,然后在主子空间和残差子空间分别进行监控(Fang和Zheng,2024年)。在降维过程中,通常希望保留原始数据的基本特征,以确保准确的故障检测(Yin和Yan,2024年)。例如,主成分分析(PCA)通过保持最大方差的方向来捕捉数据的全局方差结构(Zheng等人,2025年)。然而,它可能无法保留对监控复杂过程同样重要的局部结构。
为了在降维过程中捕捉数据的局部结构,开发了基于流形学习的各种过程监控方法,如邻域保持嵌入(NPE)(Fan等人,2023年)和局部保持投影(LPP)(Xu等人,2023年)。Shah等人(2022年)提出了一种基于黎曼度量的修改后的局部保持投影(MLPP)方法,用于故障检测,以保留流形的内在特征。此外,Zheng等人(2024年)提出了一种联合结构二分图投影,充分利用数据的全局和局部结构信息来提高监控性能。然而,这些技术通常依赖于基于k最近邻(kNN)的手动构建的图,这往往是临时性的、不灵活的,并且缺乏适应不同数据集的能力(Wang和Fan,2023年)。为了克服这一限制,几种方法尝试使用稀疏表示(SR)自动构建图。例如,稀疏保持投影(SPP)(Qiao等人,2010年)学习了一个稀疏系数矩阵,捕捉样本之间的重建关系,并在投影过程中嵌入这种结构。尽管如此,这些方法通常采用两阶段策略,首先必须学习稀疏系数,然后优化投影矩阵。这种两阶段方式可能导致不一致和次优解。
虽然这些监控方法在捕捉高维过程数据的基本特征方面被证明是有效的,但它们通常假设输入数据质量高且无污染。然而,在实际的工业环境中,由于传感器故障、通信噪声或过程干扰,异常值是不可避免的,严重影响故障检测的准确性(Zhang等人,2024年;Wang等人,2023a)。图1直观地说明了异常值对故障检测的负面影响。在图1(a)中,原始数据只包含正常样本(蓝圈),因此可以根据正常样本的分布建立准确的监控阈值(蓝椭圆)。在这种情况下,故障样本(黄三角形)明显位于椭圆边界之外,从而能够准确检测到故障。相比之下,图1(b)显示了训练数据中存在异常值(红圈)的情况。在这种情况下,估计的阈值(红椭圆)显著扩大,导致故障样本被错误地包含在阈值区域内。因此,异常值的存在会导致阈值不准确,进一步降低故障检测率。
为了减轻异常值对故障检测的负面影响,已经开发了鲁棒监控方法,这些方法通常可以分为基于异常值检测的方法和基于鲁棒建模的方法(Zhu等人,2018年)。基于异常值检测的方法通常在构建监控模型之前进行预处理步骤以识别和删除异常值。Wang等人(2023b)提出了一种基于差异的矩阵分解(DDM)方法来检测多模态过程中的异常值。Lou等人(2021年)提出了一种新的基于矩的鲁棒PCA(MRPCA)方法,利用高阶和二阶中心矩之间的差异来识别异常值。Bao等人(2018年)利用最小协方差行列式估计器进行工业过程中的异常值检测。Zeng等人(2023年)开发了一种鲁棒堆叠概率潜在变量模型用于故障隔离,其中引入了一个由Beta-Bernoulli先验控制的异常值指示向量来识别异常值的位置和幅度。然而,这些基于异常值检测的过程监控方法的有效性在很大程度上取决于检测步骤的准确性。如果并非所有异常值都被识别和删除,它们对故障检测性能的影响仍然存在。相反,如果正常样本被错误地分类为异常值并被丢弃,剩余的训练数据可能不足以表示过程的真实分布。
基于鲁棒建模的方法在构建监控模型时考虑了异常值,通常通过加入惩罚项来抑制它们的影响。Xiao等人(2016年)提出了一种基于稀疏表示保持嵌入的鲁棒动态过程监控,对异常值和噪声施加不同的范数约束以提高鲁棒性。Luo等人(2024年)引入了一种带有加权协方差矩阵的鲁棒和稀疏典型相关分析用于故障检测和诊断,通过对异常值添加小权重系数来减小它们的影响。Xu和Ding(2022年)开发了一种相似性和稀疏性协作嵌入(SSCE)方法,在训练模型中加入稀疏约束以提高对异常值的鲁棒性。Fu等人(2024年)提出了一种图嵌入字典对学习方法,通过对投影分析字典施加l21范数约束来提高其鲁棒性。
尽管在鲁棒过程监控方面取得了显著进展,现有方法仍然存在几个限制,限制了它们的有效性。(i)尽管一些鲁棒方法使用某些惩罚项来减轻异常值的影响,但它们仍然直接将原始的、受污染的数据投影到低维空间。结果,学习到的潜在子空间仍然受到异常值的影响,这削弱了监控阈值的可靠性并降低了故障检测的准确性。(ii)在降维过程中,许多方法依赖于手动构建的基于kNN的图来保持局部或全局数据结构。然而,这样的图往往是临时性的和非自适应的,无法允许数据确定自身的结构。尽管一些基于SR的方法尝试从原始数据自动学习稀疏重建关系,但它们往往缺乏特异性,因为它们没有充分利用原始数据中包含的先验知识。因此,得到的潜在子空间不一定富含信息,这可能会影响准确的故障检测。总之,仍然存在一种鲁棒监控方法的明显空白,该方法可以同时确保适应性(让数据自己说话)和特异性(注入先验结构知识)的降维,同时保持对异常值的鲁棒性。
为了应对这些挑战,本文提出了一种新的异常值感知的统一自适应先验图投影(OUAP-GP)方法,用于鲁棒过程监控。OUAP-GP系统地将异常值感知的鲁棒分解、自适应图和先验图集成到一个统一的优化模型中,目标是提高低维子空间的鲁棒性、适应性和特异性。具体来说,OUAP-GP将原始的受污染数据分解为干净数据矩阵和异常值矩阵,确保仅使用未受污染的部分进行降维。同时,自动从干净数据中学习稀疏重建关系,使投影以自适应的方式保留内在关系。为了进一步提高降维的特异性,OUAP-GP引入了一个几何图,编码原始数据的局部和全局结构。该图被嵌入到稀疏重建关系学习中,有效地将先验知识注入模型中。因此,所提出的方法产生了更具鲁棒性和信息量的低维子空间,使得在存在异常值的情况下能够更准确地检测故障。本文的贡献总结如下:
1. OUAP-GP通过将原始的受污染数据分解为干净数据矩阵和异常值矩阵,避免了潜在子空间的污染,仅将前者投影到低维子空间进行故障检测。
2. 通过在低维子空间中保留干净数据的稀疏重建关系,确保了模型的适应性。
3. 通过构建捕获局部和全局结构的几何先验图并将其嵌入到稀疏重建学习中,有效提高了模型的特异性,充分利用了原始数据中的先验知识。
本文的其余部分组织如下。第2节介绍初步内容。第3节详细介绍了提出的算法和优化过程。第4节介绍了鲁棒过程监控方法。第5节通过数值示例和工业多相流设施过程证明了所提方法的有效性。最后,第6节总结了本文。
术语说明
稀疏表示(SR)旨在用尽可能少的原子从字典中选出来表示每个数据点。假设X=[x1,x2,…,xn]∈Rm×n是历史数据,包含m个变量和n个样本。在实际应用中,数据本身X通常被选为字典(Wang等人,2022年)。在这种情况下,SR通过以下优化问题将每个数据样本xi表示为数据集X中其他样本的稀疏线性组合:minS‖S‖0 s.t.X=XS, Sii=0
方法论
在本节中,提出了名为OUAP-GP的方法,用于存在异常值时的鲁棒故障检测。一般来说,故障和异常值的表现与正常样本不同。所提出的方法并不旨在严格物理意义上对异常值和故障进行分类。相反,它的设计目的是在训练数据被异常值污染时实现鲁棒建模,以便获得可靠的监控阈值。这反过来有助于改善故障检测。
异常值情况下的鲁棒过程监控
在解决了OUAP-GP中的优化问题(9)之后,一个正交投影矩阵A将受污染数据X的干净部分C映射到一个有意义的低维子空间。这个子空间不仅没有异常值,而且保留了干净数据的本质稀疏重建关系S。此外,它通过先验图D嵌入了原始数据的局部和全局几何结构,从而产生了更有意义的潜在表示。
案例研究
在本节中,通过数值示例和工业规模的多相流过程展示了所提方法的有效性和鲁棒性。比较方法包括基于降维的鲁棒监控方法,包括:
(1)图嵌入字典对学习(GEDPL)(Fu等人,2024年):构建了一个先验图,但它不显式地分解受污染的数据,也不基于恢复的干净样本进行自适应图学习。
结论
在这项工作中,提出了一种新的OUAP-GP方法,用于在存在异常值的情况下进行鲁棒过程监控。与直接投影受污染数据的传统方法不同,OUAP-GP采用了考虑异常值的鲁棒分解技术,将干净数据与异常值分离出来进行投影,从而提高了模型的鲁棒性。OUAP-GP保留了干净数据在潜在子空间中的稀疏重构关系,使模型能够自适应地、自动地捕捉数据的内在结构。
**作者贡献声明:**
- 王阳:撰写原稿、软件实现、方法论制定、概念构建。
- 薛梅燕:撰写原稿、数据验证、数据整理、概念构建。
- 郑颖:审阅与编辑、项目监督、资金申请。
- 江清雷:审阅与编辑、项目监督。
- 刘文忠:审阅与编辑、项目监督。
**利益冲突声明:**
作者声明没有已知的财务利益冲突或个人关系可能会影响本文的研究结果。
**致谢:**
本研究部分得到了国家自然科学基金(62503188)、湖北省国际科技合作项目(2024EHA033)以及广东省基础与应用基础研究基金(2025A1515010134)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号