《Reliability Engineering & System Safety》:Mutual information-guided causal feature selection method for quality prediction of complex products
编辑推荐:
提出基于互信息的因果特征选择方法MICFS,通过数据处理不等式构建优先级准则,结合收敛结构激活原理建立配偶变量标准,利用双向筛选机制消除冗余特征,在无需条件独立测试的情况下构建稳定的马尔可夫边界,有效提升高维复杂产品质量预测的准确性和可解释性。
Jiali Cheng|Yan Wang|Bin Li|Zhiqiang Cai|Shubin Si
西北工业大学工业工程系,中国陕西省西安市710072
摘要
在复杂产品制造中,多变量非线性系统对质量建模提出了挑战,其中识别关键特征对于提高预测准确性和可解释性至关重要。然而,大多数现有的因果特征选择方法依赖于条件独立性检验。这些检验在高维场景下成本高昂且不稳定,这促使人们寻找计算效率高且结构简洁的替代方法。本文提出了一种基于互信息的因果特征选择方法(MICFS),用于构建目标变量的马尔可夫边界(MB)。首先,根据数据处理不等式推导出一个优先准则,通过比较特征与目标之间的互信息初步建立父-子变量集。其次,通过整合收敛结构的激活原理提出了一个配偶变量准则。设计启发式规则来共同验证双向筛选结果,以确保条件依赖关系的稳定性,从而形成稳定的MB。在基准贝叶斯网络和工业数据集上的评估表明,MICFS无需条件检验即可重构因果结构,并且性能优于基线算法,为高维质量预测提供了基于因果关系的特征子集。
引言
随着制造技术的进步和对复杂产品精度要求的提高,生产数据变得高维且耦合性强,这增加了建模的复杂性,并削弱了产品质量控制的可靠性[1]、[2]。在组装飞机发动机等复杂系统时,会收集大量的过程参数和状态信号。冗余特征增加了计算成本,并掩盖了关键的质量信息,阻碍了从过程输入到性能结果的准确映射[3]。因此,在复杂制造系统中的质量评估仍然具有挑战性。可靠的一致性评估依赖于对变量之间非线性关系的准确描述以及对关键相关特征的有效识别[4]、[5]。
传感和监测技术的日益普及使得质量建模从基于物理的方法转向了从历史过程数据中学习的数据驱动模型[6]、[7]。虽然物理模型提供了清晰的结构可解释性,但它们难以捕捉高维过程和非线性变量交互的完整复杂性,从而限制了其准确性和适应性。相比之下,数据驱动方法通过从过程数据中识别关键变量来实现高效的建模和预测[8]。因此,特征选择在质量预测建模中变得至关重要,支持性能评估、过程可追溯性和质量控制策略。
在现有的特征选择方法中,由于计算效率高,过滤方法在复杂产品质量建模中被广泛采用[9]。互信息作为一种代表性的信息论度量,能够有效描述变量之间的非线性依赖关系,并基于最大相关性和最小冗余的原则开发了各种扩展[10]。然而,在多变量场景中,有效的质量建模需要预测准确性以及因果可解释性,以支持质量控制和决策优化[11]。因此,特征选择研究越来越强调因果分析而非相关性挖掘。
因果特征选择已被引入,以帮助识别复杂系统中的关键变量[12]。特别是基于马尔可夫边界的筛选旨在识别目标变量的紧凑且因果相关的变量集,通常包括其父变量、子变量和配偶变量,而无需重构全局因果图[13]。然而,大多数现有方法严重依赖于条件独立性检验,导致计算成本高和估计不稳定,这限制了它们在复杂产品质量预测任务中的应用[14]、[15]。
为了减少对昂贵独立性检验的依赖,人们探索了轻量级的因果特征选择方法,但这些方法的因果完整性和可靠性仍然不足。许多方法强调特征与目标之间的直接关联,忽略了间接因果效应,导致特征集不完整。此外,冗余去除通常基于相关性度量或启发式规则,这可能会削弱因果有效性和模型可靠性。
为了解决上述挑战,本文提出了一种结合稳定性确定机制的基于互信息的因果特征选择框架,以提高鲁棒性。主要贡献如下:
(1) 有助于识别局部因果结构。开发了一个特征选择框架,以可靠地识别目标变量的马尔可夫边界,旨在提高因果完整性和结构正确性。
(2) 提高了因果特征选择的鲁棒性。引入了一种稳定性筛选机制,以消除由冗余或噪声引起的不稳定特征,确保在不同样本和数据扰动下马尔可夫边界的一致性。
(3) 在多种场景下的全面验证。该方法在基准贝叶斯网络数据集上进行了验证,以评估因果结构的恢复能力,并在真实工业数据集上展示了其在高维质量预测任务中的有效性。
本文的其余部分组织如下。第2节回顾了理论背景,介绍了相关符号,并讨论了因果特征选择的相关工作。第3节详细介绍了所提出的基于互信息的因果特征选择方法。第4节在基准和工业数据集上进行了实验。第5节对结果进行了广泛的分析和讨论。最后,第6节总结了本文并概述了未来的研究方向。
部分摘录
复杂产品的质量预测
复杂产品的质量通常受到多个连续变量综合影响,这些变量表示为一个特征向量
x_i是反映制造过程状态特征的连续测量值。相应的目标变量
表示一个连续的质量评估指标。因此,质量预测任务的本质在于建立映射关系
所提出方法的概述
为了高效识别与复杂产品制造中的目标变量具有因果关系的关键特征,我们提出了图4所示的因果特征选择工作流程,包括三个主要模块:(a) 复杂产品数据输入和预处理,(b) 基于理论原理的因果特征选择,以及(c) 马尔可夫边界的构建和性能评估。
在数据预处理阶段,利用互信息
实验
设计了两种实验方案来验证所提算法的性能。具体来说,使用具有已知结构的基准贝叶斯网络数据集来定量评估马尔可夫边界发现的效率。此外,还利用真实世界的工业数据集来检验在产品质量预测背景下的分类效果。
关键因果特征分析
本研究采用MICFS方法从航空发动机装配监测数据中识别潜在的因果特征。实验观察表明,该方法在复杂条件下保持了竞争性的准确性和稳定性。这一数据驱动的框架为理解影响装配质量和振动性能的关键因素和机制提供了合理的依据。表9总结了七个潜在的因果特征及其描述。
结论
本文研究了一种基于互信息的轻量级因果特征选择方法,以减轻高维特征冗余、识别因果结构的难度以及传统因果方法在复杂产品质量预测中的高计算成本。该方法旨在通过分阶段发现父-子变量和配偶变量并评估依赖稳定性来构建稳定的马尔可夫边界。在基准贝叶斯网络上的实验
CRediT作者贡献声明
Jiali Cheng:撰写——原始草稿、方法论、调查、概念化。Yan Wang:验证、形式分析、数据管理。Bin Li:验证、资源管理、数据管理。Zhiqiang Cai:撰写——审稿与编辑、资金获取、概念化。Shubin Si:监督、资金获取。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。