基于因果分析的故障过程推断:从事件日志到预测故障树

《Reliability Engineering & System Safety》:Inferring Failure Processes via Causality Analysis: from Event Logs to Predictive Fault Trees

【字体: 时间:2026年01月18日 来源:Reliability Engineering & System Safety 11

编辑推荐:

  本文提出了一种结合因果分析与过程挖掘的新方法,从系统运行事件日志中自动构建预测故障树(PdFT)模型,为工业4.0背景下关键系统的预测性维护提供了可解释性强、数据驱动的可靠性分析新范式。研究通过引入因果显著性度量,有效识别组件间及环境变量对系统故障的因果影响,并开发了CALYPSO工具链实现模型自动推断。概念验证表明,该方法能准确揭示复杂系统的故障传播机制,对提升系统可靠性与运维效率具有重要意义。

  
在当今工业4.0时代,人工智能(AI)的深度融合正深刻变革着传统工业流程。特别是在预测性维护(PdM)领域,AI技术通过优化生产和控制过程,为早期识别运行效率低下、减少停机时间和维护成本提供了全新可能。然而,这一愿景面临两大现实挑战:一方面,关键系统应用对分析结果的可解释性提出极高要求;另一方面,尽管监测设备产生了海量数据,但真实的故障事件发生频率低,且传感器在嘈杂工业环境中可能记录不准确或不完整的数据,这严重影响了纯数据驱动预测模型的准确性。传统的模型驱动方法虽能保证一定的可解释性,却又难以灵活适应从数据中捕获的实际系统行为。这种模型驱动与数据驱动方法之间的隔阂,正是当前工业智能运维领域亟待突破的核心问题。
为解决这一难题,发表于《Reliability Engineering》的研究论文《Inferning Failure Processes via Causality Analysis: from Event Logs to Predictive Fault Trees》提出了一种创新的融合方法。研究人员开展了一项旨在集成模型驱动和数据驱动方法的研究,他们引入了名为预测故障树(PdFT)的新形式化模型。该研究的核心是开发一套自动化工具链,支持通过基于因果关系的DD技术自动精炼自上而下的模型。为了验证方法的有效性,研究团队还构建了CALYPSO工具原型,并利用基于Python的仿真器生成的合成数据集进行了概念验证。
为开展研究,作者主要运用了几项关键技术方法。方法核心是基于克莱因伯格的因果理论,结合过程挖掘(PM)概念,从包含离散组件故障事件和连续变量时间序列的系统日志中,发现系统事件与环境条件之间的因果关系。该方法首先将组件状态转换为变迁,并将连续时间序列变量离散化为事件形式,定义原子假设(包括变迁假设和Theta假设)及复合假设。接着,通过计算ε_avg指标并进行单样本t检验,筛选出对特定效应(如组件状态变迁)具有显著性的原因。最后,将发现的因果关系转化为PdFT模型的逻辑谓词和触发函数,从而自动构建出既能反映系统物理结构又能体现数据中因果规律的PdFT模型。实验数据模拟了100年的系统活动,包含超过100万条记录。
研究结果
PdFT形式化体系的构建:研究成功定义了一种新的形式化模型——预测故障树(PdFT)。该模型通过元组 描述系统,其中C是组件集合,D是动态(环境变量)集合,E是事件(组件间关系)集合,μ是评估函数。PdFT的关键创新在于引入了“动态”概念,通过函数θ将环境变量值(如温度、压力)与组件行为阈值关联起来,并定义了输入/输出端口来建模组件间的相互作用和内部状态传播。
基于因果推断的模型发现方法:论文提出了一个三步骤的方法论(问题形式化、推理模型发现、PdFT生成)来自动从数据中推断PdFT模型。核心是结构推断复合假设推断。结构推断利用克莱因伯格的因果度量方法,识别出对组件状态变迁有显著影响的原子事件(其他组件的变迁或环境变量超阈值)。复合假设推断则进一步将这些原子原因组合成布尔逻辑谓词,作为PdFT中触发状态变迁的条件。
CALYPSO工具的原型实现与验证:研究开发了CALYPSO工具原型来实现上述方法。在一个包含10个组件、3个传感器(sigA, sigB, sigC)的复杂系统仿真案例中,该工具成功地从事件日志中推断出了正确的故障传播路径和触发条件。例如,它准确发现组件X_top的“up_down”变迁是由组件X_C1s、X_C2s或X_C3s的“up_down”变迁共同触发的(逻辑OR关系),而组件X_C3s的“up_down”变迁则需要其子组件X_C31和X_C30都发生“up_down”变迁且信号sigC的值大于85(逻辑AND关系)。对推断结果的评估显示,其识别显著原因的精确率(Precision)和召回率(Recall)均超过97%,生成的触发规则与仿真模型中预设的真实规则匹配度(Rule Score)达到90%,证明了方法的准确性。
方法的鲁棒性评估:论文还测试了方法对数据噪声的鲁棒性。通过注入不同水平的过
程间噪声和过程内噪声,结果表明该方法具有较好的稳定性。在噪声环境下,精确率保持稳定,召回率虽有所下降但仍保持在较高水平,表明方法更倾向于避免误报,即使在数据质量不佳时也能保持可靠的推断能力。
研究结论与讨论
本研究成功地创建了一个连接模型驱动和数据驱动方法的桥梁。所提出的预测故障树(PdFT)形式化体系,通过引入环境动态和端口事件,扩展了传统故障树的分析能力,使其能够表征更复杂的系统行为,包括组件内部健康状态的变化以及外部环境的影响。更重要的是,研究实现了一套自动化、基于因果分析的模型推断方法论(CALYPSO),能够从历史运行数据中自动学习并完善PdFT模型,减少了对领域专家知识的高度依赖,提升了模型对真实系统行为的贴合度。
这项工作的重要意义在于它为关键基础设施的可靠性分析提供了一种可解释的、数据驱动的解决方案。通过将因果分析与过程挖掘相结合,该方法不仅能预测故障,还能揭示故障发生的根本原因和传播路径,这对于制定精准的预测性维护策略、优化系统设计、提高系统可用性和安全性具有重要价值。此外,该研究为数字孪生(Digital Twin)中行为模型的自动构建提供了新思路。尽管当前研究基于仿真数据,且模型复杂性可能带来计算挑战,但其为处理复杂系统可靠性问题开辟了一条充满希望的道路。未来的工作可以集中在集成更多先验知识以优化计算效率,以及在实际工业数据集上进一步验证和推广该方法。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号