在数据不平衡的情况下，基于紧凑信念规则的故障诊断方法的分析与优化

《Engineering Applications of Artificial Intelligence》：Analysis and optimization of compact belief rule-based fault diagnosis under imbalanced data

【字体：大中小】 时间：2026年06月07日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　明志超|周志杰|胡长华|李灿|连正火箭动力工程大学，中国陕西省西安市710025摘要数据不平衡在基于人工智能（AI）的故障诊断中构成了重大挑战，因为它通常会导致模型优先考虑多数类的准确性而牺牲少数类的准确性，从而降低诊断性能。本研究在紧凑信念规则模型（一种用于工业诊断的关键AI技

明志超|周志杰|胡长华|李灿|连正

火箭动力工程大学，中国陕西省西安市710025

摘要

数据不平衡在基于人工智能（AI）的故障诊断中构成了重大挑战，因为它通常会导致模型优先考虑多数类的准确性而牺牲少数类的准确性，从而降低诊断性能。本研究在紧凑信念规则模型（一种用于工业诊断的关键AI技术）中探讨了这一问题。我们的分析表明，传统的数据不平衡优化方法会使得规则中的信念度偏向多数类，从而损害模型的公平性。与常见的数据级修复方法（如重采样）不同，我们提出了一种改进的故障诊断模型，该模型在算法层面考虑了类间和类内数据分布。具体来说，目标函数根据边界特征、密度特征以及样本的类间数量差异进行加权。所提出的模型确保在学习过程中均衡考虑所有故障模式。随后，为了在模型适应过程中实现持续学习，将所提出的数据不平衡处理方法系统地集成到自适应更新框架中，以应对概念漂移。通过一个数值案例研究阐明了加权机制，该方法进一步应用于牵引电机轴承故障诊断的工业AI场景。在比较实验中，它在所有不平衡数据集上均取得了最佳性能，准确率、马修斯相关系数和宏观平均几何均值均超过了0.9。即使在动态环境中模拟的概念漂移情况下，该方法也能保持0.9646的高召回率，显示出其在复杂操作条件下的强大应用潜力。

引言

传统的故障诊断模型通常基于数据分布平衡的默认假设构建（Li等人，2025年）。然而，在现实世界的工业环境中，传感器收集的数据经常表现出动态数据不平衡（Zhang等人，2024年），这种不平衡通常会因概念漂移而加剧，这两者共同给基于AI的诊断系统带来了重大障碍（Liu等人，2022年）。这种不平衡导致的性能下降会严重损害诊断准确性，可能导致漏报或误报，从而危及设备可靠性和运行安全（Yang等人，2024年）。因此，研究AI驱动的故障诊断模型对数据不平衡的鲁棒性已成为预测性维护和工业AI应用中的一个关键研究方向。

尽管数据驱动的故障诊断方法已经取得了显著进展，但在数据高度不平衡的工业场景中仍面临根本性挑战：深度模型倾向于欠拟合少数类样本，其黑盒性质严重阻碍了诊断结果在实际操作和维护中的可信度。因此，本研究旨在探索一种结合高可靠性、强可解释性和对不平衡鲁棒性的新型诊断范式。受到基于规则的推理的启发，我们引入了紧凑信念规则模型（CBRM）作为核心框架（Ming等人，2025年）。CBRM不仅通过证据推理明确量化了诊断中的不确定性，其紧凑的结构还有助于模型轻量化，从而降低了过拟合的风险（Yang等人，2006年）。此外，CBRM通过优化算法促进了参数的自适应更新，以在模型准确性和复杂性之间取得平衡（Liu等人，2025年）。然而，仍需进一步探索如何在数据不平衡条件下有效构建和优化CBRM以提高故障诊断性能。

数据不平衡分为绝对不平衡和相对不平衡（Chen等人，2010年）。绝对不平衡源于少数样本数量不足。有限的样本数量无法代表少数类的特征多样性，导致模型泛化能力差（García-Pérez等人，2023年）。解决方案通常需要领域知识增强或少量样本学习方法，如元学习或生成对抗网络（Wuo等人，2022年；Yu等人，2024年）。相对不平衡关注多数类和少数类之间的比例，反映的是规模差异而非绝对稀缺性。常用的技术包括重采样或成本敏感学习。本研究针对的是相对不平衡情况，即存在实质性的少数类，但其数量远少于多数类。

尽管已经有许多关于数据不平衡的研究，但多类数据不平衡问题仍然是一个重大挑战（Li等人，2024b年）。这个问题在工业故障诊断中也很普遍。在文献中（Li等人，2024b年），提出了一种处理多类不平衡数据的方法，为解决这一问题提供了有价值的见解。此外，在算法层面，可以通过定义各种权重和损失函数来处理不平衡数据。Lu等人（2020年）指出，不平衡比率（IR）并不是衡量不平衡数据的主要指标。在处理不平衡数据集时，不应仅依赖IR作为衡量标准。因此，在定义权重和损失函数时，需要同时考虑数据中包含的信息和学习难度（Chen等人，2010年）。

在信念规则模型领域，关于数据不平衡问题的研究仍然很少。目前最具代表性的工作是Hou等人（2024年）的研究，他们探讨了扩展信念规则模型中多数类和少数类规则之间的关系以及数据不平衡问题。通过添加或删除规则以及优化来平衡规则库，可以提高处理不平衡数据的能力。这种改进是从算法和数据两个角度实现的。然而，基于CBRM的故障诊断模型受到数据不平衡的影响以及如何减轻这种影响的问题仍未解决。本文的贡献总结如下：

1.
分析了数据不平衡对基于CBRM的故障诊断带来的挑战。在优化过程中，数据不平衡导致的偏差会进一步加剧信念度的偏差。
2.
通过全面考虑样本的类内和类间分布、边界特征、密度特征以及故障模式类型，将它们纳入样本权重的计算中。这种方法平衡了不同故障模式对诊断结果的影响。
3.
本文提出了一个集成框架，通过无缝结合所提出的不平衡处理方法来应对故障诊断中的概念漂移。该框架通过漂移检测、增量数据构建和加权学习的过程，实现了诊断模型参数的自适应更新。
4.
基于不平衡数据对牵引电机轴承组件进行了故障诊断，并通过与其他方法的比较验证了所提方法的有效性。

本文的其余部分安排如下：第2节回顾了与数据不平衡处理相关的工作和CBRM的基本知识。第3节详细阐述了本文解决的问题。第4节分析和设计了本文提出的方法。第5节进行了数值案例研究和故障诊断实验。第6节总结了本文。

章节片段

问题表述

数据不平衡会导致模型为了整体准确性而牺牲少数类的准确性。在工业故障诊断中，多类数据不平衡的影响以及概念漂移的共同存在进一步加剧了这些挑战。当前的重采样方法往往会改变数据分布并引入额外误差。因此，为了保持原始数据分布，本研究探讨了在多类不平衡数据下的故障诊断

考虑数据不平衡的基于紧凑信念规则的故障诊断模型

为了解决上述两个问题，提出了一种考虑数据不平衡的紧凑信念规则模型。首先，本节通过探讨数据不平衡对CBRM故障诊断模型的影响来阐明后续研究的动机。随后，为了减轻数据不平衡对故障诊断模型的影响，使用样本权重来细化优化目标函数。不平衡样本的权重是根据类间

案例研究

为了直观展示设置样本权重的过程，本节以红酒数据集为例进行了数值案例分析。在这个数值案例中，可视化了边界特征因子、密度特征因子以及样本权重分配的过程。随后，通过一个实际工程案例（即牵引电机轴承的故障诊断）验证了本文提出的方法。

结论

本研究通过开发一个包含样本权重的目标函数来解决CBRM中的诊断偏差问题。本文的贡献有三个方面。首先，我们发现数据不平衡会使CBRM优化过度强化多数类的信念度。其次，将两个样本特征（边界特征和密度特征）纳入目标函数中。这种改进平衡了所有故障模式的贡献

CRediT作者贡献声明

明志超：撰写——原始草稿、项目管理、方法论、调查、概念化。周志杰：资源获取、资金筹集、正式分析。胡长华：撰写——审稿与编辑、资金筹集。李灿：监督、软件。连正：可视化。

利益冲突声明

作者声明他们没有已知的可能会影响本文工作的竞争性财务利益或个人关系。

致谢

本研究部分得到了中国国家自然科学基金（项目编号：62227814、62203461、62203365）和中国国家重点研发计划（项目编号：2023YFB3307100）的支持。

摘要

引言