动态目标感知的多目标强化聚类在智能故障诊断中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Mechanical Systems and Signal Processing》：Dynamic target-aware multi-objective reinforcement clustering for intelligent fault diagnosis

【字体：大中小】 时间：2026年02月17日 来源：Mechanical Systems and Signal Processing 8.9

编辑推荐：

　　动态目标感知多目标强化聚类框架通过马尔可夫决策过程统一优化特征学习、聚类分配与探索策略，采用三重奖励机制平衡重构精度、聚类紧凑性与熵最大化，结合指数移动平均编码器与动态聚类中心更新机制有效解决目标不一致和模式坍塌问题，实验验证其在工业故障诊断中的优越性。

王瑞新|姜志宇|黄明|邵海东|傅江峰

西北工业大学动力与能源学院，中国西安710072

摘要

近年来，由于缺乏标注数据以及动态工业环境的复杂性，智能故障诊断面临着巨大挑战。为了解决这些问题，本文提出了一种动态目标感知的多目标强化聚类（MORC）框架，用于无监督智能故障诊断。MORC将深度聚类任务建模为一个马尔可夫决策过程（MDP），在这个过程中，智能代理动态分配聚类标签，并通过多目标奖励优化特征学习、聚类分配和探索策略。所提出的三重奖励机制结合了重建精度、聚类紧凑性和熵最大化，有效平衡了探索与利用，以防止模式崩溃。此外，指数移动平均（EMA）编码器提供了稳定的表示目标，而动态聚类更新机制能够适应不断变化的特征空间。在基准故障数据集上的实验结果表明，与现有技术相比，MORC在聚类精度、稳定性和适应性方面表现出更优的性能。

引言

随着大数据时代的到来，未标注数据呈指数级增长，且大量数据缺乏有效的注释。深度聚类作为无监督学习的关键技术，在图像分析、生物信息学和工业故障诊断中具有巨大潜力，它通过特征表示和聚类分配的联合优化发挥作用[1]、[2]。

深度聚类方法结合了神经网络的强大表示学习能力和聚类算法，将未标注数据分组为有意义的聚类，近年来取得了显著成果[3]、[4]。这意味着在故障诊断任务中，可以利用原始未标注数据自动识别潜在的故障模式，从而支持早期预警和健康管理。然而，现有的深度聚类方法通常采用分阶段优化策略：首先通过编码器或对比学习对数据进行预训练以获得特征表示，然后在表示空间中使用传统聚类算法进行聚类。这种两阶段方法导致表示学习和聚类目标之间的不一致性，限制了聚类性能的进一步提升，特别是在面对复杂操作条件和噪声环境下的故障数据时。

尽管深度聚类方法已经取得了一些进展，但目前仍面临三个关键挑战：1. 目标不一致性：特征学习和聚类任务是分离优化的，导致学习到的表示空间与最终聚类目标之间存在不一致性。2. 静态聚类目标：在聚类阶段，聚类中心通常是固定的，无法适应表示空间的动态演变。3. 模式崩溃：聚类过程容易陷入局部最优，导致所有样本都分布到少数几个聚类中。

最近，一些研究尝试将强化学习（RL）方法引入无监督学习任务中，通过定义奖励函数来优化聚类过程[5]、[6]、[7]。然而，现有的RL聚类方法的奖励函数大多是单一目标的；缺乏有效的探索机制来避免模式崩溃；没有考虑表示学习与聚类之间的动态交互。

为了解决这些挑战，本文提出了一种创新的多目标强化学习聚类框架（MORC）。该方法将聚类过程建模为一个马尔可夫决策过程（MDP）。智能代理（策略网络）根据输入数据的潜在表示动态分配聚类标签，并通过多种奖励机制优化表示学习、聚类分配和探索动机。其中，重建奖励鼓励自动编码器保留输入数据的关键特征信息；聚类奖励最小化样本到最近聚类中心的距离；熵奖励最大化策略的熵，促进探索并避免模式崩溃。

此外，我们引入了两种先进技术：指数移动平均（EMA）编码器提供了稳定的目标表示，以减少训练波动；动态聚类中心更新机制定期更新聚类中心，以适应表示空间的变化。

本文的主要创新点可以总结为以下三点：

1.
统一的强化学习框架：首次将表示学习、聚类分配和探索机制统一到一个端到端的强化学习框架中，解决了目标不一致的问题。
2.
动态目标优化机制：提出了EMA编码器和周期性聚类中心更新策略，使聚类目标能够适应特征空间的动态演变。
3.
多目标奖励函数：设计了一种结合重建质量、聚类紧凑性和策略熵的三重奖励函数，有效平衡了多个优化目标，特别适用于无标注故障诊断任务。

本文的其余部分组织如下：第2节回顾了深度聚类、无监督强化学习和动态目标优化的相关研究；第3节详细介绍了MORC的框架设计、奖励函数和优化算法；第4节介绍了实验细节、结果分析和消融研究；第5节总结了整篇论文。

节选内容

深度聚类方法

深度聚类通过联合优化特征表示和聚类分配，克服了传统方法的局限性。常见的深度聚类方法主要包括自动编码器、对比学习和生成方法。自动编码器范式的最新突破包括：Affeldt等人将深度自动编码器与谱聚类结合，实现了无监督的深度表示[8]；Wu等人提出了用于K-means高效聚类的Transformer自动编码器

问题提出

深度聚类的目标是同时学习数据表示和聚类策略。传统的深度聚类方法通常采用两阶段优化，即特征提取和聚类分配。

为了解决上述问题，本文提出了一种多目标强化聚类框架（MORC），旨在通过强化学习解决特征提取和聚类分配之间的最优目标耦合问题。

数据集A

数据集A使用了在实际工程项目中收集的电力机车轴承的数据。在现实世界场景中，噪声会干扰数据收集和诊断。电力机车滚动轴承面临的恶劣工作条件使其故障模式复杂化，导致各种单一和组合故障频繁发生，给无监督学习和诊断带来了挑战[33]。

测试台的具体情况如图5所示。

结论

本文提出了一种新颖的动态目标感知的多目标强化聚类（MORC）框架，用于无监督智能故障诊断。通过将特征学习、聚类和探索整合到一个统一的强化学习范式中，MORC有效解决了目标不一致性和模式崩溃问题。

所设计的多目标奖励函数和基于EMA的动态优化实现了自适应表示学习和稳定的策略演化。

CRediT作者贡献声明

王瑞新：撰写——原始草案，研究，概念化。姜志宇：软件，方法论。黄明：形式分析。邵海东：验证。傅江峰：监督，资金获取。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。

致谢

本研究得到了国家自然科学基金（编号52372396）、国家重点科技项目（编号J2019-I-0021-0020）、陕西省自然科学基金（编号2025JC-YBQN-775）和咸阳市重点研发项目（编号S2024-ZDYF-ZDYF-GY-2578）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号