元预测性维护：实现快速适应各种基础设施维护任务的能力

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Reliability Engineering & System Safety》：Meta-predictive maintenance for rapid adaptation across diverse infrastructure maintenance tasks

【字体：大中小】 时间：2026年03月01日 来源：Reliability Engineering & System Safety 11

编辑推荐：

　　基础设施维护中数据稀缺问题，本文提出Meta-Predictive Maintenance（MPM）框架，融合元学习与剩余寿命 informed Markov决策过程（RI-MDP），实现跨场景自适应优化。实验表明MPM在路桥维护中较传统CBM节省54.9%检测成本，且决策效率优于PPO、A2C等强化学习算法。

郭春辉|梁正林

清华大学工业工程系，中国北京市海淀区清华园1号，邮编100084

引言

随着基础设施的老化，自然降解现象日益严重，可能导致结构破碎甚至完全失效等严重后果。多年来，多起灾难性事件凸显了维护不足所带来的社会风险。一个著名的例子是1985年意大利瓦尔迪斯塔瓦大坝的坍塌，该大坝因维护不善导致268人死亡，63座建筑物被毁，8座桥梁损毁[1]。仅在美国，每年的基础设施支出就超过4000亿美元[2]。基础设施系统的可靠运行对支持经济活动和日常生活至关重要。因此，实施经济可行的持续维护政策对于确保基础设施资产的长期可行性至关重要。目前，基于状态的维护（Condition-based Maintenance, CBM）是基础设施维护的主要方法。建筑物和桥梁等基础设施元素的设计寿命通常可达五十年[3]。对于需要长期运行的资产，通常采用多状态维护框架来提高CBM的效率。在现有研究中，基础设施的退化常被建模为马尔可夫模型（Markov Model）。马尔可夫决策过程（Markov Decision Process, MDP）是推导此类情况下最优CBM政策的关键工具。Arismendi等人提出了一个基于分段确定性马尔可夫过程的CBM框架，专门针对具有离散退化状态的基础设施系统[4]。郭春辉和梁正林利用半马尔可夫决策过程（semi-Markov Decision Process）和混合退化模型，优化了钢筋混凝土的维护决策[5]。Sanoubar等人采用基于图的方法表示资产位置和维护资源，并使用离散时间马尔可夫链对退化进行建模，随后应用MDP来确定具有成本效益的资源部署策略[6]。Luo等人将环境变化纳入他们的马尔可夫建模中，并通过MDP框架在有限和无限规划期内优化CBM决策[7]。由于基础设施维护优化问题通常被建模为MDP，早期研究主要依赖于精确算法，尤其是动态规划。然而，在现实世界中，庞大的状态空间和不确定的转换动态往往使得这些方法不切实际。Yang等人提出了一种基于顺序不连通路径图的可靠性评估框架，用于在动态条件下优化可重构多阶段系统的维护策略，有效考虑了组件依赖性和系统重构，同时降低了计算成本[8]。在这种背景下，强化学习（Reinforcement Learning, RL）逐渐被引入维护优化研究，作为一种无需精确模型即可通过与环境交互学习最优策略的近似解决方法。Hamida和Goulet开发了一个分层RL模型，反映了基础设施管理的典型决策结构，支持在元素和系统层面进行规划[9]。Zhang等人概述了在可靠性和维护优化背景下实施RL算法的程序步骤[10]。Najafi和Lee通过将深度强化学习（Deep Reinforcement Learning, DRL）模型应用于半马尔可夫系统，提出了一个考虑相互依赖组件和可变检查间隔的机会主义维护策略[11]。Xu等人提出了一种混合算法，用于多任务选择性维护，结合了离散差分进化进行动作选择和深度Q网络进行大规模决策空间中的学习[12]。基于MDP和RL的方法本质上依赖于CBM中的决策。随着传感和监测技术的快速发展，研究人员越来越强调将退化数据和剩余使用寿命（RUL）预测整合到维护规划策略中。传统技术常常忽视组件之间的依赖性和模型参数的不确定性，这可能会降低维护结果的可靠性。为了解决这些挑战，Yang等人提出了一种适用于多状态系统的可靠性评估框架，该框架将生存特征与copula理论相结合，提供了更有效的表示组件依赖性和处理参数不确定性的方法，从而加强了预测性维护（Predictive Maintenance, PdM）的基础[13]。实际上，PdM不仅增强了传统的CBM策略，还为优化提供了更精细、数据驱动的见解。此外，新兴研究强调了将深度学习模型纳入维护决策框架的前景。Zheng等人提出了一种决策框架，该框架结合了长短期记忆（Long Short-Term Memory, LSTM）网络和MDP，为系统内的不同退化级别生成有针对性的维护策略[14]。Zhuang等人应用贝叶斯深度学习（Bayesian Deep Learning, DL）对退化指标和RUL之间的隐藏关系进行建模，促进了维护计划和备件库存的自适应更新，同时确保符合运营要求[15]。Shoorkand等人结合卷积神经网络（Convolutional Neural Networks, CNN）和LSTM模型提高了RUL预测的准确性[16]。DL方法通常需要大量数据进行有效训练，当应用于新场景时，往往需要额外数据才能达到最佳效果。然而，在现实世界的维护任务中，数据稀缺是一个常见挑战。相比之下，元学习方法利用从以往经验中获得的元知识，允许其在数据输入较少的情况下快速适应新情况。Zhang等人提出了一种基于多智能体深度强化学习（Deep Reinforcement Learning, DRL）设置的重新优化技术，重点关注系统级别的PdM协调[17]。Yang开发了一种基于证据理论的似然框架，并通过贝叶斯推断实施，旨在改进RUL估计并提高维护决策的可靠性，特别是在复杂或数据有限的PdM应用中[18]。Yang等人提出了一种用于跨领域故障诊断的半监督方法，利用对比预训练和高效的注释对齐策略来处理车队管理中的PdM[19]。集成机器学习方法也在PdM中得到了探索。Ayvaz和Alpay构建了一个适用于制造环境的PdM框架，其中集成机器学习方法——特别是随机森林（Random Forest）和XGBoost——在实证比较中表现出优于单个模型的性能[20]。当前的PdM系统架构通常包括两个模块：一个用于RUL预测，另一个用于维护行动。然而，研究正朝着开发同时处理这两个任务的统一模型方向发展。Zhou等人开发了一种具有动态状态转换的近端策略优化（Proximal Policy Optimization, PPO）算法，用于机械系统的PdM[21]。郭春辉和梁正林探索了预测性MDP在根据系统预测微调检查间隔和维护策略中的应用[22]。对于基础设施系统，虽然一般的退化模式可能具有相似性，但各个基础设施由于材料、环境和使用历史的差异而表现出不同的退化行为。这些复杂性使得在实践中收集可靠的状态数据变得困难。因此，现有的PdM方法在观测数据稀少时性能往往受到限制。为了克服这一限制，我们提出了一种元预测性维护（Meta-Predictive Maintenance, MPM）框架，该框架利用元学习从先前观察到的资产组合中转移维护知识，从而在数据稀缺的基础设施场景中实现有效的RUL预测和维护优化。为了实现这一方法，我们将退化和干预动态建模为基于剩余使用寿命信息的马尔可夫决策过程（Remaining Useful Life Informed Markov Decision Processes, RI-MDP），这有助于预测性检查调度和基于预见性的维护决策，并嵌入元知识以加强智能体学习。此外，由于检查和维护活动会影响系统退化，MPM被构建为一个统一框架，结合了元学习和预测性顺序决策，使RUL预测能够指导检查和维护策略的优化。我们在道路和桥梁维护中的实验表明，MPM优于现有的数据驱动方法，能够在最小环境交互的情况下实现高效适应。值得注意的是，该框架能够有效扩展到大型、复杂的决策问题，为不确定的现实世界环境中的智能和资源高效维护奠定了基础。在我们之前的工作中[22]，我们为部分可观察的多状态系统开发了预测性检查和维护策略，重点关注在信息有限条件下的随机退化。所提出的MPM框架通过整合元学习和RI-MDP，从根本上解决了更广泛的问题，使其与我们的先前方法互补而非重叠。本研究的主要贡献如下：

1. 提出了MPM方法，该方法利用门控循环单元（Gated Recurrent Unit, GRU）捕捉维护任务中的内在联系，并通过PPO优化策略性能，从而在广泛的基础设施任务中实现快速适应。
2. 我们的方法将RUL预测和维护优化整合到一个统一的元学习框架中，与CBM策略相比，检查成本降低了54.9%。
3. MPM的回报比PPO高39.92%，比同步优势演员-评论家（Synchronous Advantage Actor-Critic, A2C）高41.92%，比信任区域策略优化（Trust Region Policy Optimization, TRPO）高27.50%，并且具有最小的环境交互，从而实现更快的适应。

本文的其余部分结构如下：第2节介绍系统的建模和维护策略的分析；第3节设计了一个强调策略表示和优化的MPM；第4节通过案例研究展示了我们设计的方法与其他基准算法相比的优势；第5节总结了整篇论文。

部分摘录

问题陈述

基础设施系统对于支持日常活动至关重要，其持续运行在很大程度上依赖于有效的维护实践。虽然不同基础设施系统之间的退化模式可能具有相似性，但由于材料、环境和使用历史的差异，各个系统表现出不同的退化行为。这种变异性使得收集可靠数据和开发稳健的PdM策略变得具有挑战性。

MPM框架

所提出的MPM框架通过嵌入RUL预测扩展了传统的元强化学习（Meta-Reinforcement Learning, Meta-RL），有助于学习退化模式并改进维护决策。与现有的PdM方法相比，MPM提供了一个将RUL估计和维护优化结合在一起的统一架构。关于系统退化和维护行为的先验知识被编码在RI-MDP框架中。

案例研究

基础设施对于社会的顺利运作和日常活动至关重要。然而，其状况会随时间退化，增加运营故障的风险，这可能带来严重后果。为了降低此类风险，政府和组织每年投入大量资源以确保基础设施保持运行。尽管对结构退化的一般趋势已有很好的理解，但由于各种原因，各个基础设施元素的退化速度不同

结论

我们介绍了一种新的MPM框架，该框架能够灵活地适应各种维护应用，并快速适应不熟悉的场景。基础设施的退化及其相应的干预措施通过RI-MDP进行建模，支持主动安排检查和维护计划。通过将元学习技术整合到RUL预测和维护策略的优化中，MPM方法实现了有效的知识转移

CRediT作者贡献声明

郭春辉：撰写——审阅与编辑、撰写——初稿、可视化、验证、软件、资源、方法论。 梁正林：撰写——审阅与编辑、撰写——初稿、可视化、验证、监督、软件、资源、项目管理、方法论、调查、资金获取、形式分析、概念化。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号