Trans-D3：一种基于混合变压器的新型Actor-Critic方法，用于预测设备的剩余使用寿命 Jorge Paredes, Danilo Chavez, Ramiro Isa-Jara, Diego Vargas

《Sensors》：Trans-D3: A Novel Hybrid Transformer-Based Actor–Critic Approach for Remaining Useful Life Prediction Jorge Paredes, Danilo Chavez, Ramiro Isa-Jara and Diego Vargas

【字体：大中小】 时间：2026年05月10日 来源：Sensors 3.5

编辑推荐：

　　摘要：本文介绍了一种创新的混合方法TRANS-D3，该方法结合了双延迟深度确定性策略梯度（TD3）强化学习算法和Transformer架构，用于预测组件的剩余使用寿命（RUL）。该模型利用基于线性二次调节器（LQR）的优化奖励函数，将误差校正视为一个动态控制问题。在CMAPSS数

　　摘要：本文介绍了一种创新的混合方法TRANS-D3，该方法结合了双延迟深度确定性策略梯度（TD3）强化学习算法和Transformer架构，用于预测组件的剩余使用寿命（RUL）。该模型利用基于线性二次调节器（LQR）的优化奖励函数，将误差校正视为一个动态控制问题。在CMAPSS数据集上，TRANS-D3表现出显著的优势，在基线情况（FD001）下实现了84–90%的均方根误差（RMSE）降低，在高度可变的情况下（FD003/FD004）降低了23–45%的RMSE。统计验证显示其可靠性很高，每个子集的决定系数??2均超过0.93，其中FD001的最高值为0.9984。平均误差的95%置信区间在FD001中为[0.709至1.244]，在FD004中为[?1.324至1.748]，这也证实了该框架是一个统计上无偏的估计器。在得分方面，与传统架构（如DAST或STAR）相比，该模型将惩罚降低了80%至95%，确保了非常稳定的预测结果。这些发现提出了一种新的鲁棒优化范式，这对于确保工业4.0背景下复杂工业系统的安全性和可靠性至关重要。

1. 引言
人工智能（AI）、物联网（IoT）和大数据的整合推动了工业过程数字化的重大变革，形成了所谓的“工业4.0”新范式[1]。为了实现数字化转型，必须将数字系统和物理系统整合到信息物理系统中[2]，从而从传感器和执行器生成大量数据[3]。这些数据可以用于从工厂的生产线组件中提取有用信息[3]。

机器学习（ML）是人工智能的一个分支，它使用专门的算法进行分类、预测、模式检测和工业过程优化任务，从而降低工业工厂的成本[4]。此外，对收集数据的预处理和分析可以提供有价值的见解[5]。机器学习是智能工厂进步的关键组成部分，因为它促进了数据的聚合，使得后续分析成为可能。这种检测机器和设备故障的能力有助于估算组件的剩余使用寿命（RUL）和健康指数（HI），从而减少维护相关支出并提高操作人员的安全性[6,7]。

机器学习算法可以分为三类：监督学习（使用标记数据）、无监督学习（使用未标记数据）和混合方法[8]。强化学习从经验中学习，在机器学习领域最近获得了显著关注[9]，也属于一个独特的类别。这些方法的有效性取决于它们应用的特定场景。目前，有一些方法整合了上述机器学习算法[10]。

预测性维护（PdM），也称为基于状态的机器维护（CbM）[11]，是工业4.0背景下机器学习的应用。这种应用允许从传感器、机器或系统中获取数据，以预测给定时间框架内的故障或对故障进行分类，从而优化维护任务[12]。工业领域的维护活动可以分为三类[13]：
- 纠正性维护：在机器或组件发生故障时进行。
- 预防性维护：即使机器或组件没有故障，也安排维护任务。
- 预测性维护：利用传感器数据在故障发生之前预测故障，以优化时间和资源。

图1展示了工业领域使用的三类维护类型。预测性维护的一个主要目标是估计机械或电气系统的RUL[14]，从而能够在考虑运行条件的情况下预测故障发生之前的时间间隔。有三种主要的RUL预测方法：
- 基于物理模型的方法。
- 数据驱动模型。
- 混合模型。

基于物理模型的方法利用控制模型的微分方程知识及专家对分析设备的了解来确定RUL[15]。当降解过程被高精度建模时，可以获得非常准确的结果[16]。然而，实际应用可能很复杂，因为需要对系统有深入的了解，而这有时是不可得的。数据驱动模型的使用能够识别获取数据与RUL之间的相关性，从而避免了物理降解模型的需求。由于这些方法在处理复杂系统和设备的复杂性方面具有很大的灵活性，目前被广泛使用[17]。例如，通过支持向量机可以预测锂离子电池的RUL[18]。深度学习方法的实施有助于提取时间序列中的显著特征[19]。神经网络是一种模拟人类大脑的算法，用于石油和天然气行业计算RUL[20]。在需要更高精度和准确性的情况下，使用长短期记忆（LSTM）网络是一种可行的选择[21]。这些网络具有分析时间序列和消除噪声的能力，从而确保更可靠的分析[21]。此外，这些网络可以整合成双向LSTM模型进行RUL预测[22]。需要注意的是，所有这些方法都依赖于标记数据的使用。最近的研究表明，与LSTM和门控循环单元（GRU）模型相比，Transformer在预测RUL方面表现更好，尤其是在结合学习到的时间嵌入时[23]。

混合模型是结合不同机器学习算法的模型。在某些模型中，使用半监督方法，整合了监督学习和无监督学习[24]。相比之下，其他模型可能结合了监督学习和强化学习技术[25]。可以使用监督学习和强化学习算法计算锂离子电池组的RUL，从而允许纳入参数化策略，减少检查时间[26]。还可以提出一种决策框架来协助操作人员推荐维护活动[27]。半监督方法可以用有限的标记数据进行训练，然后用它从未标记数据中计算RUL[28]。将聚类方法与LSTM网络结合使用已被证明可以提高锂离子电池组RUL估计的可靠性[29]。最流行的混合模型具备与时间序列交互并提取特征的能力，通过结合卷积神经网络（CNN）和LSTM来确定RUL[30]。

无论使用监督学习、无监督学习还是基于强化的算法，计算RUL都可能面临挑战，这是因为算法可能无法充分捕捉样本之间的复杂关系[31]。解决这个问题的一个潜在方法是使用混合方法，这些方法在训练阶段利用时间关系，提高RUL的精确度和准确性。

为了提供当前研究技术在最新发展水平的清晰背景，表1提供了关于RUL预测的代表性研究和最新研究的结构化概述。下表总结了现有方法的主要方面，包括发表年份、使用的数据集或材料、实施的方法及其主要优势。它还明确指出了仍然存在的研究空白。这项比较分析强调，尽管在数据驱动预测方面取得了显著进展，但现有的方法主要基于纯粹的监督学习范式，并且在预测细化方面缺乏明确的控制导向机制，尤其是在复杂和高可变运行条件下。这些观察结果促使了所提出框架的开发。

表1提供了2021年至2025年间发表的关于RUL预测的著名和当代研究的系统概述。现有文献表明，当代方法主要依赖于监督学习架构（如Transformer变体、基于注意力的循环网络或混合CNN-LSTM模型）来增强时间特征提取和预测准确性。虽然这些方法已经显示出有竞争力的性能，但它们通常将RUL估计视为一个静态回归问题，并缺乏适应性误差校正或决策导向优化的明确机制。仔细观察这些研究可以发现一个明显的遗漏：没有任何研究结合了强化学习或控制理论框架。这一疏忽在动态预测细化方面尤为明显，这是应对不断演变的降解模式的关键因素。在高度可变的操作环境中，这种缺陷尤其成问题，因为对于安全关键的工业系统来说，稳定和保守的预测至关重要。

为了解决这些局限性，本文提出了一种混合方法，结合了监督算法（Transformer）和强化算法（TD3），称为TRANS-D3。该框架将RUL预测误差校正视为一个序列控制问题，将基于Transformer的时间表示与TD3强化学习代理和受LQR启发的奖励函数相结合。两种算法的结合利用了彼此的优势和好处，确保获取关于组件或机器RUL的精确可靠数据，在复杂的工业4.0场景中提供了更大的鲁棒性、稳定性和泛化能力。

本研究的主要贡献如下：
- 创新的混合方法，因为Trans-D3结合了监督Transformer模型和TD3强化算法，利用两种范式的优势更可靠地估计RUL。
- 为强化算法优化的奖励函数，基于线性二次调节器的控制律，提高了计算RUL时的稳定性和控制能力。
- 与监督模型相比，RUL预测准确性提高了35%，与混合模型相比提高了15%，通过提高运行可靠性减少了计划外停机时间和维护成本。

以下论文的结构如下：第2节介绍了所使用的算法；第3节阐述了混合方法中采用的方法论框架；第4节展示了获得的结果；第5节讨论了结果和潜在的改进；第6节总结了研究结论。

2. 背景
2.1. Transformer
近年来，Transformer架构已成为深度学习在序列建模方面的最具影响力的贡献之一。该模型的设计完全基于注意力机制，使其能够克服循环网络和卷积网络在捕获全局依赖性和复杂模式方面的固有局限性[38]。Transformer被认为是解决工程问题的最佳候选者，包括RUL估计。这是因为它们能够表示多个传感器之间的非线性关系，这是该领域的一个关键方面。

点积缩放注意力机制构成了Transformer的数学基础，表达如下：
(1)
其中Q、K、V分别是查询矩阵、键矩阵和值矩阵，key维度分别表示它们。

这种表述使模型能够识别输入上的重要性分布，这在具有噪声或冗余的时间序列中特别有利，例如来自航空航天或涡轮机械系统的序列[39]。

多头注意力（MHA）机制通过允许多个投影来扩展这一机制：
(2)
(3)
其中W是可训练的权重矩阵。

这种配置使模型能够描述信号中的多种关系配置，在RUL预测中至关重要，因为在RUL预测中，物理退化会在多个时间尺度上表现出来[40]。

位置编码器（PE）解决了原始架构中缺乏时间机制的问题。所提出的正弦公式定义如下：
(4)
(5)
其中表示Transformer的内部嵌入维度。

这种能力使模型能够同时保持序列中位置的相对和绝对信息。这些编码器在预测和结构退化研究中得到了广泛应用[41]。

每个子层都包含残差归一化，表达如下：
(6)
这稳定了梯度流，使得能够训练深度极大的模型[42]。这种模式在工业架构中特别相关，因为数据集往往具有异构性和高度复杂性[43]。点对点前馈（FNN）模块的定义如下：(7)，其中x是输入特征向量，和是偏置向量。该组件将非线性能力融入模型中，从而能够表示高度复杂和非平稳的退化函数[44]。解码器包含一个遮罩注意力机制，限制了对未来位置的访问。上述系统的操作机制如下所述：(8)。这种程序旨在确保预测任务中的适当自回归行为。尽管原始Transformer有效，但其计算成本与序列长度的平方成正比，这可能阻碍其在实时应用中的使用。然而，它直接捕捉全局交互的能力已在工业预测任务中带来了显著进步[45]。替代方案如Linformer[46]通过使用低秩投影来近似所需的注意力来降低复杂性，而其他方案如Performer[47]则使用基于核的近似方法，以实现高效的硬件执行。由于这些方法的可扩展性，它们在预测维护领域的应用正在增加。Transformer是一种强大、灵活且数学基础坚实的架构，适用于建模复杂的时间序列。它们捕捉多变量动态和全局依赖性的能力使它们成为工业系统中精确剩余使用寿命（RUL）估算的有希望的工具。高效变体的发展以及混合技术的结合继续扩展了它们在预测、状态分析和智能工程场景中的潜力[48]。图2展示了针对时间序列回归任务调整的Transformer网络架构，目的是估计复杂系统中的RUL。与处理词向量的自然语言处理模型不同，该结构接收多变量传感器序列作为输入，并通过多头注意力机制进行处理。这一组件至关重要，因为它使模型能够在即使存在操作噪声或数据冗余的情况下，辨别多个传感器信号之间的关键相关性及全局依赖性。图2. 使用Transformer的回归框架。该配置基于经过优化的编码器-解码器方案，用于连续预测。编码器提取系统的退化特性的潜在表示，而解码器包含一个时间序列回归头，用于将这些抽象映射到一个表示RUL的单一标量值。该框架有助于捕捉组件退化中的非线性和瞬态动态，例如在涡轮风扇发动机中，从而提供了一个强大的预测工具，通过并行和有针对性地处理所有可用的时间历史数据来克服传统循环网络的内存限制。

Twin Delayed Deep Deterministic Policy Gradient（TD3）算法基于具有确定性策略的连续强化学习框架。其前身Deep Deterministic Policy Gradient（DDPG）[49]学习一个确定性策略(s)和一个动作价值函数(s,a)，目标是最大化预期回报。(9)。TD3[50]旨在解决DDPG中固有的限制，特别是对Q值的过高估计。该算法引入了三个根本性创新：裁剪的双Q学习、目标策略平滑和延迟策略更新。这些因素中的每一个都影响了演员和评论家参数的更新方式。裁剪的双Q学习方法使用两个独立的评论家。评论家目标采用两者中的最小值来减轻过高估计。在转换的背景下，TD3的目标定义如下：(10)，其中i是目标网络的参数[51]。术语是目标策略平滑的结果，它添加了有限的高斯噪声。(11)。这种技术降低了Q对动作微小变化的敏感性，这一想法受到了之前工作中使用的梯度稳定器的启发[52]。评论家通过最小化二次损失来进行训练。(12)。这种设计迫使两个评论家都接近预期回报，但始终由它们之间更为保守的值指导。TD3的第三个组件是延迟的演员更新。虽然评论家在每次迭代时都会更新，但确定性策略只每d步更新一次（通常d = 2）。演员梯度根据确定性策略梯度规则得出。(13)。缓慢的策略更新防止了关键估计错误的过早传播。后续研究表明，这特别是在使用深度网络时提高了稳定性[54]。此外，目标参数使用软更新进行更新：(14)，其中通常很小（0.005）。TD3已被证明可以有效减轻自强化学习早期函数近似研究以来记录的过高估计偏差。与Soft Actor Critic（SAC）等随机技术相比，TD3采用确定性策略。(15)。这在需要连续精确度的环境中促进了更有效的学习。TD3采用了与DDPG类似的方法，利用了经验回放缓冲区()。这种对样本之间时间相关性的解耦已被证明在复杂环境中提高了性能[55]。使用双重评论家的做法可以通过不确定性估计的角度来解释。尽管TD3没有明确地对分布进行建模，但其机制在概念上类似于基于自举的方法，如Bootstrapped DQN[56]，其中多个头部减少了偏差和方差。与DDPG相比，TD3已被证明可以获得更高的平均回报和更低的方差，这归功于其配置，使其在特征虚假Q值较高的区域更能抵抗过拟合。自其发布以来，TD3已扩展到机器人技术、预测控制和工业自动化等应用中。其影响也在MATD3等变体中得到体现，这些变体结合了双重关键性和平滑策略[57]。TD3代表了强化学习领域的一个重大进步。双重评论家、平滑和延迟更新的结合形成了一种稳健的架构，为预测控制树立了标准。图3展示了基于TD3算法的代理架构。该算法被设计为用于回归和预测精细化的优化框架。在这种方案中，代理在状态空间内操作，整合当前估计值和时间参考值。这些通过Actor模型进行处理，以确定必要的调整幅度。这种强化学习结构使系统能够生成预测并学习动态校正策略，以适应监测过程中观察到的偏差。图3. 使用TD3精细化剩余使用寿命（RUL）的方案。为了确保训练稳定性和减少过高估计错误，系统配备了双评论家模块。这些组件独立评估动作的质量，而具有平滑更新的目标网络确保了长期的一致学习。奖励循环惩罚准确性错误，迫使算法趋向于最大化最终预测的保真度。这导致模型能够抵抗复杂系统中的噪声信号和非线性行为。

所提出的剩余使用寿命（RUL）预测方法旨在准确建模复杂工业系统中退化过程的时间演变。在涡轮风扇发动机等应用中，可用信息包括具有高维度、长期时间依赖性和操作噪声的多变量传感器时间序列。应对这些挑战需要一个能够提取有意义退化表示的建模框架，同时保留局部动态和全局时间趋势。为此，采用了基于Transformer架构的监督学习模型作为特征提取和初始RUL估计的核心组件。通过利用自注意力机制，Transformer有效地捕获了传感器序列之间的长距离依赖性，而无需循环神经网络固有的内存限制。这种能力使模型能够学习多个传感器信号随时间变化的复杂交互，从而产生反映系统潜在退化状态的初步RUL预测。尽管Transformer的表示能力很强，但由于非平稳的操作条件、传感器噪声或模型偏差，初始的监督预测可能仍会显示残余误差。为了减轻这些限制，提出的方法整合了一个基于RL的精细化阶段。在这种公式中，预测误差校正被视为一个策略优化问题，其中一个RL代理学习一个旨在最小化与RUL估计错误相关的预定义成本函数的适应性调整因子。(3.1) 提出的混合架构提出了一个两阶段混合架构，旨在提高涡轮风扇发动机中RUL预测的准确性。该方法将通过使用Commercial Modular Aero-Propulsion System Simulation（CMAPSS）数据集[58]来实现，这是一个在这一领域具有重要作用的全面数据集合。这种配置结合了Transformer的时间序列建模能力和强化学习代理（特别是TD3算法）的微调精度。Transformer作为基础预测器，负责提取高级表示。相比之下，TD3作为错误机制，由特定的奖励法则指导，目标是调整预测以最小化均方根误差（RMSE）。图4展示了本研究中使用的架构框架。(3.1.1) 使用Transformer的特征提取和基线减少基础模型是一个为回归任务调整的Transformer编码器架构。这一阶段的目标是学习数据序列中传感器之间的时间依赖性和关系，以生成每个电机在其测试历史结束时的RUL的初始估计。CMAPPS数据集的数据被规范化，并定义了固定长度的序列来输入模型：(16)。在这种情况下，表示对应于目标RUL值的输入序列。Transformer包括一个输入层（nn.linear），其功能是将输入特征投影到维度的潜在空间。这一步对于模型集成至关重要，因为它为自注意力处理准备了序列。Transformer编码器的每一层都包含一个具有nhead头部的多头自注意力机制和一个维数更大的前馈网络。Transformer编码器最后一层的输出仅来自序列的最终位置，从而将序列的时间信息压缩成一个单一向量。这种方法基于这样一个前提：最近编码的表示与当前发动机退化状态最为相关。输出网络（head）由一个隐藏层和一个最终的线性层组成，后者输出一个神经元（RUL的标量预测）。Transformer训练使用均方误差准则（MSELoss）作为损失函数。(3.1.2) 通过强化学习（TD3）纠正预测因此建立了一个基于Transformer预测和实际RUL值的定制环境。代理系统地处理每个电机的每个预测。观察空间被定义为一个固定维度的向量，其中包含Transformer对当前电机的预测和该电机的RUL。将RUL纳入状态使代理能够评估其当前性能并在训练期间做出明智的校正决策。动作空间被定义为一个连续的标量值（维度1），代表代理提出的校正。动作范围受到下限和上限的限制，从而调节校正动作的强度。奖励和惩罚法则旨在最大化校正预测与实际值的接近程度。TD3为其演员和评论家网络配置了MLP（多层感知器）策略。为了促进训练期间的校正探索，使用了具有优化标准差的正常动作噪声。训练超参数包括实施几个关键元素，包括配置较低的学习率（lr）、建立足够的重复缓冲区大小、典型的批量大小、目标网络的小平滑因子以及接近1的折扣因子。(3.1.3) 互连和最终预测提出的混合方法基于级联架构。最初，Transformer被训练以生成每个测试电机的基线RUL预测。然后将这些预测保存以输入TD3环境。在TD3训练生成理想校正动作之后，确定最终的RUL。这种架构设计允许对每个组件进行定制优化。变压器能够专注于学习电机状态的可靠表示，而TD3则专门用于最小化残差误差。这使得最终模型能够结合深度序列建模和基于奖励的优化的优势。3.2. 变压器参数变压器模型的超优化是一个关键过程，它直接影响到模型在CMAPSS数据集中学习复杂时间依赖性和退化特征的能力。调整这种架构的超参数至关重要，尤其是编码器块的参数，以避免过拟合或欠拟合的问题，特别是考虑到传感器数据的序列性和噪声特性。表2展示了用于优化的参数以及超优化过程中使用的值。表2. 选择用于超优化的参数。一个关键的参数是模型维度（dim model），它规定了输入特征被投影到的潜在空间的范围。维度应该足够大以捕捉复杂的模式，但又不能过大，因为过大会不必要地增加计算成本。注意力头数（num head）是决定自注意力机制探索独立表示子空间程度的关键因素。标准做法是将dim model设置为nhead的倍数，以确保在多头注意力计算中的高效分配。编码器层数（num layers）是决定模型维度及其学习特征层次结构能力的关键因素。更复杂的模型包含更多的层，通过多次自注意力和前馈传播来精细化表示，从而增强复杂退化特征的提取能力。然而，深度的增加同时也会增加训练不稳定性和收敛时间的风险。因此，选择这种方法时必须在表示能力和训练稳定性之间取得平衡。在变压器的每一层中，前馈网络的维度（dim feedforward）都至关重要。这个内部维度通常比dim model大，使得可以对注意力生成的表示应用复杂的非线性变换。调整这个参数是必要的，因为映射能力不足可能表明值太小，而过多的冗余则会妨碍训练效率。输入序列的长度（sequence length）是时间序列特有的关键超参数。更长的序列长度使模型能够观察到更长期的退化趋势，这对RUL（剩余使用寿命）很相关。然而，这也会导致内存成本和自注意力计算的二次复杂度显著增加。在机器学习算法的背景下，学习率已被证明在收敛过程中起着关键作用。在许多情况下，必须结合使用自适应优化器（如Adam优化器）和低学习率，以确保训练过程的稳定性和有效性。批量大小直接影响梯度估计的准确性和内存消耗。选择一个适中的值，以在训练速度和学习质量之间实现平衡。为了在训练过程中避免过度不稳定性并实现分层特征学习，编码器层的数量（num layers）被限制在浅层和适度深的配置中。前馈网络的维度（dim feedforward）采用了工业时间序列应用中常用的值，以引入足够的非线性，而不显著增加计算成本。序列长度被选择为涵盖短期和中期退化动态，同时考虑到自注意力相对于序列长度的二次复杂性。最后定义了学习率范围，以确保使用自适应优化器（如Adam）时的稳定收敛。这些标准确保了超优化过程的可重复性，并符合既定的最佳实践。表3中显示的参数代表了序列模型能力和计算效率之间的明智折中，为变压器提供了一个紧凑而高效的架构。Optuna库被用来自动化和迭代地搜索CMAPSS数据集的每个子集的超参数。表3. 超优化后选择的参数值。在复制任务的背景下，必须认识到表3中选择的超参数集是基于之前关于使用变压器架构进行RUL预测的研究以及与模型能力、稳定性和计算效率相关的实际考虑而定义的。嵌入维度（dim model）被调整，以在表示能力和过拟合风险之间取得平衡。具体来说，低值有助于获得紧凑的模型，而高值有助于更广泛的特征提取。注意力头数（num head）的选择使得dim model可以被num head整除。这确保了高效的多头注意力计算，并允许模型捕捉传感器通道之间的多种时间关系。3.3. TD3中使用的环境TD3的实现需要开发一个定制的强化学习环境，称为RULCorrectionEnv，以促进学习过程。这个环境经过精心设计，以提高之前从变压器模型得到的RUL预测的有效性。与传统的RL环境不同，在传统环境中方剂与物理或模拟系统交互，这个环境通过利用预训练的机器学习模型的输出以及测试集的值作为基础来封装误差过程。环境的设计基于将回归精细化问题转化为序列决策问题。TD3代理不接收来自引擎的原始特性；相反，它作用于由预测和目标值（实际RUL）组成的简化状态。这种形式使代理能够优先考虑开发旨在最小化校正预测与实际值之间差异的调整策略。这种方法避免了重新学习传感器数据的复杂序列动态的必要性。代理与环境之间的交互由状态空间的精确定义和奖励法则来控制。代理的动作构成一个连续的值，表示对变压器预测的调整程度。相反，奖励被确定为指导学习的关键指标。TD3的定制环境结构如下：3.3.1. 状态考虑当前的变压器预测和数据集中的进度（标准化指数），如方程（17）所示。其中是变压器的预测，N是时间t时的样本总数。3.3.2. 动作代理在定义的范围内选择一个校正。校正预测如方程（18）所示。3.3.3. 奖励法则它测量校正预测与实际RUL值之间的差异。奖励是绝对误差的负值，如方程（19）所示。奖励可以被解释为典型的成本标准，如方程（20）所示。这相当于最小化成本函数，如方程（21）所示。考虑到传统的线性二次调节器（LQR）：LQR具有二次成本函数。奖励在方程（23）中定义。其中：惩罚准确性的二次误差。惩罚控制努力（以避免过度或不稳定的校正）。是准确性和努力之间的权重因子。这对应于最小化累积成本，具有LQR结构，如方程（24）所示。状态表示为误差。控制输入相当于动作。和用于表示LQR的标量版本。基于LQR架构选择奖励函数的合理性在于需要将RUL精细化过程转化为一个稳定的控制问题，基于以下技术考虑：在精度和稳定性之间达成平衡是必要的。LQR结构使模型能够最小化准确性的二次误差（），同时惩罚“控制努力”或校正的幅度。这防止了不稳定或不规则的调整。与优先考虑最终误差的传统奖励函数相比，LQR的二次特性保证了更精细的学习策略。这是因为大的偏差会受到较大惩罚，随着代理接近目标RUL，校正变得更加精确。鲁棒性与噪声。在复杂场景中，如FD002和FD004数据集中观察到的情况，基于LQR的奖励函数作为动态调节器，可以减弱由传感器噪声或非稳定运行条件引起的振荡。数学一致性。这种形式有助于最小化累积成本函数（J），从而提供一个数学上基础的框架，将强化学习目标与预测性维护的经典控制理论统一起来。与变压器一样，TD3的一些参数也经历了超优化过程，如表4所示。表4. TD3的超优化参数。TD3代理在RUL校正任务中的有效性取决于其参数的优化，这些参数控制着强化学习过程和误差校正的动态。诸如学习率、缓冲区大小和批量大小之类的参数对于演员和评论家网络的稳定性和收敛速度至关重要。低学习率对于确保平滑和受控制的权重更新是必要的，从而防止发散。此外，较大的缓冲区大小对于存储多样的校正经验至关重要，这对于TD3的离策略学习至关重要。批量大小，定义为每次梯度更新使用的样本大小，已被证明会影响梯度估计的噪声。除了学习的稳定性之外，还需要考虑其他定义探索与利用之间权衡的关键参数。折扣因子（gamma），通常设置为接近1，决定了未来奖励的重要性，对于评估校正的长期后果至关重要。平滑因子，称为tau（），控制目标网络的更新。低的tau值对于保持算法的稳定性是必要的，因为它确保了逐步更新。相反，高斯噪声值（noise sigma）影响连续动作空间的探索，使代理能够尝试多样的校正并避免在训练过程中形成局部最优解。参数lambda penalty、action low和action high是创建环境的独特之处，它们定义了校正策略。动作范围，定义为给定环境中可能动作的范围，用于限制代理能够实施的校正幅度，从而指导其关注点。lambda penalty（）是一个用来描述动作大小在奖励函数中影响的术语。它已被证明可以鼓励最小和稳定的调整。为了确保模型的泛化和鲁棒性，需要在四个CMAPSS子集（FD001、FD002、FD003、FD004）中一致应用相同的参数值。这种方法旨在证明，一旦优化，TD3模型在各种运行和故障条件下都能保持其校正效果。3.4. 数据和预处理由NASA的涡轮风扇发动机模拟工具生成的数据集CMAPSS包含一系列多变量时间序列测量[58]。在每个轨迹中，发动机在正常条件下开始运行，但在某一时刻引入了一个故障。这个缺陷在整个序列中逐渐加剧，直到发动机完全失效。如图5所示，涡轮风扇发动机包括几个主要子系统，如高压和低压压缩机、高压和低压涡轮机以及燃烧室。图5. 涡轮风扇结构。涡轮风扇发动机配备了58个传感器用于常规性能监控；其中只有21个测量值被保留在数据集中，因为它们被认为是可靠的。CMAPSS数据集被分为四个子集，每个子集都有独立的训练和测试部分。这些子集在运行条件和故障配置上有所不同，从而导致从FD001到FD004的复杂性逐渐增加。表5提供了这些子集的详细总结。表5. CMAPSS数据集的概述。训练集包括从健康运行到逐渐退化的发动机监测序列（RUL）。每个条目包含26个属性：发动机ID、时间周期、六个操作参数和21个传感器读数。此外，该数据集涵盖了六种不同的操作条件和两种特定的故障机制——风扇退化和高压压缩机降解。表6详细列出了根据CPMAPSS数据集的标准配置，涡扇发动机中监测的21个传感器变量的命名、技术描述和测量单位。这些测量值涵盖了发动机各部件中的关键参数，如温度、压力和转速，构成了TRANS-D3模型在RUL预测回归任务中的输入空间。表6. 涡轮发动机传感器的技术规格和命名（CPMAPSS）。本研究中的所有实验均使用了CPMAPSS的子集。先前的分析表明，数据集中的某些特征对RUL预测的贡献较小。根据[59]中的建议，选择了一组14个特征用于所提出的混合模型，这些特征对应于列2、3、4、7、8、9、11、12、13、14、15、17、20和21。此外，传感器数据使用了最小-最大值标准化进行了缩放，其定义如下[42]：(25) 在公式(25)中，x代表原始传感器读数，而分别代表该传感器的最小和最大观测值。应用这种标准化方法可以将所有传感器读数映射到[0, 1]区间内，确保特征之间的一致性，并有助于训练过程生成可靠的RUL估计模型。另外，使用精炼的传感器集合加上标准化已被证明可以提高预测模型的准确性和稳定性[60]。为了直观理解每个传感器的行为以及最小-最大值标准化的效果，图6展示了选定传感器的原始信号和标准化信号。图6. (a) 原始信号与 (b) 标准化信号（传感器2和传感器15）的比较。为了说明这一点，选择了两个传感器进行分析：传感器2和传感器15。选择这两个传感器是为了展示最小-最大值标准化过程对原始退化信号的影响。这些传感器具有不同的动态范围和退化趋势，非常适合用来说明标准化过程，它将异构的传感器测量值重新缩放到一个共同的数值范围内，同时保留了它们的时间进展。如图6所示，预处理技术的实施有效地缓解了尺度差异，并提高了数值稳定性，而没有影响底层退化模式的完整性。同样的标准化策略系统地应用于所有传感器通道，并在所有CPMAPSS子集（FD001–FD004）中一致采用，确保了预处理的均匀性和模型训练与评估条件的公平性。3.5. 使用的硬件开发是在一台配备第11代Intel Core i7 CPU、NVIDIA RTX 3060 GPU和16 GB RAM的笔记本电脑上进行的。混合模型使用Python 3.11编程语言实现。4. 结果本节全面评估了TRANS-D3混合架构在使用CPMAPPS数据集预测RUL方面的性能。结果组织展示了所提出方法与其他用于RUL预测的算法相比的有效性。4.1. 指标有两个重要的指标用于评估所提出的混合方法在预测RUL方面的性能：RMSE和得分。如公式(26) [61]所示，RMSE是RUL演变中常用的指标，它对RUL的低估和高估赋予相同的权重。这里，表示实际值，表示第i个周期中的预测值。较低的RMSE值表示更好的准确性。(26) 另一方面，公式(27)中定义的得分根据预测是提前还是延迟引入了不同类型的惩罚[58]。(27) 这里，表示真实RUL与第i个周期中的预测值之间的差异。得分函数对过于乐观和过于保守的估计都进行了惩罚。当模型输出的RUL小于实际值（提前预测）时，相应的惩罚相对较小。相反，当预测的RUL大于实际值（延迟预测）时，惩罚变得更加严重，因为未能预测到即将发生的故障可能会对设备可靠性和维护计划带来严重风险。如图7所示，在给定恒定的惩罚得分值的情况下，对早期预测的容忍度高于对延迟预测的容忍度。图7. 惩罚得分函数。4.2. RUL预测本文提出的混合方法的性能与其他用于相同任务的最新技术（SOTA）中的算法进行了比较。这些方法包括支持向量回归（SVR）[62]、MLP [62]、CNN [62]、LSTM [62]、CNN + LSTM [62]、双向LSTM [63]、门控卷积变换器（GCT）[32]、深卷积神经网络（DCNN）[59]、集成LSTM神经网络（ELSTMNN）[64]、基于分布式注意力的卷积网络（DATCN）[65]、门控循环单元卷积神经网络（AGCNN）[66]、BiLSTM注意力模型[17]、双方面自注意力（DAST）[67]、动态长度变换器（DLformer）[33]、1D-CNN-LSTM [68]、CNN-LSTM-自注意力机制（SAM）[34]、BiLSTM去噪自动编码器（DAE）[35]-Transformer和两阶段基于注意力的层次化变换器（STAR）[39]。所有比较结果均来自原始出版物或根据标准CPMAPSS协议进行的基准测试评估。这些评估使用了相同的训练/测试分割和指标，以确保公平和一致的比较。为了保证可复制性，请参阅表3和表4，其中列出了TRANS-D3使用的所有参数。此外，还应用了相同的最小-最大值标准化方法将传感器读数缩放到[0, 1]区间内，仅使用文献中推荐的CPMAPSS数据集的标准化子集（列2、3、4、7、8、9、11、12、13、14、15、17、20和21），这些子集被用于比较中的工作。如表7所示，粗体数字代表最佳模型。表7. 模型性能总结。所提出的TRANS-D3模型在FD001数据集中表现出显著提升，实现了1.66的RMSE，与STAR（10.61）、BiLSTM-DAE-Transformer（10.98）或AGCNN（12.42）等先进模型相比，误差减少了84-90%。在得分方面，改进更为明显。虽然传统方法的得分在169到3980之间，但所提出的方法得到了8.82的得分，相当于减少了95%以上。这表明不仅有更低的误差，而且对于更准确和保守的预测也有非常低的惩罚。在FD002数据集的情况下，所提出的TRANS-D3模型也与大多数比较模型相比显示出显著提升。模型的RMSE为13.23，优于DATCN（16.95）、AGCN（19.43）、DAST（15.25）和CNN-LSTM-SAM（18.9）等架构，误差减少了14%到32%。尽管某些专门模型（如STAR（13.47）或BiLSTM Attention（15.94）的表现值得注意，但TRANS-D3仍是一个显著的例外，得分高达114.33。这一结果表明，与BiLSTM-DAE-Transformer（2937）、AGCNN（1492）或DATCN（1842）等方法相比，误差减少了85-95%。这一发现表明，即使在具有单元操作变异性的最复杂情况下，TRANS-D3混合方法也能产生更稳定的预测，并减少了惩罚并增强了泛化能力。在FD003中，TRANS-D3也被认为是最具竞争力的模型之一，RMSE减少了6.61，比BiLSTM-DAE-Transformer（11.14）或DATCN（11.56）等先进网络提高了38-45%，比CNN（21.36）或MLP（31.52）等传统架构提高了50%以上。在得分指标方面，模型取得了42.88的值，表明与CNN-LSTM-SAM（253）或AGCNN（227）等方法相比，误差减少了大约80-85%。这一发现证实了TRANS-D3混合模型在识别处于复杂操作条件下的发动机微妙退化模式方面的有效性。在FD004中，由于其高变异性而被认为是具有挑战性的数据集中，所提出的模型实现了12.26的RMSE，比STAR（15.87）、CNN-LSTM-SAM（20.5）和DATCN（18.23）等近期模型提高了23%到35%。得分指标也显示出类似的效果：虽然比较方法的得分在1449到3392之间变化，但TRANS-D3的得分达到了406.93，表明惩罚减少了70-85%。这项研究的结果表明，结合Transform器和TD3的混合方法不仅提高了准确性，还在高不确定性情景中显著增强了预测的稳定性。为了更全面地验证TRANS-D3模型的统计有效性，并描述估计RUL值与实际RUL值之间的线性关联和拟合程度，表8总结了每个CPMAPSS子集的决定系数（R2）、皮尔逊相关系数（r）和95%置信区间。表8. RUL预测的统计摘要和相关指标。除了表7中呈现的RMSE和得分指标外，还进行了更深入的统计评估，以评估模型的可靠性。TRANS-D3模型在所有子集中的R2都超过了0.93，FD001的R2最大值为0.9984。这表明混合架构几乎解释了所有RUL退化轨迹的方差。此外，所有情景下的r系数都保持在0.96以上，即使在FD002和FD004的多工况操作条件下，也确认了正确预测与实际结果之间的高线性一致性。图8详细可视化了所提出的TRANS-D3模型与测试数据集FD001到FD004的实际RUL之间的比较。x轴与电机单元指数成正比，而y轴与RUL成反比。图8. 比较估计RUL与实际RUL的结果。(a) FD001；(b) FD002；(c) FD003；(d) FD004。图8展示了蓝色绘制的真实RUL与预测RUL之间的比较。X轴上的电机单元按照真实RUL从高到低的顺序排列，以便可视化趋势。校正的目标是使预测与现实对齐，结果很明显：所有数据集中的橙色线（校正后的RUL）紧密反映了蓝色线（实际RUL）的趋势和值。两条曲线在整个范围内的接近程度，从RUL最高的单元（左侧）到最低的单元（右侧），表明TRANS-D3采用的校正策略在显著减少预测误差方面非常有效，尽管观察到了一些轻微的偏差，表明存在少量残余误差。图9全面比较了各种SOTA模型与所提出的方法TRANS-D3在CPMAPSS基准测试的四个子集（FD001到FD004）上的RMSE。结果表明，所提出的架构一致性地超越了所有参考模型，包括基于循环神经网络（LSTM、BiLSTM）、卷积网络（CNN、DCNN）和混合注意力模型（BiLSTM-Att、CNN-LSTM-SAM）的模型。在所有情景中都明显减少了误差，特别是在FD001中，TRANS-D3的RMSE为1.66，与STAR模型（10.51）和其他当代方法相比，预测准确性显著提高。图9. (a) FD001；(b) FD002；(c) FD003；(d) FD004的RMSE结果。即使在FD002和FD004等由于多操作条件和故障模式而更复杂的子集中，这种优越的性能也得以保持。传统模型，如MLP和SVR，显示出显著的准确性下降，RMSE值超过了25或30点。相反，TRANS-D3模型表现出异常的韧性，在数据集中保持了最低的误差（FD002为13.23，FD004为12.26）。这些发现表明，结合注意力机制和所提模型结构允许更有效地提取时间特征，从而在复杂的工业系统中实现卓越的RUL预测泛化能力。如图10所示，提供了CPMAPSS数据集四个子集在得分函数方面的性能比较。由于该指标的性质，它在RUL（剩余使用寿命）预测中对高估误差进行了不对称的惩罚，因此传统模型与所提出模型之间的结果值在数量级上存在显著差异。因此，y轴采用了对数刻度。这种表示方式对于清晰、公平地可视化性能差异至关重要，从而防止低性能模型（例如MLP或SVR）的异常值掩盖了更高级架构所取得的微妙但关键的改进。图10展示了(a) FD001；(b) FD002；(c) FD003；(d) FD004的得分结果（对数刻度）。这种可视化技术的实施使我们能够辨别TRANS-D3的显著进步，这体现在其在所有评估场景中位于误差刻度的较低端。在FD001子集中，所提出的模型获得了8.82的值，这一结果使其显著低于科学文献中记录的大多数模型，后者常常超过某个阈值。在FD002和FD004等更复杂的环境中，TRANS-D3分别获得了114.33和106.93的得分，进一步证明了其优越性。该模型在对数刻度上保持如此低的误差，突显了其在捕捉复杂时间依赖性方面的鲁棒性和有效性，从而最小化了与机械部件使用寿命高估相关的关键安全故障。此外，还必须全面评估预测的鲁棒性和分散性。如图11所示，展示了四个CAMAPSS子集中的预测误差（以周期为单位）的密度分布，并使用基于百分比的置信区间来量化模型的不确定性。图11使用预测误差分布进行了不确定性分析，将模型估计值与实际RUL值进行了比较。对四个场景（FD001–FD004）的分析显示，误差集中在零值附近，如平均误差线所示。单峰且居中的分布表明模型表现出最小的系统偏差，确保了在FD002和FD004等具有多种操作条件和故障模式的复杂子集中的一致准确性。为了提供可靠性的定量度量，计算了第5和第95百分位数（虚线），这些百分位数划定了90%预测值所在的范围。这种量化不确定性的方法使我们能够观察到模型对不同环境的敏感性。虽然在FD001中分散性最小（表明高度确定性），但在FD002和FD004中区间变宽。这种行为与CAMAPSS文献一致，证明了模型能够识别和表示传感器数据在波动操作条件下的固有变异性，从而为诊断提供了明确的置信度范围。从预测维护的角度来看，这些结果验证了所提出系统的可靠性。为预测误差建立统计限制使维护操作人员不仅可以确定估计的RUL，还可以确定相关风险水平。图表极端的异常值密度低，证实了模型的稳定性，降低了关键预测误差的概率。

为了更全面地了解不确定性分析，表9总结了CAMAPSS数据集中预测误差分布的主要统计指标。表9提供了四个CAMAPSS子集中预测误差分布的定量特征。所有情况下的平均误差值都接近于零，表明所提出的TRANS-D3框架在估计RUL时没有系统性的偏差。具体来说，FD001子集表现出最小的误差变化，表明该场景下的操作条件稳定。这一发现验证了所提出方法在标准条件下车生成可靠和精确预测的有效性。相反，在FD002、FD003和FD004中观察到的较高标准差和较宽的百分位范围与这些子集中的较高操作变异性和故障复杂性相符。尽管存在上述挑战，但TRANS-D3表现出可控的误差分散性和有限的极端偏差，这一点通过第5和第95百分位数得到了证实。这种行为强调了所提出的以控制为导向的学习策略的鲁棒性及其在工业4.0环境中进行预测维护应用时的适用性，其中预测的可靠性和稳定性对于决策至关重要。

区分不确定性分析和所提供的统计置信区间是必要的。表9中的第5和第95百分位数描绘了测试引擎中个别预测误差的分散情况。相反，表8中的95%置信区间（CI）指的是平均误差估计的准确性。观察到所有子集中平均误差的置信区间接近于零，证明TRANS-D3框架是一个无偏估计器。这种双重方法涉及量化个别预测的分散性和系统偏差，为工业4.0环境中的模型可靠性提供了全面的概况。为了进一步研究所提出的TRANS-D3框架的适应性和韧性，使用了一个与训练期间不同的数据集进行了额外的评估，即CAMAPSS的一个变体（N-CMAPSS）[69]。虽然经典的CAMAPSS数据集仍然是验证新的RUL预测方法的主要参考和事实标准，但使用独立且更新的数据集来评估性能对于验证所提出方法不限于单一数据源是必不可少的。这项补充分析的目的是展示TRANS-D3在异构操作条件和未观察到的数据分布下泛化其预测和纠正机制的能力。N-CMAPSS数据集经过精心设计，以模拟真实操作条件下的涡轮风扇发动机退化的高保真模拟。它包含了多种飞行轮廓、时变操作状态和在整个发动机生命周期中演变的复杂退化轨迹。该数据集捕捉到了非平稳的传感器响应、可变的噪声水平以及操作设置和传感器测量之间的复杂相互作用。这些特性引入了显著的时间和上下文复杂性，使N-CMAPSS成为评估数据驱动预测模型在真实工业环境中的鲁棒性和适应性的理想基准。在N-CMAPSS DS01子集中获得的实验结果证实，TRANS-D3在这些更具挑战性的条件下保持了其鲁棒性和稳定性。观察到的性能表明，只要模型架构和超参数与经典CAMAPSS实验中使用的保持一致，所提出的框架就不依赖于对每个数据集的特定调整。相反，基于Transformer的时间表示与基于TD3的误差校正的整合使模型能够有效地适应更大的操作变异性和复杂的退化模式。

为了对TRANS-D3在N-CMAPPS DS01数据集上的表现进行全面的定量评估，使用了之前相同的指标，如表10所示。表10总结了TRANS-D3框架在N-CMAPPS数据集上的预测能力。该模型显示了3.57个周期的低RMSE，表明在单元级别上对RUL的估计非常准确。此外，64.13的SCORE值表明早期和晚期预测的惩罚都很小，从而强调了在风险敏感框架下所提出校正策略的鲁棒性。相反，较高的决定系数（R2）证实TRANS-D3有效捕捉了系统的退化动态，并阐明了RUL轨迹中的大部分方差。这些发现证明了所提出的混合强化学习和Transformer架构在N-CMAPSS数据集上提供可靠和稳定预测性能的有效性。

Transformer模型与TD3算法的整合在RUL预测方面相较传统的监督方法有了显著提升。级联结构使每个组件能够解决问题的具体方面。Transformer专注于从多变量时间序列中学习退化模式，而TD3通过基于奖励的优化过程系统地减少了残差误差。这种协同作用是最终准确性提高的主要因素之一。结果中最相关的方面之一是Transformer单独有效地捕捉了传感器中的非线性变化，但在退化后期显示出不断增加的偏差。这种行为在纯监督模型中很常见，因为最终阶段的数据分布更加分散且代表性不足。引入TD3通过将其表述为一个控制问题来纠正这些偏差，其中代理调整以减少RMSE。表7中呈现的比较结果表明，Trans-D3在CMAPSS基准测试中始终优于或匹配了最近的SOTA方法，无论是在RMSE还是得分方面。具体来说，所提出的框架在性能上显著优于基于CNN和LSTM的纯监督深度学习模型，强调了整合强化学习进行预测细化的有效性。与最近的混合方法相比，Trans-D3在长期退化轨迹的情景中表现出竞争性或更优越的性能。在这些情景中，Transformer的自注意力机制有效地捕捉了时间依赖性。这些结果表明，将RUL预测细化框架化为一个控制问题提供了相比于依赖更深或更复杂网络架构的补充优势。

尽管观察到了性能提升，但仍必须承认研究的内在局限性。首先，评估仅在CAMAPSS基准上进行，尽管该基准被广泛采用，但它代表了一个具有预定义退化模式的模拟环境。因此，报告的改进可能不会直接转化为具有不同操作模式或故障模式的工业系统。其次，基于TD3的校正的有效性取决于Transformer初始预测的质量，这在领域发生较大转变的情况下可能会影响韧性。此外，强化学习组件的引入增加了训练过程的复杂性，需要精心设计奖励和超参数调整。通过跨领域验证、自适应奖励公式以及在真实世界数据集上的评估来解决这些局限性是未来工作的重要方向。与仅依赖监督模型的模型相比，50%的改进表明强化学习作为一个动态优化器，能够适应每个被评估单元，而不仅仅是一个独立的预测器。这表明校正机制学习了一般策略，并发展了根据每个电机单元的误差调整预测的能力。使用基于回归或线性滤波器的传统后处理方法很难复制这种行为。另一个相关发现是，混合模型在最终预测中表现出较少的方差。在表现出异常行为或突然退化路径的发动机中，监督模型中的误差分散往往更大。然而，引入使用TD3的控制循环使系统能够充当调节器，即使在高不确定性情况下也能减弱误差的振荡并稳定预测。值得讨论的一个元素是基于LQR原理的奖励函数设计。这种设计之所以有效，是因为它最小化了绝对误差，并惩罚了可能损害代理稳定性的过度校正。与标准强化方法不同，在标准方法中，动作在早期阶段可能会变得不稳定，而这种函数促进了更为渐进的学习和更平滑的策略。

然而，重要的是要强调与计算复杂性相关的局限性。尽管Transformer在特征提取方面提供了显著的优势，但其计算成本随序列长度的增加而二次方增长。虽然通过选择适当的序列长度参数减轻了这种影响，但未来的研究可以探索更高效的模型，如Informer或Performer，以在不牺牲准确性的情况下减少训练时间。另一方面，TD3代理的训练在很大程度上依赖于Transformer的初始预测质量。在Transformer犯下较大错误的情景中，代理可能需要更多的剧集才能收敛到稳定的策略。这引发了研究额外预训练方法或初始误差清理流程的需求，以促进强化学习。分析模型在不同操作条件下的泛化能力也是相关的。分析表明，即使在具有不寻常特性的引擎中，这种混合架构也能保持其性能。然而，由于该系统是用CMAPSS进行训练的，因此有必要在真实环境中验证其鲁棒性，因为在真实环境中可能存在噪声传感器、缺失数据或同时发生的故障。为了适应这些情况，可能需要对TD3智能体的状态定义或奖励函数进行调整。在可解释性方面，注意力机制造使我们能够识别出对预测过程贡献最大的传感器。这与LSTM或CNN模型形成对比，在这些模型中，内部关系往往更难以追踪。可视化注意力图有助于我们理解退化是如何发展的，并且对于需要为数据驱动的决策提供依据的维护技术人员来说非常有用。然而，强化学习组件增加了一层不确定性，因为学习到的策略并不总是易于解释的。尽管强化学习提高了性能，但未来的研究可以集中在开发解释策略或分析动作灵敏度的方法上，以增加模型的透明度。

TRANS-D3模型的统计鲁棒性还体现在所有CMAPSS子集中r系数的高值上。该模型在FD001情景下的R2值为0.9984，表明混合架构有效地捕捉了与引擎退化过程相关的大部分变异性。即使在FD002和FD004等更复杂的数据集中，这一发现也依然成立，这些数据集涵盖了多种操作条件和故障模式。值得注意的是，R2值始终保持在0.93以上，突显了该模型捕捉复杂系统行为的能力。此外，皮尔逊相关系数进一步证实了正确预测与实际剩余使用寿命（RUL）之间的线性一致性，确认了模型在整个监控单元的操作历史中保持了准确性。

第五和第九十五百分位数提供的不确定性分析与平均误差的95%置信区间之间存在关键区别。百分位数说明了单个预测误差的分布情况，从而反映了模型对传感器噪声和随机性的敏感性。相反，平均误差的狭窄95%置信区间评估了系统偏差的统计确定性。例如，在FD004子集中，置信区间[?1.324, 1.748]确保了模型是一个统计上无偏的估计器。这种双重验证方法既量化了单个预测的偏差，也量化了系统偏差，为工业环境中决策提供了透明可靠的模型性能概况。这种概况对于安全至关重要的工业环境中的决策至关重要。

不确定性分析强调了所提出的TRANS-D3框架的一个显著优势：其在异构操作条件下生成精确预测和一致、可靠误差行为的能力。与传统主要优化点估计准确性的深度学习方法不同，TRANS-D3采用了一种以控制为导向的框架，明确限制了预测修正。这种设计决策体现在所有CMAPSS子集中观察到的紧凑且居中的误差分布上，尤其是在FD002和FD004等复杂情景中。极端偏差的缺失表明，将TD3智能体与基于LQR的奖励函数相结合有效缓解了在面临高操作变异性时纯监督架构中常见的突然预测变化。此外，在N-CMAPSS DS01子集中获得的结果表明，所提出的TRANS-D3框架有效平衡了预测准确性和对风险的敏感性。虽然低RMSE值表明RUL估计的准确性很高，但有利的SCORE值表明基于强化学习的修正机制成功地减少了在预测应用中受到严重惩罚的关键后期预测错误。高R2值进一步证实了Transformer–TD3混合架构能够捕捉到潜在的退化模式。然而，需要注意的是，这种性能是以高计算成本为代价的，主要是由于Transformer模型和强化学习智能体的顺序训练所致。在实时或资源受限的工业环境中实施所提出的方法时，应仔细考虑这一因素。

从工业和工业4.0的角度来看，这些发现具有重大意义。预测性维护系统经常应用于安全至关重要的环境中，在这些环境中，决策不仅受估计的RUL影响，与该估计相关的置信度也是一个关键因素。通过使用基于百分位数的误差界限明确表征不确定性，TRANS-D3使维护计划人员能够在必要时评估风险水平并采取更为保守的策略。这一独特之处使得所提出的方法与现有的基于CMAPSS的方法区分开来，后者通常只报告均方根误差（RMSE）和分数，而不考虑预测的可靠性。因此，TRANS-D3通过弥合高预测准确性和操作可靠性之间的差距，代表了这一领域的最新进展，增强了其在复杂实际工业系统中的适用性。

最后，分析表明Trans-D3架构不仅提高了定量性能，还引入了一种新的范式：通过强化学习对监督预测进行控制性修正。这一概念为新的混合系统打开了可能性，这些系统不仅可以应用于剩余使用寿命（RUL）的预测，还可以应用于退化估计、维护优化和复合故障预测等问题。尽管Trans-D3架构在CMAPSS基准测试中表现出良好的鲁棒性，但仍必须认识到其在实际工业4.0环境中的局限性。首先，CMAPSS是一个高保真度的模拟数据集，具有结构良好的传感器测量数据和明确定义的退化轨迹。相比之下，实际工业系统通常具有噪声信号、缺失数据、传感器漂移和未建模的操作干扰。其次，强化学习修正阶段的有效性取决于Transformer基线预测的质量。因此，极端的领域变化或不可预见的故障机制可能需要额外的调整或重新训练，以确保TD3智能体的稳定收敛。此外，不同工业平台之间传感器可用性和配置的差异可能会阻碍学习表示的直接转移。总之，尽管所提出的奖励公式增强了稳定性，但强化学习组件在训练过程中引入了额外的计算开销，这可能限制了其在资源有限环境中的适用性。

尽管存在这些挑战，Trans-D3的模块化设计使其能够适应并扩展到实际的预测性维护系统中。未来的研究将集中在提高在真实传感器条件下的鲁棒性、整合未标记数据以及在工业规模实施中验证该方法上。通过对所提出模型与传统方法进行比较分析，发现引入高级架构（尤其是注意力机制和上下文动态）显著提高了在复杂工业场景中的预测和诊断能力。结果显示准确性、稳定性和泛化能力都有所提升，这证实了所提出方法能够优化关键变量的预测，并且在面对真实系统固有的变异性时仍保持鲁棒性。特别是在具有挑战性的数据集中，传统方法往往表现不佳。同样，研究还证实了所提出模型在计算复杂性和性能之间取得了良好的平衡，这对于推断成本是一个相关因素的应用来说非常有价值。在不同操作场景中对模型进行评估验证了其适应性和捕捉长期非线性关系的能力，表明该架构适用于数据动态高度变化的现代工业环境。

在CMAPSS参考点进行的实验评估定量证实了所提出的TRANS-D3框架的有效性。就预测准确性而言，该模型在参考操作条件（FD001）下的RMSE降低了84-90%，在高度变化和复杂的场景（FD003和FD004）下降低了23-45%。此外，TRANS-D3还提高了分数指标，与STAR和DAST等当代最先进架构相比，惩罚分数降低了大约80-95%。数值结果表明，将RUL预测细化视为控制问题，并结合基于Transformer的时间建模和受LQR启发的奖励函数指导的TD3智能体，能够实现高精度、稳定且保守的预测。这些预测是工业4.0预测性维护应用的基本要求。作为未来的研究方向，我们建议利用工业环境中大量未标记的数据，通过半监督或自监督学习来提高模型的预测能力。例如，时间一致性、动态伪标记和对未标记序列进行预训练的策略可以使系统学习到更丰富、更具泛化性的表示。这将减少对昂贵且有限的完全标记训练集的依赖，并为模型能够持续高效地适应变化条件铺平道路，而不需要大量的手动注释。

热点排行