面向边缘计算的、基于物理知识的降阶数字孪生技术：在变量载荷和强噪声环境下对热传递动态的在线跟踪王伟夫（Weifu Wang）与张国强（Guoqiang Zhang）

《Processes》：Physics-Informed Reduced-Order Digital Twin for Edge Deployment: Online Tracking of Heat Transfer Dynamics Under Variable Loads and Strong Noise Weifu Wang and Guoqiang Zhang

【字体：大中小】 时间：2026年05月10日 来源：Processes 2.8

编辑推荐：

　　摘要：大型壳管式换热器长时间运行，对氢生产过程的能效和安全性具有关键影响。然而，在工业分布式控制系统（DCS）上进行的在线状态监测常常受到一个工程学三难问题的阻碍：高保真的机理模型会导致不可接受的计算延迟；静态恒参数模型存在严重的系统偏差；而纯数据驱动模型在偏离常规运行场景（如变

　　摘要：大型壳管式换热器长时间运行，对氢生产过程的能效和安全性具有关键影响。然而，在工业分布式控制系统（DCS）上进行的在线状态监测常常受到一个工程学三难问题的阻碍：高保真的机理模型会导致不可接受的计算延迟；静态恒参数模型存在严重的系统偏差；而纯数据驱动模型在偏离常规运行场景（如变负荷操作）时可能产生非物理预测结果。为了解决这些问题，本研究提出了一种适用于高噪声工业DCS环境的物理引导自适应数字孪生技术。能量守恒和对流对数平均温差（LMTD）关系被作为硬约束嵌入到一个轻量级的降阶模型（ROM）中。在此基础上，一种闭环在线适应策略——包括物理边界检查、窗口式逆向估计、异常回滚和指数加权移动平均（EWMA）平滑——将整体传热系数U视为一个随运行状态共同演变的时变参数。通过对实际工厂DCS数据的验证（在变负荷条件下），与保守的固定U基线相比，所提出的在线更新方法消除了大量的系统高估（高达数十摄氏度），并抑制了由于冷侧温差小和传感器噪声引起的反演振荡。与容易过拟合的数据驱动基线相比，该框架在保持热力学可行性的同时，保留了毫秒级的推理延迟，从而建立了一个动态的健康基线。这个基线提供了一个代理指标，用于区分由负荷引起的可逆变化和潜在的退化相关剩余趋势。

1. 引言
大型氢生产装置通常在恶劣条件下运行，包括高温、高压和持续的重负荷。作为能量回收和过程控制的核心设备，壳管式换热器的热性能直接影响系统的能效、生产吞吐量和运营安全性。然而，在实际运行中，换热器不可避免地会因污染、腐蚀或流动分布不均而遭受不可逆的性能衰退。最近的综述强调，污染会降低传热性能，而整体传热系数可以作为监测污染的便捷代理指标[1]。基于时间的维护（TBM）不仅成本高昂，还可能引发过程扰动和计划外的停机。参数偏差监测已被证明可以有效跟踪多种运行条件下的设备退化[2]。因此，开发基于数字孪生（DT）的在线状态监测（CBM）和软 sensing 技术已成为过程工业中智能运营和维护的迫切需求[3]。最近的现场导向研究进一步表明，在线校准的数字孪生模型可以支持大规模热系统的实时性能监测和污染感知优化。例如，Aguilera等人开发了一个针对受污染影响的大型热泵的在线校准数字孪生框架，展示了实时模型适应对于性能监测和操作优化的价值[4]。
早期的换热器状态监测工作主要依赖于第一性原理建模。三维计算流体动力学（CFD）能够高精度地捕捉局部流场畸变和污染物沉积的空间分布[5,6]。然而，CFD的计算负担通常限制了其在工业分布式控制系统（DCS）中的在线推断应用，因为计算成本高[6]。相比之下，集总参数降阶模型（ROM）在计算上更高效，但往往假设是一个静态的设计常数。在变负荷工业运行中，壳侧速度的降低会显著降低对流传热系数。这种静态假设忽略了传热动态的演变，因此在运行条件发生变化时会产生严重的系统预测偏差[7]。
为了克服机理模型的准确性限制，许多最近的研究转向了纯数据驱动模型（如ANN、LSTM）进行温度预测和异常检测[8,9]。尽管工业DCS平台提供了大量的二级运行数据，但大多数样本集中在高度重复的稳态情况下，而覆盖完整污染周期并带有明确退化标签的真实故障数据极其稀缺[10,11]。在这种“标签稀缺”的情况下，黑箱模型实际上退化为高维插值器。更重要的是，在偏离分布（OOD）的场景中——如负荷大幅变化、启动/关闭瞬态或传感器漂移——缺乏热力学约束的纯数据驱动模型可能会产生违反能量守恒的非物理预测，因此缺乏工业控制系统所需的硬性安全边界[12]。
认识到单一建模途径的局限性，物理引导的机器学习（如PINN）和灰箱混合模型已成为活跃的研究方向。最近关于过程系统的物理信息神经网络的研究也强调了在将第一性原理知识嵌入神经网络结构时处理工厂-模型不匹配的重要性[13]。尽管如此，现有的混合架构仍然体积庞大，并且在处理真实DCS数据时面临严重的工程挑战。特别是在冷侧接近等温的情况下，对流对数平均温差（LMTD）可能变得非常小，强烈的传感器噪声会进一步放大数值敏感性；在这种条件下，复杂的混合网络往往难以收敛，并且仍然缺乏强大的在线自适应跟踪机制[12,14,15,16]。因此，这些模型大多局限于离线实验室验证，难以直接在资源受限的边缘设备上以低延迟部署。
为了解决上述挑战，本研究提出了一种基于物理引导的降阶数字孪生框架，用于在变负荷和高噪声DCS条件下的大型工业壳管式换热器的在线传热跟踪。目标不是构建换热器的高维虚拟副本，而是构建一个轻量级的、受热力学约束的在线监测模型，该模型可以从有限的准稳态运行数据中建立动态的健康基线。本工作的主要贡献总结如下：(1) 通过嵌入能量守恒和对流对数平均温差（LMTD）关系作为硬性热力学约束，开发了一个轻量级的降阶热模型。与纯数据驱动模型不同，所提出的ROM强制物理上可行的传热行为，适用于低延迟的边缘部署。(2) 提出了一种闭环在线识别策略，用于跟踪等效的整体传热系数U。该策略结合了窗口式逆向估计、物理边界检查、异常回滚和指数加权移动平均（EWMA）平滑，从而提高了对小LMTD数值敏感性和工业DCS噪声的鲁棒性。(3) 基于在线更新的LMTD，构建了一个可解释的健康指标框架。在本研究中，LMTD主要作为变负荷准稳态下的动态热性能基线进行验证。关于其用于不可逆污染或退化筛查的用途，它被视为一个初步的代理指标，将其定量映射到全生命周期的污染抗性仍然是未来使用长期退化标记的现场数据进行验证的主题。

2. 方法论
2.1. 数字孪生系统架构
所提出的数字孪生（DT）旨在在线工业部署中应用，组织为数据-模型-指标-应用（data-model-indicator-application）的闭环[17]。具体来说，数据层从DCS获取关键测量数据，包括两侧的入口/出口温度和壳侧质量流量。模型层通过强制能量守恒和对流LMTD关系构建一个轻量级的降阶热模型（ROM）。随后，校准层从运行数据中逆向识别整体传热系数U，并通过递归平滑得出在线更新的U。最后，应用层输出软感知的出口温度和健康指标，以表征退化/污染趋势并触发警报。
在本工作中，LMTD被视为一个依赖于运行状态的等效传热能力指标。对于污染或退化监测，应在相似的负荷范围内比较LMTD，或者在标准化流量关系后进行监测以跟踪残差。与固定参数模型不同，所提出的DT执行LMTD的在线识别和更新，使ROM能够随运行条件和退化共同演变[18]。这种设计旨在平衡二级延迟和持续的预测准确性。
注：“数字孪生”在此特指具有数据同步参数跟踪和闭环健康指标的低阶物理模型，如图1所示；它不涉及3D几何映射或全生命周期的虚拟-物理同步。

2.2. 设备描述和运行数据集
2.2.1. 设备和运行环境
研究对象是一个大型壳管式换热器，热流体在壳侧流动，冷流体在管侧流动。在当前工厂中，BFW/蒸汽侧表现出接近等温的行为，这在数据中表现为极小的冷侧温度升幅。主要过程边界和运行条件总结在表1中，关键几何/材料规格提供在表2中。
表1. 氢生产的过程参数和运行条件。
表2. 壳管式换热器的设计规格。
为了验证其在负荷变化下的适应性，首先使用稳态检测程序从二级DCS日志中筛选出候选的稳态工况。然后使用基于覆盖率的采样策略选择20个相互独立的稳态运行工况作为验证数据集（表3）。每个工况持续大约30-60分钟。在每个工况内，首先将10秒的采样信号平均到1分钟以抑制尖峰噪声；然后使用工况级别的平均值（及波动统计）作为代表性的运行条件。因此，表3中的T1–T20不是瞬时数据点；它们是覆盖全负荷运行、负荷减少过渡和低负荷稳定的统计总结。

2.2.2. 稳态工况提取和阈值确定
对于每个30分钟的滑动窗口（由1分钟的平均序列构建；窗口长度为N样本），相应的稳态运行工况被称为S。一个窗口被视为有效的稳态工况，当且仅当它满足以下统计标准：
(1) ΔT/S ≤ ΔT_min
(2) σ_S ≤ σ_max
其中，ΔT表示窗口内的关键过程变量集合；σ_S表示变量S在窗口内的标准差（波动指标）；σ_max表示窗口内的平均漂移（漂移指标），通过将S分成两个等长的子窗口S1和S2来计算[19]。
阈值ΔT_min和σ_S是根据历史DCS统计数据确定的——例如，使用相应S和S分布的经验分位数。这避免了主观调整，并确保了筛选规则的可重复性。值得注意的是，稳态筛选和覆盖率采样不使用模型预测误差或反演结果作为选择标准，从而防止了选择偏差，如图2所示。

2.3. 物理引导的降阶热模型（ROM）
基于稳态能量守恒和整体传热方程，换热器的热负荷满足[20]
(3) Q = μA·U·ΔT/S
其中，Q是整体传热系数U，A是换热面积，ΔT/S是对流对数平均温差（LMTD）。
对于对流操作，优先使用热侧能量平衡来减少由冷侧接近等温引起的数值不敏感性：
(5) Q = μA·U·ΔT_S
其中，Q_S是壳侧质量流量，ΔT_S是壳侧比热容。
为了避免在线属性调用对边缘设备的计算开销和延迟，U被视为一代表典型运行的有效常数（在本研究中取为常数U）。
因此，识别出的U应被视为一个广义的等效传热系数：它不仅捕捉物理热阻的变化（例如污染和对流边界层效应），还汇总了由常数属性简化引入的残余非线性。这种简化牺牲了一些微观可解释性，以换取强大的在线鲁棒性。管外表面积被采纳为有效传热面积：
(6) A = πD2·N
其中，D是管外直径，N是管子数量。

2.4. 在线识别和更新
为了在变负荷和测量噪声下保持长期可用性，U被建模为一个随运行条件和退化缓慢变化的等效参数。构建了一种闭环识别策略，该策略包括物理一致性约束、窗口式反演、在线平滑更新和异常回滚。该策略依赖于热力学守恒来确保物理可行性，同时实现自适应的在线更新，从而在预测准确性、鲁棒性和可部署性之间取得平衡[21]。为了避免符号歧义，本工作区分了窗口式反演值和在线更新值[22]：- 直接从第i个稳态状态使用能量平衡和LMTD关系反演得到的整体热传递系数；- 在物理一致性检查和回滚约束下，通过EWMA平滑得到的在线系数。2.4.1. 问题陈述和物理约束在工业运行中，换热器的等效热传递能力会随着负载波动、属性变化和污染/沉积物增长而缓慢变化。如果使用固定的热传递系数，ROM会产生系统偏差。如果直接使用该系数，则它在小温差条件下对传感器噪声和数值放大非常敏感，这可能导致严重的振荡甚至非物理值。因此，在线更新问题表述如下：对于每个稳态状态，从可测量变量计算热负荷和LMTD，反演热传递系数，并在物理一致性约束下将其映射到一个平滑的、可递归更新的系数。物理一致性约束规定：逆流端温差必须满足特定要求；当温差较大时，对数形式可能会放大数值噪声；在温差超过工程可行范围时采用限制近似值，该范围由设计知识、经验或历史统计数据指定。2.4.2. 窗口式反演和在线EWMA更新在第i个稳态状态下，热侧热负荷通过能量守恒计算得出：当温差和特定条件满足时，LMTD通过特定公式计算得出。然后应用窗口式反演系数。由于反演系数对测量噪声敏感，因此使用指数加权移动平均（EWMA）获得可递归更新的在线系数。这种方法仅依赖于历史信息，因此适合直接部署在DCS边缘节点上。在时间尺度分离的假设下，热传递能力的退化远慢于每日负载波动；因此，相邻稳态状态之间的变化很小。因此，反演系数可以作为当前状态的高质量基准。EWMA更新不仅充当传感器噪声的低通滤波器，还为瞬态非稳态间隔提供了参数“记忆”。图3总结了所提出的在线参数识别和更新过程的完整工作流程。2.5. 评估指标为了比较不同设置策略下的预测性能和在线可部署性，整个过程中使用了相同的ROM结构，并采用了四个统一指标——MAE、RMSE、MRE和MaxRE：基于这些指标，定义了三种热传递系数设置策略：固定策略——使用不变的常数热传递系数（设计值）而不进行更新；校准策略——在稳态数据集上反演热传递系数并计算全局平均值；在线策略——应用物理一致性检查和回滚约束，并使用EWMA实时更新热传递系数以进行在线预测和监控。2.6. 预测和实施细节该框架支持两种运行模式，用于不同的工程目的：监控模式——使用当前测量值反演当前的健康指标。在相似负载条件下，如果健康指标持续衰减，则触发污染警报；软感知/预测模式——使用之前的平滑系数以及当前的边界条件来预测当前的出口温度。由于当前数据集中可以测量到冷侧出口温度，因此可以容易地确定LMTD，从而简化模型逻辑为“热侧条件下的热侧出口温度/剩余评估”。为了实现鲁棒的在线实施，应用了以下工程规则：当温差过大时使用限制近似值以避免对数奇异性；如果状态被分类为异常（例如，违反约束），则保持热传递系数不变而不进行更新；低延迟执行——每个更新步骤仅涉及简单的代数运算，实现实时边缘部署。相应的条件监控和警报规则总结在表4中。表4. 基于热交换器的条件监控和警报规则。当温差过大时使用限制近似值以避免对数奇异性。虽然本文研究的特定设备在正常条件下运行的端温差很大（例如，50°C~80°C），避免了这种奇异性，但数字孪生模型被设计为一个通用框架。在冷启动、突然关机或在接近等温的冷凝器上部署时，分母可能接近工业温度传感器的硬件噪声底限（通常为0.1~0.5°C）。在这种情况下，数学计算会失去物理可信度。因此，数值稳定性阈值并不是任意选择的；而是根据工业A级RTD传感器的物理噪声底限和典型精度限制来确定的。为了在三种策略之间进行公平比较，使用了一个统一的一步预测协议：对于第i个状态，首先使用之前的参数预测热传递系数，并记录误差；然后使用当前测量值反演热传递系数，并使用EWMA更新得到下一个状态的热传递系数。因此，所有误差统计严格遵循“先预测再更新”的顺序。3. 结果与分析3.1. 验证数据集和运行状态覆盖为了评估所提出的基于ROM的数字孪生模型在工业运行下的预测能力，从DCS测量数据中构建了一个验证数据集。该数据集包括20个代表性的稳态运行状态（表3）。这些状态涵盖了满负荷基线、负荷减少过渡和低负荷稳定/恢复。因此，它们充分捕获了实际负荷变化下的典型温度响应和流量扰动。为了减少瞬态噪声对稳态热分析的影响，所有状态都选自相对稳定的时期（其中进口温度和流量波动低于预定义的阈值）。状态级别的统计量（主要是每个窗口内的平均值）被用作模型输入和比较参考。因此，本文中的“运行点”仅是一个索引标签；每个标签对应一个30-60分钟的稳态运行状态，而不是一个瞬时快照，如图4所示。3.2. 固定热传递系数下的基线性能当铭牌数据不可用且现场校准不可行（即，实际的“冷启动”条件）时，初步工程估计通常依赖于手册推荐的经验值。根据Perry的化学工程师手册[23]，用于将高温工艺气体传递到沸腾水的壳管式换热器的整体热传递系数的典型范围大约为85到280 W/(m2·K)。为了模拟这种极端数据稀缺的情况，采用了一个保守的下限经验值作为固定参数。然后预测热侧出口温度并与DCS测量值进行比较。基线模型捕捉到了整体趋势，但它表现出明显的系统偏差，误差显著放大：RMSE达到60.64°C，最大相对误差（MaxRE）为10.97%。预测值和测量值之间的巨大差异表明，实际的热传递能力并不恒定。这种严重的高估进一步表明，换热器的实际热传递能力远优于由固定参数表示的保守静态设计假设。这个固定的常数隐含了一个过于保守的污染允许值，无法应对变负荷运行下的对流热传递衰减，导致不可接受的系统预测偏差，如图5a所示。3.3. 通过全局（离线）校准提高准确性为了消除基线模型中观察到的系统偏差，应用了第2.5节中定义的全局校准策略。通过对数据集中的系数进行聚合，得到了校准后的热传递系数值。将这个值重新代入简化的ROM后，性能得到了显著提高。如图5b所示，预测轨迹与测量值紧密吻合。从定量上看，RMSE从60.64°C（基线）下降到7.87°C，MAE降至7.31°C。这种减少表明，简单的基于数据的离线校准可以有效纠正由静态参数假设引起的偏差，尽管在快速瞬态阶段可能仍会有一些滞后。3.4. 在线识别和作为状态指标的演变虽然全局校准则消除了平均偏差，但在线自适应更新策略提供了跟踪实时过程变化的能力。在本节中，采用了第2.5节中定义的在线策略：根据闭环规则递归更新热传递系数，并使用一步预测协议评估其在线可用性。图6比较了窗口式反演值和在线平滑系数在稳态状态下的变化。有两个观察结果。首先，在满负荷基线运行和正常波动下，热传递系数在某个水平附近振荡，而在线平滑系数有效地抑制了瞬时反演偏差，并显示出更平滑的轨迹。其次，在负荷减少过渡和低负荷稳定运行期间，热传递系数随着运行条件的变化而连续变化，表明它们是同步演变的，而不是静态常数。这种行为从物理上解释了为什么第3.2节和第3.3节中固定参数模型的误差在运行状态偏离时往往会放大：一旦真实的热传递能力发生变化，固定的热传递系数会直接将这种不匹配转化为系统的出口温度偏差，而在线平滑系数则持续吸收新信息并进行自适应校正。表5比较了三种参数策略下的出口温度预测误差。结果表明，相对于固定策略，引入在线更新进一步减少了误差指标（MAE、RMSE、MRE和MaxRE），并显著抑制了最坏情况下的偏差。这表明在线识别不仅提高了平均准确性，还在极端偏差情况下提高了鲁棒性。为了在受控条件下定量验证警报规则，向稳态状态T18–T20中注入了相当于3–15%等效热阻增加的合成退化类扰动。为了避免主观阈值调整，采用了统计过程控制（SPC）方法。警报阈值定义为特定值，其中和是从健康基线状态T1–T15中得出的均值和标准差。如图7所示，健康状态保持在SPC阈值以上，而退化程度大于5%的注入案例超过了阈值并触发了R1趋势警报。在这个受控的合成测试中，15个健康状态下的误报率为0/15，三个注入案例中大于或等于5%的检测率为3/3。这些统计应被视为初步的合成测试结果。3.5. 在数据稀缺条件下的鲁棒性：与数据驱动基线的比较为了评估所提出的ROM在数据稀缺条件下的可行性，构建了一个基于前馈反向传播神经网络（BPNN）作为数据驱动的基线。虽然BPNN和类似的机器学习模型可以在其训练数据分布内实现出色的插值精度，但它们基本上缺乏严格的热力学边界。为了模拟典型的工业“数据有限”情况，即所有运行范围内的综合数据集都不可用，一个（4-10-10-1）BPNN仅在20个稳态状态下进行了训练。尽管在小型数据集上采用这种标准的多层感知器架构本质上存在过参数化的风险，但它反映了普遍的工程实践。这种设置旨在表明，虽然数据驱动模型可以插值有限的历史数据，但在没有明确的物理守恒约束的情况下，它们在结构上仍然脆弱。这反过来证实了所提出的显式代数ROM（没有可训练的权重）在数据稀缺条件下提供了更可控的故障边界和更强的物理可行性。输入/输出定义和网络架构
对于第-th稳态样本，网络输入向量定义为 (15)，其中是热侧入口温度；和分别是冷侧入口和出口温度；是热侧质量流量。网络输出定义为 (16)。
考虑到工业从业者通常默认采用通用的多层感知器架构，因此选择了 (4–10–10–1) 架构作为代表性的小样本黑盒基准。该网络包含两个隐藏层，每个隐藏层有10个神经元；隐藏层使用ReLU激活函数，输出层使用线性映射。在训练之前，输入和输出变量都已经标准化。训练使用了有限内存BFGS（L-BFGS）二阶优化算法来提高小样本情况下的收敛稳定性。随机种子被固定以确保可重复性，最大迭代次数设置为5000次。（引入BPNN的目的是提供一个可重复的数据驱动基准，而不是对模型家族进行全面比较。）

3.5.2. 留一法交叉验证（LOO-CV）和误差评估
鉴于样本量有限，使用留一法交叉验证（LOO-CV）来评估BPNN的泛化性能。对于每个样本，网络在剩余的样本上进行训练，然后用于预测被保留的样本，从而得到预测值。将这些预测值汇总起来得到完整的样本LOO-CV预测序列，相应的残差分布总结在图8 [24] 中。图8. BPNN模型的留一法交叉验证（LOO-CV）结果：(a) 残差分布；(b) 预测值与测量值的出口温度对比。图9仅反映了在当前数据分布内的拟合性能；它不应直接解释为在实际应用中能够可靠地外推到分布变化、极端操作条件或传感器异常情况。

3.5.3. 在传感器漂移下的分布外（OOD）鲁棒性
为了系统地验证所提出框架的分布外（OOD）鲁棒性，进行了基于扰动的传感器漂移应力测试。如图10所示，在T18–T20时段内，有意将+10°C的步骤性漂移注入热侧入口温度。在分布内时段（T13–T17），由于强大的统计插值能力，BPNN显示出接近零的残差。所提出的ROM遵循一步预测协议，本质上存在大约2~3°C的热力学滞后（与表5中的总体MAE一致）。然而，在OOD故障条件（T18–T20）下，纯粹的数据驱动BPNN作为一个无约束的外推器，将注入的入口温度漂移映射为异常的出口温度波动。原始ROM预测也会偏离，因为被破坏的边界条件直接通过能量平衡方程传播。相比之下，所提出的物理驱动ROM通过一致性筛查和异常回滚在结构上强制执行这些热力学约束，保持物理可行性。

因此，BPNN仅作为参考基准来说明数据驱动模型在数据稀缺情况下可能遇到的潜在问题，从而确立了物理引导的闭环策略作为更安全、更易于部署的工业在线监测选项。

3.5.3. 在传感器漂移下的分布外（OOD）鲁棒性
为了系统地验证所提出框架的分布外（OOD）鲁棒性，进行了基于扰动的传感器漂移应力测试。如图10所示，在T18–T20时段内，有意将+10°C的步骤性漂移注入热侧入口温度。在分布内时段（T13–T17），由于强大的统计插值能力，BPNN显示出接近零的残差。所提出的ROM遵循一步预测协议，本质上存在大约2~3°C的热力学滞后（与表5中的总体MAE一致）。然而，在OOD故障条件（T18–T20）下，纯粹的数据驱动BPNN作为一个无约束的外推器，将注入的入口温度漂移映射为异常的出口温度波动。原始ROM预测也会偏离，因为被破坏的边界条件直接通过能量平衡方程传播。相比之下，受保护的ROM通过R2预测偏差规则检测到突然的残差变化，冻结在线更新，并保留最后一个验证过的系数作为接受的输出。因此，所提出的门控机制并不声称能消除所有OOD误差；而是防止可疑样本污染在线健康指标，并在此代表性传感器漂移扰动下限制接受的预测轨迹。

应当承认，在受控的实验室条件下，更先进的混合架构（如物理信息神经网络（PINNs）或灰盒集成模型）可能实现更高的预测精度。然而，这些架构通常需要大量的离线训练数据、大量的超参数调整工作以及GPU级别的计算资源进行推理——所有这些都与工业DCS边缘节点的毫秒级延迟和资源限制相冲突。因此，本研究使用BPNN作为代表性的黑盒基准，而不是进行全面的基准测试，主要目的是说明在OOD输入下纯数据驱动模型固有的热力学外推风险。与PINNs和其他混合公式在匹配的边缘部署条件下的系统比较仍然是未来研究的方向。

3.6. 计算效率
为了评估在线部署能力，所有计算和计时实验都在同一工作站上进行（Intel Core i5 CPU，16 GB RAM；Windows 11，Microsoft Corporation，Redmond，WA，USA；Python 3.10，Python Software Foundation，Wilmington，DE，USA；单线程实现）。ROM的单步推理时间约为12毫秒，BPNN为8毫秒。这两种方法的推理延迟都在毫秒级别，满足所考虑的DCS采样间隔的实时要求。除了单步推理外，在线更新仅涉及热负荷计算、LMTD评估、范围检查和一次EWMA递归。因此，更新成本与报告的ROM推理时间相同。在当前的1分钟平均数据流下，处理一小时的数据只需要60次更新步骤，使用每步12毫秒的延迟，CPU时间不到1秒。即使保持原始的10秒采样间隔，一小时的数据包含360个样本，可以在测试工作站上几秒钟内处理完毕。这些结果表明，计算负担相对于DCS采样间隔来说可以忽略不计。

4. 讨论
4.1. 通过动态校准消除误差的物理机制
我们的结果表明，由固定参数模型产生的巨大系统偏差源自两个相互关联的机制：静态偏差和动态不匹配。首先，在静态层面，工程设计值对污垢热阻保留了保守的余量，严重低估了当前操作阶段的实际传热能力。这种保守的静态假设导致预测的热侧出口温度总体上显著高于测量值（系统高估了数十度）。其次，在动态层面，在负荷减少过程中（例如，T6–T12），壳侧质量流量的减少（）降低了雷诺数（），从而诱导了对流传热系数的真实动态衰减。静态模型不仅误判了基线，而且完全未能跟踪这种边界层驱动的热力学响应。本文提出的自适应方法同时实现了“基线去偏”和“动态条件跟踪”，从而消除了这种双重误差。相反，在线校准策略本质上是对汇总参数的自适应补偿。通过实时反演获得的参数不仅捕捉了流量变化的显式效应，还隐含地聚合了缓慢的潜在因素，如逐渐累积的污垢和流动通道堵塞。因此，虽然保留了轻量级的降阶模型（ROM）架构，但这种方法实现了接近更高阶分布式参数模型的适应性[25,26]。

4.2. 物理一致性与非外推能力
与纯粹的数据驱动方法（例如BPNN）相比，所提出的基于物理信息的框架在小样本工业部署下提供了更可控的故障边界。如图8所示，尽管BPNN在训练集覆盖的稳态区间内展示了极高的拟合精度，但它仍然是一个由统计关联驱动的插值器。如果没有物理约束，纯粹的数据驱动模型在分布变化时存在产生非物理输出的潜在风险。根据构建，ROM严格受到热力学基本定律的约束：(17) 这些物理关系在输入测量通过一致性检查时将ROM预测限制在热力学可接受的范围内。如果检测到测量异常或突然的残差变化，框架不会强制将异常样本纳入传热更新。相反，会冻结的更新，并保留之前验证过的系数。因此，所提出的物理一致性设计的主要好处不是它消除了所有OOD误差，而是它提供了一个明确的故障安全边界，防止可疑样本污染在线健康指标。由于当前的OOD分析基于受控的扰动测试，而不是全面的启动/关闭或长期故障记录，因此不能对通用外推性能做出绝对的声明。

4.3. 敏感性分析和数值稳定性
必须指出，本研究中的管侧（冷侧）温差非常小，这为基于LMTD的参数反演引入了不可忽视的认识论不确定性[27]。从误差传播的角度来看，当计算时，如果或（即接近等温的冷端），逆问题会变得病态。在这种情况下，来自传感器测量的微小高频噪声会被极大地放大，导致识别的剧烈波动。这解释了为什么直接使用即时识别的值会破坏模型的稳定性。这里引入的EWMA更新法则 (18) 在频率域中起到了低通滤波器的作用。它有效地抑制了高频测量噪声，同时保留了与真实性能演变相关的低频趋势成分。这种处理代表了一种在响应性和数值稳定性之间的工程折中。对于冷端温差极小的极端操作条件，未来的改进可能需要引入正则化项来进一步提高反演的鲁棒性。从中可以推导出相对方差的一阶近似 (19) 这里，是一个几何常数，可以视为确定性的。根据独立变量的不确定性传播理论，当接近等温的冷侧导致时，微小的温度测量噪声会在LMTD的对数项中被放大。这种放大导致项占主导地位，从而触发反演值的振荡。数学上，这为使用EWMA低通滤波器与一致性回滚机制提供了基本理由。

为了解决工业DCS数据中具有强噪声的固定EWMA平滑因子的普遍性问题，进行了敏感性分析。如图11所示，改变显示了短期预测精度和参数稳定性之间的根本折中。图11a显示，较大的连续降低了预测RMSE，因为模型能够快速适应高频波动。然而，这种“过度跟踪”带来了严重的代价：如图11b所示，识别的标准差急剧增加，表明参数振荡更加剧烈。值得注意的是，经验上的振荡趋势与缩放后的理论EWMA方差比率趋势定性一致，表明较大的值倾向于吸收更多的高频传感器噪声。因此，选择作为在当前DCS噪声水平下短期预测精度和参数稳定性之间的实际折中。这个值不应被视为普遍最优的平滑因子，应在传感器噪声水平或采样策略发生变化时重新校准。

4.4. 在框架层面的可解释性
传统的条件监控方法通常直接跟踪出口温度。然而，这种方法混淆了两种根本不同的扰动。可逆的热力学响应：由质量流量变化引起的雷诺数变化（），随后改变了了对流传热系数。这是一个正常的物理现象（图12中的绿色路径所示）。图12提供了所提出监控策略的概念化标准化状态空间解释。绿色路径代表可逆的负荷诱导变化，而黑色路径和红色标记表示类似退化的传热能力下降。该图是示意图，不用于定量验证。不可逆的退化：由污垢沉积引起的污垢热阻增加。这代表了一个需要报警的实际故障（图12中的黑色路径所示）。

图12提供了一个标准化的概念化状态空间解释，说明了所提出的监控策略。与直接跟踪出口温度不同，后者同时反映了负荷变化、热滞和可能的退化，所提出的框架跟踪在线传热能力指标。在示意图状态空间中，可逆的负载诱导变化通过绿色路径表示，而归一化传热能力下降（类似于退化）的情况则通过黑色路径和红色标记来说明[29]。需要强调的是，图12是一个概念性图表，而不是额外的定量验证结果。当前的数据集主要捕捉了在不同负载变化下的准稳态运行情况，而红色标记是通过增加等效污垢热阻来模拟退化效应而生成的。因此，该图表旨在说明如何在一个共同的监测空间中表示与负载相关的变化以及类似退化的残余趋势。要定量区分管侧污垢、壳侧污垢、腐蚀和传感器故障，仍然需要具有明确退化标签的长时间序列现场数据。

4.5. 范围、可转移性和当前局限性
所提出的指标是一个等效的热性能指标，而不是组件级别的损伤诊断变量。因此，仅凭该指标本身无法区分管侧污垢、壳侧污垢、流动分布不均、腐蚀或应力腐蚀开裂。这样的定位需要额外的证据，例如特定侧面的压力降、检查记录、壁厚测量或维护报告。在本研究中，该指标仅作为CBM（Condition-Based Monitoring）筛查的低温热退化代理使用。
目前的验证基于一个工业用壳管式换热器及其准稳态运行情况。要将其应用于其他类型的换热器配置（如并流、逆流或不同的通道布置），需要更换LMTD（Logarithmic Mean Temperature Difference）修正/传热关系，并重新校准基线分布。因此，这项研究展示了该框架的可行性，但并不能保证其在不同设备间的普遍适用性。

5. 结论
本研究提出了一种基于物理原理的轻量级数字孪生模型，适用于高质量退化标签稀缺且现场测量噪声较大的工业场景。通过构建基于能量守恒和逆流LMTD的ROM（Restricted Order Memory），并通过逐点反演和EWMA（Exponentially Weighted Moving Average）更新实现整体传热系数的在线跟踪，该框架显著降低了黑盒模型中常见的非物理外推风险。根据在准稳态离散运行条件下的验证结果，可以得出以下结论：
- 固定参数模型在变载条件下可能会表现出显著的系统性偏差；
- 使用全局平均系数进行离线校准可以有效纠正整体偏差并提高平均预测精度；
- 在线更新策略在确保物理一致性约束的同时，能够更稳定地抑制负载变化过程中的极端误差，体现了可部署闭环参数跟踪机制的独特优势；
- 在线指标可以作为健康监测和报警规则构建的可解释代理。然而，其与该指标与污垢或退化机制之间的定量关联需要在具有明确退化标签的长时间序列数据集上进行进一步验证；
- 最后，当前研究的一个显著局限性在于，验证仅基于以负载变化为主的准稳态运行情况，缺乏涵盖自然污垢积累的全生命周期数据。尽管所提出的健康指标能够成功跟踪动态基线并消除系统偏差，但其与实际污垢层的定量映射仍需要进一步的实证验证。未来的工作将扩展该框架，以包括具有明确退化记录的长期现场研究，从而提升其在复杂瞬态条件下的状态区分能力和离群数据下的可靠性。

热点排行