通过物理残差变换和共形预测实现可靠的虚拟感知

《Knowledge-Based Systems》：Trustworthy Virtual Sensing via Physics-Residual Transformers and Conformal Prediction

【字体：大中小】 时间：2026年05月04日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　王斌 | 恩里科·齐奥意大利米兰理工大学能源系，米兰摘要随着智能设备越来越多地应用于安全关键领域，对其可靠性的需求变得至关重要。虽然基于人工智能的虚拟传感器在参数估计方面可以实现高精度，但它们通常存在物理一致性差和不确定性量化不足的问题。为了解决这些问题，本文

　　王斌 | 恩里科·齐奥
意大利米兰理工大学能源系，米兰

摘要
随着智能设备越来越多地应用于安全关键领域，对其可靠性的需求变得至关重要。虽然基于人工智能的虚拟传感器在参数估计方面可以实现高精度，但它们通常存在物理一致性差和不确定性量化不足的问题。为了解决这些问题，本文提出了具有共形预测（Conformal Prediction, PRT-CP）功能的物理残差变压器（Physics-Residual Transformer）框架，用于虚拟感知。PRT-CP框架利用物理信息残差设计将预测结果限定在基本的物理约束范围内，有效防止了物理上不一致的输出。此外，它还集成了一种共形预测层，能够构建具有数学证明的有限样本覆盖保证的不确定性区间。为了评估工业应用准备情况，我们引入了综合可靠性指数（Composite Trustworthiness Index, CTI），该指数综合考虑了准确性、物理一致性和不确定性量化质量。在液化石油气（LPG）监测和联合循环发电厂（CCPP）的案例研究中验证表明，PRT-CP始终获得最高的CTI分数，最高可达91.40%，同时保持了严格的95%覆盖率，并且区间比贝叶斯基线更为精确。这项工作为在现代工业系统中部署可靠的、与物理原理一致的AI建立了稳健的范式。

1. 引言
在高度自动化的系统中（例如自动驾驶车辆、无人水面船、工业机器人和航空航天系统），感知系统是获取环境信息的主要途径，也是自主决策和精确控制的基石[1]。可靠的感知是智能决策的基础，因为即使是微小的感知偏差也可能在决策链中被放大，可能导致灾难性后果[2]。
在复杂、极端或动态变化的非结构化环境中运行时，仅依赖物理硬件传感器会存在显著的限制[3]。物理传感器容易受到环境噪声、信号漂移、机械故障甚至恶意攻击的影响，从而导致感知数据缺失或失真[4],[5],[6]。
虚拟传感器作为解决方案的出现，利用多源异构数据（如温度、压力、惯性导航）来重建对自动系统状态变量至关重要的信息，补充了物理传感器的感知和控制任务[7,8]。文献中的深度学习技术通过其强大的表示能力增强了虚拟感知的可能性[9]，但其固有的“黑箱”特性引发了对智能设备安全性的信任问题。在本研究中，虚拟传感器的可靠性从三个维度进行定义：（1）点估计的预测准确性；（2）与特定领域物理定律的物理一致性；（3）具有统计保证覆盖范围的不确定性可靠性。
然而，在安全关键的工业实践中实现可靠部署仍面临三个根本性障碍：
1) 现有的基于物理信息的机器学习方法（如物理增强型图神经网络（PINNs）、物理增强型GNNs[10,11]虽然提高了物理一致性，但没有为不确定性量化提供任何有限样本覆盖保证，这在安全关键应用中留下了重大缺口。
2) 标准的共形预测方法在工业时间序列环境中面临挑战，因为非平稳运行条件违反了可交换性假设，使得在实践中难以实现严格的不确定性保证[12,13]。
3) 常见指标如R2和RMSE仅衡量准确性，无法检测物理一致性的结构故障或不确定性可靠性[14]。到目前为止，尚未开发出能够满足虚拟感知特定需求的综合评估指标。
为了解决这些挑战，本文提出了一种新的智能设备可靠感知范式。我们通过开发具有共形预测功能的物理残差变压器框架，实现了从“估计”到“保证”的转变。其基本理念是利用物理定律约束感知的合理性，同时通过统计数学确保感知的安全性。具体来说，我们设计了一种物理残差变压器，将明确的物理归纳偏差注入深度网络，以确保符合物理定律。同时，我们结合了共形预测技术，利用物理残差的稳定性构建具有有限样本覆盖保证的安全区间。本研究的概念框架如图1所示。

下载：下载高分辨率图像（447KB）
下载：下载全尺寸图像
图1. 虚拟感知范式的演变：从黑箱重建到可靠的物理残差感知

本研究的主要贡献总结如下：
1) 设计了物理残差变压器架构：我们提出了一种新的架构，将可学习的物理线性路径与具有传感器丢弃功能的深度残差路径相结合。通过有效融合物理归纳偏差和深度特征，该模型在严重传感器漂移或数据失真条件下显著提高了鲁棒性和预测可靠性。
2) 建立了无分布的可靠校准机制：利用物理残差设计中固有的“方差压缩”和“稳定性”特性，我们成功地将共形预测适应于动态工业过程。与传统概率方法不同，该机制提供了数学上严格的有限样本覆盖保证，同时生成了信息丰富且紧凑的安全区间。
3) 开发了综合可靠性指数（CTI）：为了克服单一维度的局限性，我们引入了CTI，这是一个综合考虑准确性、物理一致性和不确定性质量的全面评估框架。该指数为识别模型中的结构漏洞提供了透明的基准，确保它们真正适合安全关键的工业应用。
4) 多场景实证验证：提出的PRT-CP框架在两个异构案例研究中得到了验证：液化石油气（LPG）载体的动态时间序列监测和联合循环发电厂（CCPP）的静态能效映射。实验结果一致表明，PRT-CP在所有可靠性维度上均优于现有的贝叶斯和数据驱动基线。

本文的其余部分安排如下：第2节回顾了虚拟感知和可靠AI的相关文献。第3节提供了问题的正式表述，确立了研究的理论边界。第4节详细介绍了PRT-CP方法论，包括物理残差变压器和共形预测的集成。第5节和第6节分别介绍了LPG载体级别监测和CCPP的案例研究结果，从准确性、物理一致性和不确定性质量等多个角度严格比较了我们的方法与其他基线方法。第7节深入讨论了研究结果及其对工业应用的影响，第8节提出了结论性和未来研究方向。

2. 相关工作
从基本统计方法到复杂深度学习范式的虚拟传感器发展，反映了智能设备对高精度监测需求的增加。然而，向安全关键工业应用的过渡暴露了当前方法在物理对齐和统计可靠性方面的显著局限性。

2.1. 用于虚拟感知的深度学习
数据驱动的方法，特别是循环神经网络（RNNs）、长短期记忆（LSTM）和Transformer，已成为虚拟感知的事实标准，因为它们能够捕捉时间依赖性[9],[15],[16],[17]。
除了纯粹的预测之外，这些架构还越来越多地集成到容错框架中，以确保操作的连续性。Kong等人[18]开发了一种图引导网络，该网络采用自适应评估和改进策略，利用图神经网络和消息传递来减轻瞬时噪声和连续漂移对故障容忍软传感器建模的影响。类似地，Foshati和Ejlali提出利用数字孪生技术创建“网络冗余”，用虚拟副本替换昂贵的物理冗余组件，以在安全关键的网络物理系统中实现成本效益高的容错[5]。此外，Wang等人[7]开发了一种混合冗余传感器容错策略，用于疏浚感知系统，结合了多传感器关联和时间序列预测模型。这种混合方法利用投票-冷存储策略管理异常数据，显著提高了工业感知系统在复杂传感器故障情况下的准确性和稳定性。
然而，这些黑箱模型缺乏物理一致性。在LPG监测等安全关键场景中，违反热力学定律的模型（例如，在温度升高时预测体积收缩）会带来不可接受的风险。

2.2. 基于物理信息的机器学习（PIML）
为了减轻黑箱限制，研究人员将领域知识集成到DL模型中。物理信息神经网络（PINNs）[19],[20]是一个突出的例子，它将物理方程嵌入到损失函数中。
最近的研究采用了图神经网络（GNNs）来明确表示各种传感器之间的复杂交互[10,21,22]。例如，物理增强型GNN通过从底层物理过程特征中添加额外节点来增强输入图，显著提高了在噪声严重的工业环境中的性能。高级架构如DYNAMI-CAL GRAPHNET[11]强制交互节点的线性和角动量守恒，确保系统动态的物理一致性预测，同时保持旋转对称性和平移不变性。
在时间序列应用中，开发了基于物理信息的LSTM网络。这些模型利用深度隐藏物理模型从历史数据中推断出物理关系，然后将其集成到LSTM训练过程中[23]。PIML还扩展到了故障诊断领域，例如在抽油杆泵送系统中使用的物理引导软感知框架。这种方法在线估计关键机械参数，如指示图，实现了高效且可解释的诊断，而无需依赖难以测量的硬件[21]。
尽管这些PIML方法有效提高了物理一致性，但它们通常缺乏在高风险工业应用中提供安全保证所需的严格不确定性量化[24]。

2.3. 安全关键系统中的不确定性量化
可靠的虚拟感知不仅需要准确的点预测，还需要对相关不确定性进行严格量化，以防止在决策中盲目自信[12]。正式的概率方法，如在PRISM工具中实现的概率模型检查[25]，已被广泛用于通过穷尽验证马尔可夫链模型来量化安全关键系统中的故障概率和安全完整性水平。然而，这些方法是为设计阶段的离散状态系统设计的，不直接适用于实时运行的数据驱动虚拟传感器的连续值输出。贝叶斯神经网络（BNNs）[26]和蒙特卡洛（MC）Dropout[13]被广泛用于估计认知不确定性。然而，这些方法严重依赖于特定的先验分布（例如高斯假设），并且在面对LPG或CCPP环境中的非平稳噪声时经常出现校准误差。尽管分位数回归[27]和高斯负对数似然（NLL）[12]提供了灵活的区间估计，但它们缺乏关于覆盖率的正式统计保证。对于感知错误成本极高的自主系统来说，这一差距尤其危险。
共形预测（CP）[28,29]作为一种无分布框架，最近受到了关注，它将范式从启发式不确定性估计转变为严格的统计保证。CP的核心优势在于它能够提供有限样本覆盖保证，确保真实值以用户指定的概率落在预测区间内，无论底层数据分布如何。CP研究中的一个重要挑战是生成区间的效率。最近的研究表明，通过先进的架构可以显著提高CP的效率[30,31]。
本研究通过利用物理残差变压器为CP层提供“预稳定”信号，从而实现了更窄且信息更丰富的安全区间。

2.4. 可靠AI的多维度评估
传统的性能指标，如R2和RMSE，越来越被认为不足以评估AI模型在安全关键领域的“工业准备情况”。高精度的点预测往往掩盖了结构故障，如物理一致性差或不确定性量化不可靠[14]。
基于可靠AI的分类法，应通过包含准确性、稳定性、可解释性和不确定性校准的多维度视角来评估模型的可靠性[32,33]。在工业感知中，这要求模型不仅提供精确的估计，还要遵守物理边界并提供统计上严格的安全裕度。基于Transformer的架构的最新进展强调了“可靠知识追踪”或状态估计的重要性。Lu等人的研究[34]强调，对于序列依赖的任务，模型必须保持与特定领域逻辑一致的内部状态转换，我们将这一原则扩展到了虚拟传感器的物理一致性。
尽管像Informer或Auto-former这样的模型在时间序列预测中表现出高性能，但由于它们经常产生盲目自信的预测，因此存在信任差距[35]。没有标准化的校准机制，即使是最先进的架构也可能在高风险环境中导致冒险的决策。
为了弥合这一差距，我们引入了CTI；该指标将准确性、物理一致性和UQ质量整合到一个统一的基准中。通过量化区间清晰度和覆盖安全之间的权衡，CTI允许对模型进行透明比较，有效惩罚那些以牺牲可靠性为代价追求准确性的架构。

3. 问题表述
3.1. 虚拟感知的表述
考虑一个配备传感器网络的工业监测系统。让 D={(xt,yt)}t=1T 表示收集到的数据集，其中 T 是连续时间样本的数量。对于每个时间步长 t，让 xt∈Rdin 表示可观测辅助变量的向量（例如，压力、多点温度），yt∈R 表示难以测量或容易受到传感器故障影响的目标变量。为了捕捉时间依赖性，我们定义输入特征矩阵 Xt∈RL×din 为一个长度为 L 的滑动窗口：(1)Xt=[xt?L+1,…,xt]。

3.1.1 点预测
数据驱动的虚拟传感器旨在学习一个映射函数 fθ:RL×din→R，该函数由 θ 参数化，以近似目标值：(2)y^t=fθ(Xt) 通过最小化一个监督损失函数 L 来优化参数 θ，通常是最小二乘误差（MSE）。为了强制物理一致性，我们的损失函数明确地监督物理基线成分和最终预测：(3)L(θ)=1N∑i=1N∥yi?(y^phy,i+y^data,i)∥2

3.1.2 不确定性量化
在安全关键的场景中，点估计是不够的。我们寻求构建一个不确定性集（预测区间）Cα(Xt)?R，使得真实值 yt 以至少 1?α 的概率落在这个集合内，其中 α∈(0,1) 是用户指定的非覆盖率：(4)P(yt∈Cα(Xt))≥1?α 特别是，这个覆盖保证必须在有限样本情况下成立，并且不需要对数据生成过程有强的分布假设（即，无分布假设）。

3.2 评估指标
为了全面评估所提出方法的性能，我们使用了一组分为三组的指标：确定性准确性（DA）、不确定性量化质量（UQQ）和一个新提出的 CTI。

3.2.1 点预测的 DA 指标
1) 决定系数（R2）：R2 表示从自变量可预测的因变量方差的比例。它指示了拟合的优度。(5)R2=1?∑i=1N(yi?y^i)2∑i=1N(yi?yˉ)
2) 均方根误差（RMSE）：RMSE 衡量预测值和实际观测值之间平均平方差的平方根。它对异常值敏感。(6)RMSE=1N∑i=1N(yi?y^i)2
3) 均绝对误差（MAE）：MAE 衡量一组预测中的误差的平均幅度，而不考虑它们的方向。(7)MAE=1N∑i=1N|yi?y^i|
4) 加权平均绝对百分比误差（WMAPE）：与标准 MAPE 不同，当 yi=0 时 WMAPE 是未定义的，WMAPE 根据目标变量的总幅度来加权误差，使其更加稳健。(8)WMAPE=∑i=1N|yi?y^i|∑i=1N|yi|×100%

3.2.2 预测区间的 UQQ 指标
5) 预测区间覆盖概率（PICP）[36]：PICP 衡量不确定性估计的可靠性。它表示落在预测区间内的真实值的百分比。一个可信的模型应该满足 PICP≥1?α。(9)PICP=1N∑i=1NI(yi∈[L^i,U^i])其中 I(·) 是指示函数，如果条件为真则等于 1，否则等于 0。
6) 均预测区间宽度（MPIW）[37]：MPIW 衡量区间的锐度（或效率）。在满足 PICP 的前提下，较小的 MPIW 表示更精确和信息丰富的模型。(10)MPIW=1N∑i=1N(U^i?L^i)
7) 基于覆盖宽度的标准（CWC）[38]：CWC 是一个平衡覆盖和宽度的综合指标。如果覆盖概率（PICP）未能达到目标水平 μ=1?α，则对区间宽度进行指数惩罚。(11)CWC=MPIW×(1+γ·exp(?η·(PICP?μ))·I(PICP<μ))其中 γ 和 η 是控制惩罚幅度的超参数（通常 γ=1，η=10）。较低的 cwc 表示在可靠性和锐度之间有更好的权衡。 8) 区间得分（is）[39]：一个适当的评分规则，联合评估锐度和可靠性。对于一个显著性水平 α：(12)si=>Ui)较低的 IS 值表示校准更好、更锐利的区间。

3.2.3 综合可信度指数
我们提出了一个新颖的指标 CTI，以全面评估工业 AI 模型在三个维度上的可信度：准确性、物理一致性和 UQ 可靠性。(13)CTI=(ω1·Sacc+ω2·Sphy+ω3·Suq)×100%其中 ω1,ω2,ω3 是权重（在本研究中设置为 0.4,0.3,0.3）。各组成部分定义如下：
(a) 准确性得分（Sacc）：基于标准化均方根误差（NRMSE）的标准化准确性，将性能映射到 [0,1]。(14)Sacc=(1?1N∑(y^i?yi)2ymax?ymin)×100%
(b) 物理一致性得分（Sphy）：评估模型是否捕捉到了物理规律所决定的潜在单调关系。我们计算目标 y 和关键物理驱动因素 Z 之间的斯皮尔曼等级相关系数（ρ），并将其与预测 y^ 所捕捉的相关性进行比较。(15)Sphy=(1?|ρ(y,Z)?ρ(y^,Z)|)×100%
(c) UQ 质量得分（Suq）：平衡覆盖和宽度。它奖励满足目标覆盖（1?α）同时相对于数据范围（R=ymax?ymin）最小化宽度的模型。(16)Suq={exp(?CWCR)}×100%

4. 方法论
提出了物理-残差变压器与共形预测（PRT-CP）框架，以应对安全关键工业过程中可信虚拟感测的挑战。如图 2 所示，该框架遵循“预测与校准分离”的范式。

4.1 物理诱导特征空间转换
从工业过程中收集的原始传感器数据通常表现出高非线性并且缺乏直接的物理可解释性。为了减少假设空间的复杂性并注入物理归纳偏差，我们定义了一个物理转换算子 Q:Rdin→Rdphy，如方程 (17) 所示。(17)Xphy,t=Q(Xraw,t) 基于理想气体定律（PV=nRT）或静力学等第一性原理，我们构建了一组物理代理变量。这些代理变量被设计为与目标变量 y 保持强线性或单调相关性。通过将输入空间分解为物理子空间 Xphy,t 和原始感测子空间 Xraw,t，我们有效地将复杂的非线性回归问题转换为简化的残差学习任务。

4.2 物理-残差变压器架构
为了协调严格的物理合规性与数据驱动模型的灵活适应能力之间的权衡，我们构建了一个结构化的残差框架。全局假设 h(x) 被构建为基于物理的基线和深度残差校正的显式加法融合：(18)y^=y^base+y^res

4.2.1 自适应物理基线
物理基线分支部署了一个轻量级的线性模块来近似系统的主要物理趋势：(19)y^base=Wphy·ξphy+bphy这里，Wphy 和 bphy 表示可学习的参数。与刚性的经验公式不同，这个模块使得物理参数的数据驱动校准成为可能，从而建立了适应现实世界操作条件的稳健预测基线。

4.2.2 基于变压器的残差学习
由变压器编码器支持的残差分支构成了架构的骨干，专为捕捉长期时间依赖性而设计。这个选择解决了传统 RNN 或 LSTM 网络中普遍存在的梯度消失问题。(1)嵌入和时间编码：首先，线性投影将原始序列映射到维度为 dmodel 的潜在空间。鉴于自注意力机制的排列不变性，我们整合了正弦位置编码（PE）[40] 以保留序列信息：(20)PE(pos,2i)=sin(pos/100002i/dmodel)(21)PE(pos,2i+1)=cos(pos/100002i/dmodel)
(2)多头自注意力（MHSA）：MHSA 机制使模型能够选择性地关注与当前状态相关的历史物理事件。对于第 i 个头，我们计算查询（Q）、键（K）和值（V）矩阵。注意力操作被形式化为：(22)Attention(Q,K,V)=softmax(QKTdk)V直观地说，学习到的注意力权重量化了特定历史时刻对当前残差的贡献，从而提高了模型的可解释性。
(3)前馈动态：每个注意力层之后是一个前馈网络（FFN），包括两个由 ReLU 激活的线性变换。我们结合了层归一化（LayerNorm）和残差连接以促进稳定收敛。

4.2.3 随机传感器丢弃策略
为了减轻深度网络对原始传感器数据中高频噪声或虚假相关性的过度拟合倾向，我们引入了一种随机传感器丢弃策略。设 M 是一个掩码矩阵，其元素来自伯努利分布 mi,j～Bernoulli(1?p)。在训练阶段，残差分支的输入被随机屏蔽：(23)X?raw=M⊙Xraw这种机制迫使模型在深度特征被抑制时恢复到物理分支 Fphy，显著提高了对潜在传感器故障的鲁棒性。

4.2.4 物理引导的优化
优化目标是最小化融合输出的经验风险。给定物理基线，优化器有效地搜索最优的残差校正：(24)L=∑t=1T||yt?(y^base,t+y^res,t)||2这种公式嵌入了一个结构化的归纳偏差：y^base 考虑了低频物理趋势，而 y^res 捕捉了高频非线性残差。

4.3 通过分割共形预测进行信任校准
4.3.1 稳定性恢复
标准 CP 的有效性取决于可交换性假设。在工业时间序列背景下，这一前提经常因操作条件的变化而受到分布偏移的破坏。提出的物理-残差分解函数作为一个稳定化操作符。通过明确过滤掉由可观测物理状态控制的非稳定趋势 y^base，剩余的残差误差 ε=|y?y^base?y^res| 主要由随机测量噪声主导。理论上，这个残差序列的统计特性近似于随时间独立同分布的过程，从而解决了动态工业环境与 CP 的可交换性要求之间的冲突。

4.3.2 不一致性评分和分位数估计
首先，数据集被分为训练集 Dtrain 和校准集 Dcal（与验证集相同）。在随后的校准阶段，我们将绝对残差指定为评分指标：(25)si=|yi?y^(xi)|=|yi?y^base?y^res|,?(xi,yi)∈Dcal为了在有限样本条件下保证有效的覆盖，我们根据方程 (26) 计算这些分数的校正经验分位数 q^：(26)q^α=inf{q:∑i=1n1{|yi?y^(xi)|≤q}n≥[(n+1)(1?α)]n}其中 q^α 是校准集 Dcal 中非一致性分数 {s1,…,sn} 的 (1?α)?th 经验分位数。为了确保严格的有限样本覆盖保证，我们定义 q^α 为 {si} 中的第 k 小值，其中 k=min(n,[(n+1)(1?α)]。这种公式考虑了有限样本的离散性质，并确保预测区间 Cα(xtest) 保持指定的 1?α 置信水平。

4.3.3 区间构建和理论保证
对于一个未见的测试样本 xtest，可信的预测区间被推导为：(27)Cα(xtest)=[y^(xtest)?q^,y^(xtest)+q^]假设校准和测试数据是可交换的，构建的区间严格满足：(28)P(ytest∈Cα(xtest))≥1?α

5. 案例研究 I：LPG 运输船液位监测
5.1 系统和数据集描述
液化石油气（LPG）运输船是专门设计用于在严格控制的压力和温度条件下运输大量丙烷和丁烷的船舶。精确的实时监测货舱液位对于确保操作安全、法规合规性和经济效率至关重要。本研究中使用的数据集来自“Yue Hua Er Hao” LPG 运输船的运营监控和数据采集（SCADA）系统。数据收集涵盖了多个完整的操作周期（即装载、海上运输和卸载）。它们的具体安装位置和相应的测量数据如图 3 所示。

5.1.1 液位动态
通过雷达仪表获得的原始液位测量数据表现出明显的双峰分布，表明了船舶的操作节奏。如图 3 所详细说明的，数据主要分为两个阶段：低液位模式（20–100 mm）对应于压载或初始装载状态，以及主导的高液位模式（3000–8000 mm）代表标准的装载运输阶段。一个过渡区（100–3000 mm）只占数据集的一小部分，捕捉了装载和卸载操作期间的快速动态变化。重要的是，记录的最大液位 8,130 mm 占据了总罐高的 83.8%（9,700 mm）。这一操作上限严格遵守安全规定，通常将填充比率限制在 85% 以减轻潜在的热膨胀风险。

5.1.2 温度曲线
关于热动态，顶部、中间和底部传感器的统计描述符揭示了从可视化中得出的显著物理特性。观察到持续的垂直热分层，其中顶部温度始终高于底部温度。数据范围广泛（4–30°C），反映了季节性环境变化和不同货物批次的具体热特性。此外，垂直方差分布与热力学预期一致：浸没在大量液体中的底部区域表现出最高的稳定性（标准差：3.92°C），而直接暴露在环境热交换中的顶部气液界面表现出最大的波动性（标准差：6.52°C）。

5.1.3 压力特性
最后，压力测量反映了封闭船舶系统的综合热力学状态。内部压力在 0.7 MPa 和 7.1 MPa 之间波动，平均值为 2.53 MPa。重要的是，压力动态表现出明显的双重依赖性：在装载阶段，不同的压力峰值与上升的液位同步相关，这是由于蒸汽空间的压缩；而在稳定运输阶段，连续的波动主要由环境温度变化调节。为了降低假设空间的复杂性并引入归纳偏见，我们基于第一性原理从原始测量空间Xraw构建了三个核心物理特征Xphy。5.2.1. 气态因子

液化石油气（LPG）罐可以建模为一个等容封闭系统。其总体积Vtotal包括液相体积Vliq和气相体积Vgas。液位h与液体体积成正比：
(30) H ∝ Vliq = Vtotal ? Vgas

根据理想气体定律：
(31) PV = nRT
气相体积与温度成正比，与压力成反比。为了准确描述气相的膨胀/收缩趋势，我们首先将工业表压（Pgauge）校正为绝对压力（Patm），并将温度转换为开尔文温标（TK）：
(32) Pabs = Pgauge + Patm
(33) TK = TC + 273.15

基于此，我们定义了无量纲气态因子ξgas：
(34) ξgas = Ttop,K / Pabs ∝ Vgas
该因子作为气相比体积的直接代理变量。它将复杂的相变热力学简化为线性关系：ξgas的增加表示气相膨胀，这会压缩液相空间，导致液位下降（负相关）。

5.2.2. 垂直分层指数

LPG是一种对温度非常敏感的流体，其密度ρ随温度升高而降低。在大规模储罐中，太阳辐射或环境因素导致的不均匀加热常常会引起显著的热分层，即顶层较热（密度较低），底层较冷（密度较高）。我们定义垂直分层指数ξstrat为顶层和底层之间的温差：
(35) ξstrat = Ttop ? Tbot
该指数量化了系统内的热不平衡程度。较大的ξstrat表明分层状态稳定，蒸发主要发生在表面。相反，ξstrat ≈ 0表示罐内混合强烈或晃动。这一特征有助于模型区分“静态蒸发”和“动态混合”情况。

5.2.3. 非线性温度梯度比率

简单的垂直温差仅描述了线性分布，无法捕捉温度剖面的非线性形状。在气液界面附近，温度梯度通常是非线性的。为了描述罐中间部分的热量积累，我们构建了温度梯度比率：
(36) ξgrad = (Ttop ? Tmid) / (Ttop ? Tbottom)
这是一个无量纲的结构特征，描述了温度剖面的曲率。如果ξgrad > 0.5，温差集中在顶部（表明气相空间快速加热）；如果ξgrad < 0.5，温差集中在底部（表明底部加热或整体液体升温）。这一特征为残差网络提供了关于气液界面热力学的详细信息，有助于纠正由不均匀加热引起的密度估计误差。

5.3. 实验

5.3.1. 数据准备

实验数据集整合了多源异构传感器数据与工程化的物理特征。它包括来自压力传感器、三层温度阵列和雷达液位计的原始读数，以及三个定义的物理描述符。数据按时间顺序分为训练集（70%）、验证集（15%）和测试集（15%）。所有特征通过最小-最大归一化映射到[0,1]区间，以消除维度异质性。最后，构建长度为L=30的滑动窗口以捕捉动态热滞后效应。

5.3.2. 网络架构和训练策略

PRT-CP框架基于双流残差架构，包括一个用于基本趋势锚定的线性物理基线分支和一个基于Transformer的残差分支，用于复杂时间误差补偿。该架构的一个关键特征是随机传感器丢弃策略，通过在潜在数据丢失时强制依赖物理约束来提高模型鲁棒性。

对于实验评估，所有模型都在PyTorch 2.1.0中实现，并在配备NVIDIA GeForce RTX 4060 GPU的工作站上执行。为了确保严格控制比较，我们使用提出的PRT作为所有不确定性量化（UQ）基线的共同框架。训练使用Adam优化器、ReduceLROnPlateau调度器和早期停止机制进行，以确保稳定收敛。训练后，15%的验证集被重新用作校准集，以得出95%的符合预测区间。有关所有评估模型的具体超参数和层配置的详细信息，请参阅附录A。

5.4. 结果与分析

5.4.1. 点预测性能

为了严格评估所提出框架的有效性，我们与三种主流时空预测架构（Transformer、LSTM、GRU）及其相应的物理增强变体进行了比较分析。定量性能指标详见表1。

表1. 不同模型之间的预测性能指标定量比较。

方法 R2 RMSE (mm) MAE (mm) WMAPE (%) MPIW PICP (%)
Transformer-CP 0.998 95 5.45 38.39 2.32 175.70 87.19
Phys-LSTM-CP 0.990 81 163.79 119.03 7.20 450.40 80.38
LSTM-CP 0.977 25 66.69 227.98 13.79 572.26 74.85
Phys-GRU-CP 0.998 76.74 66.72 4.04 122.35 32.43
GRU-CP 0.997 86.24 75.67 4.58 175.52 39.99
PRT-CP（提出的）0.999 150.71 36.47 2.21 245.39 97.71

表1表明，基于Transformer的模型（标准Transformer和PRT-CP）在所有误差指标上均优于基于RNN的变体（LSTM和GRU）。具体来说，PRT-CP模型的RMSE为50.71 mm，比基线Phys-LSTM（163.79 mm）降低了69.0%。这验证了自注意力机制在捕捉传感器数据中的长距离依赖性和全局时间相关性方面比循环机制更有效。物理约束的整合带来了持续的性能提升。将物理变体与其纯数据驱动的对应物（例如Phys-LSTM vs. LSTM）进行比较，我们观察到预测误差显著降低。例如，将物理特征注入LSTM架构后，R2从0.9774提高到了0.9908。这证实了物理分支提供的归纳偏见有效地引导了优化过程，防止模型收敛到物理上不一致的解决方案。

提出的PRT-CP框架在所有点预测指标上均表现出最佳性能。更重要的是，在不确定性量化方面，PRT-CP是唯一一个成功满足安全要求的模型（目标覆盖率≥95%），实现了97.71%的PICP。相比之下，尽管基线Transformer的点精度很高，但它存在过度自信的问题（PICP = 87.19%），未能捕捉到风险的真实分布。

为了可视化预测值与真实值之间的一致性，我们在图4中展示了所有六个比较模型的散点图。

图4. 预测值与真实值的散点图比较。提出的PRT-CP实现了最高的对齐度（R2 = 0.999），消除了基于LSTM的模型中观察到的方差尾部。

结果表明不同架构之间存在明显的离散模式。如LSTM和Phys-LSTM的子图所示，散点明显偏离理想对角线，特别是在较低值范围内。这种“尾部效应”表明循环网络难以捕捉初始加载阶段的快速变化。相比之下，Transformer和提出的PRT-CP显示出紧密聚集的分布。点在对角线上密集集中。关键的是，将Phys-LSTM与标准LSTM进行比较，物理增强模型的散点在误差范围内受到显著限制。这从视觉上证实了物理分支起到了规范作用，抑制了较大偏差，迫使模型遵循物理定律，即使数据信号存在噪声。

尽管点精度很重要，但预测区间的可靠性对于安全关键的LPG监控也同样重要。图5可视化了叠加了95%符合预测区间的时间序列预测。

图5. 时间序列预测与95%符合预测区间的比较。只有提出的PRT-CP实现了有效的覆盖，而基线模型则表现出显著的过度自信，未能捕捉到过程的真实波动性。这种可视化显示，标准Transformer模型产生的预测区间非常狭窄。然而，其PICP仅为87.2%，意味着真实值经常超出安全范围。这表明模型“过度自信”，低估了风险，这对于工业安全系统来说是不可接受的。Phys-GRU和GRU模型在不确定性量化方面表现糟糕，PICP分别低至32.4%和40.0%。它们的区间太窄，无法覆盖信号的动态波动。提出的PRT-CP模型生成的校准区间成功包含了97.7%的真实数据点。与基线模型不同，它在快速加载阶段（t=0至50时间步）适应性扩展了区间，以应对更高的不确定性，确保安全约束得到动态满足。

为了全面评估可靠性、精度和信息量之间的权衡，图6展示了气泡图分析。这里，X轴代表RMSE，Y轴代表PICP，气泡大小代表MPIW。

图6. 多目标性能比较（RMSE vs. PICP vs. MPIW）。红色虚线表示目标95%的覆盖水平。PRT-CP是唯一一个在满足安全要求的同时保持高预测精度和信息量区间的架构。红色虚线标记了强制性的95%置信阈值。如图所示，PRT-CP是唯一位于此安全线以上的模型。尽管LSTM模型接近安全线，但它们的RMSE很高，产生的区间过宽，导致预测模糊且不够实用。Transformer实现了低RMSE和狭窄的区间，但其低于可靠性阈值。提出的PRT-CP框架位于左上角的“帕累托最优”区域，同时实现了最低的误差、有效的安全覆盖和合理的区间宽度。这证实了PRT-CP不是通过简单地输出无限宽的区间来实现安全性的，而是通过精确的、基于物理的不确定性校准来实现的。

5.4.2. 不确定性量化与校准

为了全面评估生成的置信区间的质量，我们将提出的PRT-CP框架与四种主流UQ范式进行了基准测试：贝叶斯近似（MC Dropout）、集成学习（深度集成）、非参数方法（分位数回归）和参数方法（高斯NLL）。以提出的PRT作为所有方法的共同点预测框架，测试集上的详细性能指标列在表2中。

表2. 与主流基线的不确定性量化性能定量比较。

方法 R2 RMSE MAE PICP (%) MPIW (mm) CWC ISTime (s)
MC Dropout 0.999 054.11 39.10 98.65 454.19 454.19 484.30 134.61
深度集成 0.998 61.00 48.73 79.10 118.31 336 88.89 515.11 393.61
分位数回归 0.999 63 25.63 100.00 367.62 367.62 129.14
高斯NLL 0.999 53.66 32.04 100.00 625.34 625.34 93.18
PRT-CP（提出的）0.999 247.32 35.43 99.53 273.18 281.92 135.59

如表2所示，除了深度集成外，所有方法都成功满足了目标置信水平。深度集成表现出显著的覆盖不足（PICP = 79.10%），未能捕捉到随机过程的真实分布。这表明仅仅平均多样化的模型不足以解释动态LPG水平的随机不确定性。PRT-CP实现了99.53%的稳健覆盖，严格遵循安全协议。

高斯NLL和MC Dropout产生的区间过于保守（MPIW分别为625.34 mm和454.19 mm）。这表明假设固定的高斯先验或依赖丢弃随机性倾向于高估不确定性范围。分位数回归表现良好，但仍产生较宽的区间（367.62 mm）。PRT-CP通过利用符合预测校准，根据样本的难度动态调整区间宽度，而不是假设最坏情况。这与第二好的方法相比，区间宽度减少了25.7%，为操作员提供了最精确的指导。

深度集成由于覆盖违规而付出了巨大代价（CWC > 3×10^5）。PRT-CP实现了最低的CWC（273.18），与其MPIW数值相同。这种等同性意味着我们的方法在安全（覆盖）和精度（宽度）之间实现了数学上的最佳平衡。在推理时间方面，深度集成计算成本过高（393.61秒）。高斯NLL最快（93.18秒），但精度不足。PRT-CP保持了具有竞争力的推理速度（135.59秒），适合实时监控约束。

为了更直观地比较不同UQ方法之间的权衡，图7可视化了四个关键维度上的性能：区间锐度（MPIW）、点精度（RMSE）、综合质量（区间得分）和计算效率（时间）。每个子图中的红色虚线表示提出的PRT-CP框架的性能基准。

图7. 多维性能比较。红色虚线基准测试了提出的PRT-CP。可视化显示PRT-CP实现了最佳平衡：它在有效方法中提供了最尖锐的区间，并保持了可接受的计算效率。显然，深度集成产生了最狭窄的预测区间；然而，与表2的交叉参考显示其存在严重的覆盖不足。这使得其预测“虚假精确”，本质上不适用于工业应用。相比之下，高斯NLL和MC Dropout在满足安全约束的同时，其区间过于保守和过宽，削弱了监控系统的信息价值。提出的PRT-CP方法在所有有效方法中脱颖而出，实现了最低的MPIW（平均预测区间宽度），与分位数回归和高斯NLL相比，区间宽度分别减少了25.7%和56.3%。这一实证证据表明，共形预测有效地“修剪”了由刚性参数假设引起的冗余安全边际。因此，PRT-CP获得了最优的区间得分，超越了所有基线方法。值得注意的是，尽管分位数回归在点精度上略胜一筹，但其较宽的区间在综合得分中导致了更大的损失，这证实了PRT-CP提供了对真实不确定性范围最严谨的数学表示。在计算可行性方面，深度集成的高延迟阻碍了其在边缘设备的应用，而PRT-CP的推理速度与MC Dropout相当。尽管PRT-CP的计算速度略慢于高斯NLL，但在安全性和精度方面的显著优势严格证明了这种计算开销是合理的，使其非常适合标准SCADA系统的采样频率。

5.4.3 综合可信度指数
为了严格评估所提出框架的工业可行性，我们采用了综合可信度指数（Composite Trustworthiness Index），该指数将准确性（Sacc）、物理一致性（Sphy）和不确定性量化质量（Suq）整合为一个统一的指标。表3展示了基于CTI的所有比较方法的全面排名，验证了所提出的PRT-CP框架的“整体优越性”。

表3. 所有比较方法的CTI
方法 Sacc Sphy Suq CTI (%)
PRT-CP（提出的方法） 98.7 99.7 49.4 97.07
Transformer-CP 98.6 99.5 88.3 95.81
PRT-MC Dropout 97.9 95.0 90.1 94.76
PRT-Deep Ensembles 98.4 95.5 82.9 92.92
Phys-LSTM-CP 96.1 95.9 76.1 90.09
PRT-Gaussian NLL 97.7 90.6 71.7 88.88
LSTM-CP 94.0 96.7 68.8 87.82
GRU-CP 97.9 97.6 43.0 87.30
Phys-GRU-CP 98.1 98.4 36.3 81.39
PRT-Quantile Reg. 98.4 93.9 71.0 79.69

如表3所示，PRT-CP以97.07%的CTI位居榜首，展现了其整体优越性。分析显示，Suq是决定性因素：虽然Phys-GRU-CP在准确性和物理一致性方面表现优异，但由于生成了过宽的区间而其UQ质量下降到了36.33%，暴露了其实际应用的局限性。相比之下，PRT-CP在UQ质量上取得了94.11%的优异成绩，成功地在严格的安全覆盖和信息丰富性之间取得了平衡。尽管Transformer-CP在物理一致性上略有优势，但其较宽的区间在综合得分中造成了更大的损失。尽管PRT-CP的计算速度略慢于简单的高斯NLL，但在安全性和精度方面的巨大优势完全证明了这种计算开销的合理性，使其非常适合标准SCADA系统的采样频率。

6. 案例研究II：联合循环发电厂（CCPP）
6.1 数据集和任务描述
为了评估所提出框架的跨领域通用性，进行了第二个全面的案例研究，重点关注联合循环发电厂（CCPP）的电力输出预测[41]。典型的CCPP布局如图9所示。

我们使用了一个公开可用的基准数据集，其中包含了2006年至2011年六年期间收集的9,568个每小时测量数据。该数据集捕捉了双循环发电系统中复杂的热力学依赖关系，这些系统结合了布雷顿循环（燃气轮机）和朗肯循环（蒸汽轮机）。输入特征和目标变量的详细信息在表4中总结。

表4. CCPP数据详情
| 空单元 | 数据标签 | 范围 |
|-------|----------------|-------------------|
| 环境温度（AT,°C） | [1.81, 37.11] |
| 排气真空（EV, cm Hg） | [25.36, 81.56] |
| 环境压力（AP, mbar） | [992.89, 1033.30] |
| 相对湿度（RH, %） | [25.56, 100.16] |
| 目标变量 | 网络每小时电能输出（MW） | [420.26, 495.76] |

6.2 基于物理的特征工程
在热力学第一原理的指导下，我们设计了五个基于物理的特征，以捕捉环境条件与电力输出之间的基本非线性关系。

6.2.1 理论基础
CCPP系统的净输出受燃气轮机和蒸汽轮机耦合的控制。根据热力学定律，系统输出不是输入的简单线性组合，而是由以下机制决定的：
1) 卡诺效率：热效率理论上受到热源与环境温度差的限制。较低的环境温度会增加这一温差，从而提高潜在效率，如方程（37）所示。
(37) η_Carnot = 1 - T_cold / T_hot
2) 气动与质量流量：空气密度决定了燃气轮机的进气质量流量，从而确定了机械工作的上限，如方程（38）所示。
(38) ρ_air ∝ P_AT
3) 相变热力学：冷凝器真空度直接影响蒸汽轮机的焓降。这一过程受到环境湿球温度和湿度的非线性约束。

6.2.2 设计的特征
基于这些基础，构建了以下五个特征：
1) 热效率因子：根据卡诺定理（方程37），在热源温度Thot几乎恒定的假设下，朗肯循环的热效率与冷侧温度成反比。将环境温度表示为开尔文，我们定义热效率因子为：
(39) ξ_th = 1 / (AT + 273.15)
较低的环境温度会增加朗肯循环中的温差，从而根据卡诺定理提高理论热效率。
2) 空气密度因子：
(40) ξ_air = AP / (AT + 273.15) ∝ ρ_air
其中ξ_air表示空气密度因子。较高的空气密度由于环境压力增加或环境温度降低而增加，从而直接增加了通过燃气轮机的质量流量，进而提高了功率输出。
3) 特定湿度近似：
(41) ξ_hum = RH × exp(17.27 × (AT - AT + 237.3)
其中ξ_hum表示特定湿度近似。绝对湿度影响燃烧效率和冷却塔性能。指数项提供了克劳修斯-克拉珀龙关系的近似。
4) 真空效率因子：
(42) ξ_vac = V_AT / (273.15)
其中ξ_vac表示真空效率因子。冷凝器真空度V是温度依赖的。该因子将真空度相对于环境温度进行标准化，以捕捉其对系统效率的真实热力学影响。
5) 热力学指数（主要特征）：
(43) ξ_index = (AP / (AT + 273.15)) / (BraytonMassFlow × (1 - RH / 100)) × (CombustionCorrection × V / (RankineVacuum)
其中ξ_index表示热力学指数。这个综合指数整合了三个主要的效率驱动因素。压力温度比反映了布雷顿循环效率对空气质量流的影响。湿度项考虑了燃烧和冷却相关的性能下降。真空项代表了朗肯循环的效率贡献。

6.3 实验
6.3.1 数据准备
为了捕捉环境变量与发电效率之间的复杂非线性映射，每个观测值被视为一个多维特征向量。对于每个数据点，模型输入定义为X∈R_d，代表四个核心环境传感器的同时读数。此外，还加入了基于物理的特征表示X_phys，以编码热力学约束。这种公式使模型能够捕捉CCPP在不同运行条件下的特征间依赖性和稳态特性，有效解决了燃气轮机和蒸汽轮机循环之间的耦合效应。

6.3.2 网络架构和训练配置
对于CCPP案例，输入维度扩展到九个，包括四个原始操作变量和五个基于物理的特征。为了捕捉潜在的热力学关系，物理基线分支使用了具有32个隐藏单元的双层多层感知（MLP）作为输入，输入为热力学指数ξ_index。残差分支针对静态能量映射使用了简化的Transformer编码器（64维，4个头，2层），随后是一个32单元的MLP残差头。最终预测是通过两种流的加性融合得出的。

值得注意的是，计算平台、优化协议和共形预测设置严格遵循第5.3.2节（案例1）中描述的内容，以确保PRT-CP框架的跨领域可比性和通用性。所有比较模型的具体超参数详细信息在附录A中提供。

6.4 结果与分析
6.4.1 点预测性能
所有评估方法在CCPP测试集上的比较性能总结在表5中。所提出的PRT-CP框架在所有确定性指标上均表现出优越的精度，证实了基于物理的残差架构在电厂监控中的有效性。

表5. CCPP预测性能比较
方法 R2 RMSE(MW) MAE(MW) WMAPE(%) MPIW PICP(%)
Transformer-CP 0.93 94.2 83.2 40.7 16.7 495.5
Phys-LSTM-CP 0.93 94.2 83.2 20.7 16.3 995.8
LSTM-CP 0.93 94.2 33.3 50.7 16.0 195.1
Phys-GRU-CP 0.93 94.2 93.5 00.7 16.5 295.1
GRU-CP 0.93 94.4 33.3 33.3 00.7 16.8 95.6
PRT-CP（提出的方法） 0.93 95.4 83.1 20.6 16.3 395.1

从表5的结果来看，PRT-CP获得了最高的R2值0.9395和最低的RMSE值4.138 MW。与标准Transformer基线相比，所提出的模型将RMS降低了2.8%。这种改进归因于专门的物理约束层，它建立了一个稳健的热力学基线，使后续的Transformer层能够专注于学习复杂的残差波动。集成基于物理的特征提供了比原始传感器数据更强的归纳偏差。与Phys-LSTM或Phys-GRU模型不同，PRT-CP利用了物理流和数据驱动流之间的残差连接，确保热力学的基本定律直接指导输出，同时保持高度灵活性。

在可靠性方面，PRT-CP模型的PICP达到了95.11%，与规定的目标置信水平95%非常接近。重要的是，这是通过相对狭窄的MPIW（16.303）实现的，实现了安全覆盖和区间清晰度之间的最佳平衡。

为了进一步评估PRT-CP框架在CCPP数据集上的性能，我们提供了多维可视化分析，重点关注预测对齐（图10）、区间可靠性（图11）和多目标效率（图12）。

图10. 预测准确性和误差分布分析。
图11. 多目标性能权衡（RMSE vs. PICP vs. MPIW）。
图12. 所提出的PRT-CP与各种不确定性量化基线的比较（a）MPIW，（b）RMSE，（c）区间得分（IS）和（d）推理时间。红色虚线表示PRT-CP的性能水平，突出了其在区间清晰度、预测准确性和计算效率之间的卓越平衡。

如图10所示，所有模型都表现出强烈的线性相关性，大多数点落在±3%的误差范围内。然而，所提出的PRT-CP在理想的y=x线上表现出最紧密的集中。值得注意的是，在高负载区域（>480MW），基线RNN模型（LSTM/GRU）显示出更大的分散。相比之下，PRT-CP保持了高精度，表明物理约束层即使在峰值运行条件下也能有效稳定预测。

框架的整体效率在图11的气泡图中进行了总结，其中X轴表示RMSE，Y轴表示PICP，气泡大小代表MPIW。PRT-CP明显位于有效覆盖区域的左下角，实现了最低的RMSE（4.138 MW）和有效的PICP（95.11%），这与Phys-LSTM等基线相比更接近95%的目标线。尽管LSTM变体的气泡略小，但其点精度较低。PRT-CP展示了最佳的平衡，证明了结合基于物理的特征工程和残差Transformer学习显著提高了电力输出的精度和可信度。

6.4.2 不确定性量化和校准
与案例1中的实验设计一致，我们对比了几种主流的不确定性量化方法，每种方法都使用所提出的PRT作为标准化的点预测框架，以确保可控的比较。比较结果总结在表6中。

表6. 不确定性量化方法的比较分析
方法 R2 RMSE MAE PICP(%) MPIW(MW) CWCI Time(s)
MC Dropout 0.94 164.0 3.0 94.6 22.3 137.3 26.7 59.1
Deep Ensembles 0.94 174.0 3.1 92.8 18.6 275.9 18.6 24.6
Quantile Regression 0.94 084.0 3.0 95.0 15.6 78.1 19.8
Gaussian NLL 0.94 044.0 3.1 94.8 15.6 86.6 20.9
PRT-CP（提出的方法） 0.94 114.0 3.1 95.4 15.6 63.3 20.7 45.1

首先，在校准和覆盖范围方面，PRT-CP框架实现了95.47%的PICP，相对于95%的目标置信水平提供了最可靠的覆盖。相比之下，Deep Ensembles的PICP仅为92.85%，尽管其点精度很高，但未能满足安全要求。这突显了共形预测机制的优势，它提供了无分布的覆盖保证，这是纯概率方法通常缺乏的。此外，PRT-CP产生了最窄的预测区间，MPIW为15.60 MW，IS为20.79。尽管分位数回归和高斯NLL提供了相似的区间宽度，但PRT-CP的CWC显著较低，为633.14。同时，PRT-CP框架的一个关键优势是其计算速度。PRT-CP在45.18秒内完成了评估，优于所有其他概率方法。值得注意的是，其速度比Deep Ensembles快12倍以上，且比需要多次随机前向传播的MC Dropout效率更高。最终，研究结果表明，Physics-Informed Residual Transformer架构在保持点预测性能的同时，还优化了不确定性校准。通过将基于物理的基线与数据驱动的残差部分解耦，PRT-CP最小化了CP层必须处理的误差方差，从而直接导致了研究中观察到的更优的CWC和IS值。为了进一步说明PRT-CP框架的优势，图12提供了四个关键性能维度的比较可视化。首先，在区间质量和预测精度方面，图12直观地证实了PRT-CP框架的优越“清晰度”和信息量。如红色虚线所示，PRT-CP实现了最窄的MPIW和极具竞争力的IS，显著优于MC Dropout和Deep Ensembles等概率基线方法。在保持这种优越区间紧密度的同时，该框架的点精度没有下降，其RMSE与最先进的不确定性量化（UQ）方法保持一致。这一双重优势表明，Physics-Informed Residual架构有效地最小化了认知不确定性，使得共形层能够在不牺牲统计覆盖范围的情况下构建更严格的安全界限。同时，图13中强调的计算效率和整体稳定性凸显了该模型适用于实时工业部署的能力。右下角面板显示了推理时间的显著差异，PRT-CP的速度比Deep Ensembles快12倍以上，且明显优于其他基于采样或优化密集型的方法。

下载：下载高分辨率图片（274KB）
下载：下载全尺寸图片

图13. 基于综合可信度指数（Composite Trustworthiness Index）的模型比较排名。条形图展示了CTI在三个维度上的分解：准确性（Accuracy）、物理一致性（Physical Consistency）和不确定性量化质量（UQ Quality）。红色标记和虚线趋势线代表最终CTI得分，突出了所提出的PRT-CP与基线方法在不确定性质量方面的平衡性能。

6.4.3 综合可信度指数（Composite Trustworthiness Index）
根据LPG案例研究中建立的分析框架，本节使用CTI评估了模型的整体工业适用性，详细信息见表7和图13。

表7. 基于综合可信度指数的CCPP模型排名

方法（Methods）
Sacc(%) Sphy(%) Suq(%) CTI (%)
PRT-CP（提出的方法） 94.59 69 99.44
57 9.100 91.401
Transformer-CP 94.36 09 99.30
57 7.472 90.777
LSTM-CP 94.36 69 99.39
57 6.311 90.458
GRU-CP 94.30 09 99.39
57 6.257 90.416
PRT-Quantile Regression 94.58 29 99.471
75.707 90.386
Phys-LSTM-CP 94.38 69 99.515
75.891 90.376
Phys-GRU-CP 94.31 69 99.515
75.643 90.274
PRT-Gaussian NLL 94.58 29 99.495
74.134 89.921
PRT-MC Dropout 94.60 99.376
4.491 87.002
PRT-Deep Ensembles 94.62 29 99.42
20.003 73.676

根据表7，综合结果显示所提出的PRT-CP框架具有卓越的整体性能。首先，PRT-CP的CTI得分高达91.40%，在所有三个维度上都表现出平衡的优越性，成功保持了高分而没有结构性弱点。尽管其他方法如PRT-Deep Ensembles在原始准确性上略高，但在其他关键信任指标上却有显著下降，因为仅点预测精度不足以衡量工业可信度。此外，不确定性量化质量得分是模型之间最显著的差异因素，这与之前的案例研究结果一致。一个关键观察是PRT-Deep Ensembles在Suq维度上的灾难性表现，得分仅为20.00%。这一低分表明，尽管模型具有较高的准确性，但其生成的区间要么信息量不足，要么在安全关键的发电厂操作中统计上不可靠。相比之下，PRT-CP在Suq维度上取得了79.10%的优异成绩，验证了将共形预测与基于物理的残差架构相结合能够实现区间清晰度和安全覆盖范围之间的最佳平衡。同时，图13中强调的计算效率和整体稳定性表明该模型适合实时工业部署。

图13还展示了推理时间的显著差异，PRT-CP的速度比Deep Ensembles快12倍以上，且明显优于其他基于采样或优化密集型的方法。

下载：下载高分辨率图片（274KB）
下载：下载全尺寸图片

图13. 基于综合可信度指数的模型比较排名。条形图说明了CTI在三个维度上的分解：准确性、物理一致性和不确定性量化质量。红色标记和虚线趋势线代表最终CTI得分，突出了所提出的PRT-CP与基线方法在不确定性质量方面的平衡性能。

6.4.3 综合可信度指数（Composite Trustworthiness Index）
根据LPG案例研究中建立的分析框架，本节使用CTI评估了模型的整体工业适用性，详细信息见表7和图13。

表7. 基于综合可信度指数的CCPP模型排名

方法（Methods）
Sacc(%) Sphy(%) Suq(%) CTI (%)
PRT-CP（提出的方法） 94.59 69 99.44
57 9.100 91.401
Transformer-CP 94.36 09 99.30
57 7.472 90.777
LSTM-CP 94.36 69 99.39
57 6.311 90.458
GRU-CP 94.30 09 99.39
57 6.257 90.416
PRT-Quantile Regression 94.58 29 99.471
75.707 90.386
Phys-LSTM-CP 94.38 69 99.515
75.891 90.376
Phys-GRU-CP 94.31 69 99.515
75.643 90.274
PRT-Gaussian NLL 94.58 29 99.495
74.134 89.921
PRT-MC Dropout 94.60 99.376
4.491 87.002
PRT-Deep Ensembles 94.62 29 99.42
20.003 73.676

根据表7，综合结果显示所提出的PRT-CP框架具有卓越的整体性能。首先，PRT-CP的CTI得分为91.40%，在所有三个维度上都表现出平衡的优越性，成功保持了高分而没有结构性弱点。虽然其他方法如PRT-Deep Ensembles在原始准确性上略高，但在其他关键信任指标上却有显著下降，因为仅点预测精度不足以衡量工业可信度。此外，不确定性量化质量得分是模型之间最显著的差异因素，这与之前的案例研究结果一致。一个关键观察是PRT-Deep Ensembles在Suq维度上的灾难性表现，得分仅为20.00%。这一低分表明，尽管模型具有较高的准确性，但其生成的区间要么信息量不足，要么在安全关键的发电厂操作中统计上不可靠。相比之下，PRT-CP在Suq维度上取得了79.10%的优异成绩，验证了将共形预测与基于物理的残差架构相结合能够实现区间清晰度和安全覆盖范围之间的最佳平衡。同时，所有变体的物理一致性得分都非常高，始终超过99%。这表明对于CCPP数据集，第6.2节中设计的基本热力学关系被深度学习架构有效捕捉。例如Phys-LSTM-CP和Phys-GRU-CP在物理一致性方面得分最高，达到99.52%，但由于不确定性量化性能较低，整体CTI得分较低。最后，PRT-CP的全面稳健性验证了其作为先进工业监控解决方案的通用性。它是唯一一个在准确性和物理一致性方面得分均超过94%，同时确保最高不确定性量化质量的架构。通过超越PRT-MC Dropout（CTI = 87.00%）和PRT-Gaussian NLL（CTI = 89.92%）等专门基线，PRT-CP框架证明了基于物理的基线与共形残差的协同作用对于实现现代CCPP所需的可信虚拟感知至关重要。

根据表7的定量排名，图13提供了CTI各组成部分的可视化分解，展示了所有评估模型的性能驱动因素。从图13可以看出，所提出的框架实现了最高的CTI得分91.4019%。它是唯一一个在准确性、物理一致性和不确定性量化质量三个维度上都保持平衡优越性的架构。图13中的“满条”轮廓证实了所提出框架相对于具有结构性弱点的基线的稳健性。此外，虽然PRT-Deep Ensembles在点精度上最高，但其Suq得分降至20.00%，使其在安全关键操作中不可靠。这突显了生成可信区间的共形预测机制的必要性。由于热力学特征工程，所有模型的Sphy得分均超过99%；然而，像Phys-LSTM-CP这样优先考虑物理一致性而牺牲不确定性量化质量的模型，导致整体CTI得分较低，进一步验证了PRT-CP的集成方法。

7. 讨论（Discussion）
7.1 跨领域多功能性和通用性
PRT-CP在LPG监控和CCPP电力预测任务中的持续优越性凸显了其卓越的多功能性和通用性。该框架通过简单替换物理约束层输入来适应不同的工业领域，证明了其作为通用虚拟感知架构的潜力。通过在不同的物理定律和数据分布下保持平衡的优越性，PRT-CP确立了自己作为一个不针对特定数据集过度拟合的稳健解决方案。

7.2 综合可信度指数的意义
本研究的一个主要贡献是提出了CTI，它提供了比传统点预测指标更严格和全面的评估方法。CTI表明，仅高准确性（如Deep Ensembles所示）并不能保证工业可靠性。如果没有CTI，集合在不确定性质量上的灾难性失败将隐藏在误导性的高R2得分背后。CTI将性能分解为准确性、物理一致性和不确定性量化，揭示了每个模型的薄弱点。这种多维度视角使工程师能够在实际部署前识别并消除结构风险，例如缺乏物理遵循性或不可靠的安全界限。

7.3 基于物理的残差与共形校准的协同作用
PRT-CP的成功，如CTI所验证的，源于其独特的结构协同作用。基于物理的残差设计将模型锚定在基本的热力学或化学定律上，确保预测结果保持在合理的物理范围内。然后，CP层提供了数学上保证的95%覆盖范围，结合基于物理的残差的低方差，实现了最高的不确定性量化质量和最窄、最具信息量的区间。

8. 结论（Conclusion）
本研究解决了在工业应用中平衡预测准确性与物理一致性和可靠不确定性量化这一关键挑战。通过将热力学和化学先验知识与数据驱动的Transformer架构相结合，我们开发了PRT-CP框架。本研究的核心贡献总结如下：1）所提出的PRT-CP框架成功地将稳定的物理基线与复杂的数据驱动残差分离。这种协同作用使模型在保持高点预测准确性的同时，确保结果基于基本科学原理。2）我们引入了CTI作为一个多维度评估指标，整合了准确性、物理一致性和不确定性量化质量。该指数提供了比传统指标更严格的工业适用性评估，有效识别了原本会隐藏的结构漏洞。3）通过两个不同的案例研究，PRT-CP框架展示了卓越的通用性。与点基线方法相比，它始终提供了最高的CTI得分，并保持了数学上保证的95%安全覆盖范围，同时预测区间更加清晰。

总之，PRT-CP框架为高风险的工业监控提供了透明可靠的解决方案。通过将基于物理的约束与共形校准相结合，该框架为可信的人工智能及其在现代工业中的应用树立了新标准。

数据可用性声明
本研究生成或分析的数据可向相应作者提出合理请求后获取。此外，PRT-CP框架的源代码和实现细节可在以下GitHub仓库中公开获取：
https://github.com/WHUTBIN/Papers/tree/main/PRT-CP

CRediT作者贡献声明
Bin Wang：撰写——原始草稿、验证、软件、方法论、资金获取、正式分析、数据整理。
Enrico Zio：撰写——审稿与编辑、监督、资金获取。

热点排行