在部分智能电表普及的情况下，用于配电网络规划和运营支持的负载剖面分配 Jorge Lara、 Mauricio Samper 和 Delia Graciela Colomé

《Processes》：Load Profile Assignment for Planning and Operation Support in Distribution Networks Under Partial Smart Meter Penetration Jorge Lara, Mauricio Samper and Delia Graciela Colomé

【字体：大中小】 时间：2026年05月10日 来源：Processes 2.8

编辑推荐：

　　摘要随着对配电网络可观察性提升的需求不断增长，负载伪测量生成方法也随之发展，尤其是在部分智能电表（SM）普及的背景下。本文提出了一种负载伪测量框架，该框架利用聚类技术从每小时的电表时间序列中构建具有代表性的日负荷曲线（负载曲线），无论是否包含天气信息。然

　　摘要随着对配电网络可观察性提升的需求不断增长，负载伪测量生成方法也随之发展，尤其是在部分智能电表（SM）普及的背景下。本文提出了一种负载伪测量框架，该框架利用聚类技术从每小时的电表时间序列中构建具有代表性的日负荷曲线（负载曲线），无论是否包含天气信息。然后，通过马尔可夫链模型预测没有电表的顾客次日最可能的负荷曲线，以捕捉日间动态变化。为了实现这种转换，引入了一种基于月能耗的分层分组方案，将装有电表的顾客的行为映射到没有电表测量的顾客身上。该方法使用低碳伦敦项目（Low-Carbon London project）的真实居民数据进行了验证，涵盖了不同电表可用性水平的多种可观察性场景，其中电表测量数据从输入中被屏蔽，以模拟没有电表测量的顾客情况，并将生成的伪测量结果与原始测量数据进行对比。结果显示，欧几里得代表性曲线方法在减少75%电表的配置下获得了最稳健的整体性能，平均绝对误差（MAE）最小为1.65。最佳配置取决于可观察性水平：在中等到高可观察性条件下，减少电表是最佳选择；而在最低可观察性条件下，使用21天时间窗口的Temp_reduced方法表现最好。此外，在减少25%电表的场景中，欧几里得方法的实际偏差较低，偏差为0.63，Cohen’s d值为0.27。总体而言，所提出的方法能够准确再现小时负荷形状，并在部分可观察性条件下捕捉日间变化。

1. 引言
在活跃的配电网络中，配电系统状态估计（DSSE）对于确保高效可靠的运行至关重要，特别是在中压和低压（MV和LV）层级，这些层级的基础设施庞大且需求高度多样化。DSSE传统上依赖于电量的直接测量；然而，这些测量的数量和位置往往受到限制，尤其是在低压网络中。智能电表（SM）的部署使得能够收集更细粒度的数据，包括有功功率、无功功率、有效电压和电流、功率因数、谐波失真以及其他相关指标[1]。这些时间序列测量数据支持了多种应用，如需求响应、欺诈检测、故障定位和DSSE[1,2]。尽管如此，许多系统中的电表普及率仍然不完整，导致一些区域没有小时级测量数据，只有月度能耗记录，这削弱了网络的可观察性。为了缓解这一限制，通常引入负载伪测量来支持在没有直接信息的情况下进行状态估计。
大量研究已经探讨了配电网络中的负载伪测量生成[3,4,5]，通常利用电表数据作为DSSE算法的输入[6,7,8]。在[9]中提出了两种需求估计方法：一种基于近实时数据，另一种依赖于最近的历史消费数据。在中压层级，伪测量通常是通过将代表性负荷曲线与估计的消费量结合来构建的，以近似直接测量不可用的需求行为。沿着这些思路，参考文献[10]引入了一种基于聚类的方法来表征负荷和发电曲线，区分装有电表的顾客和没有装有电表的顾客。参考文献[11]提出了一种两阶段策略：首先通过基于频率的聚类算法识别负荷模式，然后估计没有电表的顾客的日消费量。在[12]中，采用机器学习方法利用谱聚类从月度数据中推断典型曲线和先前的分类。其他贡献[13,14,15]也依赖于基于聚类的典型曲线来生成伪测量，随后将其分配给只有月度记录的顾客。在此背景下，参考文献[16]提出了一种基于隐马尔可夫模型（HMMs）的混合方法，通过混淆矩阵训练，以通过监督学习改进曲线分配。
为了更好地将所提出的方法与以往的研究进行定位，表1总结了文献中报道的代表性方法，突出了它们的主要优点和局限性，以及本文所解决的研究空白。表1. 在部分智能电表普及情况下的现有负荷曲线建模、分配和伪测量生成方法的比较。如表1所示，以往的研究在负荷曲线表征、基于聚类的分配和伪测量生成方面做出了重要贡献。然而，许多这些方法都集中在静态的代表性曲线上，或者没有明确将日间顾客行为的演变纳入部分智能电表普及的配电网络框架中。这一空白促使本文提出了所提出的方法。
与先前的提议不同，本文假设顾客一个月内的行为可以通过一组动态的日典型曲线来表示，因为日间模式可能会随着外部因素（如天气条件和月度有功能耗历史）的变化而演变[22]。在第一阶段，使用装有电表的顾客子集来分析电力消费与气候变量之间的关系，并对日负荷曲线应用k-means聚类，旨在识别代表性模式，并通过结合多种验证指标确定最佳划分。一旦定义了聚类，就使用不同的代表性标准（包括点平均值（中心点）、基于欧几里得距离的选择和DBA（动态时间弯曲重心平均）的变体）构建代表性的日典型曲线，从而产生稳健的负荷曲线。在第二阶段，利用从装有电表的顾客那里学到的典型曲线作为基础，为没有电表的顾客分配日负荷曲线并生成他们的小时伪测量，遵循后续描述的分配程序。
所提出的方法使用低碳伦敦项目的真实居民数据进行了验证，在多种可观察性场景下进行了为期一年的日评估。考虑了在典型曲线构建、天气信息包含和历史时间窗口选择方面的方法变体。通过定量误差指标和时间序列相似性指标比较了不同的选项，目的是选择在部分可观察性条件下生成代表性伪测量的最稳健选项。
尽管所提出的方法建立在已建立的技术基础上，但本文的创新之处在于将其整合到一个统一的框架中，用于部分智能电表普及情况下的日负荷曲线分配和伪测量生成。特别是，所提出的方法旨在通过动态的日负荷曲线来表示顾客需求的时变特性，同时保持其在部分观测配电网络中的实际应用性。这种集成视角将本研究与主要将曲线表征、静态分配和伪测量生成视为单独任务的前期工作区分开来。
为了清晰起见，本文的主要目标和贡献总结如下。具体来说，本文旨在开发和评估一个实用的框架，用于部分智能电表普及情况下的配电系统中日负荷曲线分配和伪测量生成。本文的主要贡献如下：
- 开发了一个数据驱动的框架，用于在部分可观察性条件下分配日居民负荷曲线和生成伪测量。
- 使用基于聚类的方法和自动多标准选择簇的数量，从装有智能电表的顾客那里构建代表性的日典型曲线。
- 引入了一个可选的基于天气的分割阶段，以在智能电表可用性有限的情况下改善日需求行为的表征。
- 开发了一种基于马尔可夫链的更新机制，以表示分配的日负荷曲线的日间演变并提高时间一致性。
- 使用真实居民智能电表数据在多种可观察性场景和历史时间窗口配置下进行了系统的验证。

本文的其余部分组织如下。第2节介绍了理论背景，包括伪测量、天气变量与电力消费之间的关系、聚类方法、负载伪测量和马尔可夫链。第3节详细介绍了所提出的方法。第4节描述了案例研究并讨论了结果。最后，第5节总结了全文。

2. 理论背景
本节介绍了所提出方法中使用的主要理论基础，包括伪测量、天气变量与电力消费之间的关系、聚类方法和马尔可夫链。这些概念并不是作为独立的贡献提出的；它们是为第3节开发的集成框架提供基础的。

2.1. 负载伪测量
在配电网络中，由于智能电表的普及率有限以及测量基础设施的稀缺，特别是低压（LV）电网中的情况，完全的可观察性经常受到阻碍。这种可观察性的缺乏限制了监测、分析和运营应用的有效部署。为了解决这一差距，引入了伪测量，这些伪测量被理解为在无法直接测量的节点估计的有功和无功功率等电量。形式上，伪测量可以表示为（1），其中表示节点在时间t处的电量估计值（例如，有功功率），当t处没有直接测量时。
伪测量的目的是在没有真实数据的情况下以足够的准确性估计系统变量，同时在关键应用中保持模型的一致性。这些估计是高级配电管理功能（如DSSE[5,14]、功率流分析、技术损耗评估和需求管理）的关键实现手段。其构建的基本原则是能量平衡：在理想条件下，中压/低压变压器处的有功或无功功率应与连接的低压顾客的总消费量加上技术损耗相匹配。这种关系可以表示为（2）（3），其中和分别是变压器处的总有功和无功功率；和是低压网络中顾客的有功和无功功率；表示低压技术损耗。
实际上，低压网络中的技术损耗通常报告为供应能量的3-7%，具体取决于馈线长度、导体尺寸、负载水平和网络拓扑。在调整伪测量时应考虑这一因素，以确保估计的总消费量加上损耗与变压器级别的功率一致。
关于其构建方法，文献主要遵循两种主要方法：简单的统计模型和典型曲线分配。一种基本方法使用按客户类别的历史平均消费量；例如，居民顾客的伪测量可以表示为（4），其中是给定客户类型（居民、商业、工业等）的小时平均负荷曲线。然而，这些方法无法捕捉个体差异，这限制了准确性。作为替代方案，可以应用k-means或DBSCAN等聚类技术到电表时间序列中，以得出更代表日行为的典型曲线。在这些情况下，每个顾客的日功率直接从其电表记录中获得，无需估计。因此，伪测量仅应用于没有电表的顾客，而装有电表的顾客则保留其测量的曲线。
本研究的方法基于从实际测量中识别日有功功率模式，以估计没有直接计量的顾客的消费量。研究重点是有功功率，因为它在规划、运营和需求管理中起着核心作用，同时也是配电网络中的主要变量。

2.2. 天气变量与电力消费之间的相关性
为了评估天气条件对电力消费的影响，进行了气候变量（例如温度、湿度等）与记录的消费数据之间的相关性分析。这需要将从气象站或外部服务获得的气象信息与计量系统提供的消费测量数据结合。
皮尔逊相关系数[23]被用作变量之间线性关联的探索性指标：接近±1的值分别表示强正相关或强负相关，而接近0的值表明线性关系较弱。为了捕捉非线性关系，还使用了斯皮尔曼系数[23]，因为它基于排名来评估关联。此外，由于电力需求可能对气象变量表现出非线性响应（例如阈值效应、饱和或交互作用），因此还拟合了非线性回归模型来量化每个气候变量对消费的贡献。在所提出的方法中，这些工具表征了对天气变化的消费敏感性，并支持其在后续建模和估计阶段中的结合。

2.3. 时间序列聚类
负荷曲线聚类是配电网络管理的关键工具，因为它能够识别低压客户的代表性消费模式。先前的工作已经讨论了使用电表数据和专门的测量活动来构建典型负荷曲线的方法。参考文献[24]提供了对电气负荷曲线聚类方法的全面回顾，涵盖了相似性度量、算法家族和簇验证标准。在[14]中，使用高分辨率电表时间序列研究了数据挖掘技术，评估了它们揭示消费曲线的能力。参考文献[15]比较了多种聚类算法在真实世界数据集上的表现，并考虑了降维和特征提取技术。基于这些工作，聚类工作流程可以总结为以下核心步骤：特征选择、标准化、算法选择、簇验证以及构建代表性曲线，如图1所示。图1展示了使用聚类方法获取典型负荷曲线的步骤。在预处理阶段，时间序列被标准化和缩放，同时处理缺失数据并检测/移除异常值。接下来，在特征提取过程中，识别季节性和日变化模式，以及与需求峰值、负荷变化率和日内变化相关的指标。此步骤可以通过分解或投影技术来补充，例如主成分分析（PCA）、离散傅里叶变换（DFT）和小波变换等，以便在低维空间中表示负荷曲线。随后，选择适当的相似性度量标准来量化负荷曲线之间的距离。常见的选择包括欧几里得距离、动态时间 Warping（DTW）和基于相关性的距离。选择合适的度量标准对于正确捕捉负荷曲线的潜在结构至关重要。

关于聚类算法，常用的方法包括k-means、层次聚类和基于密度的方法（如DBSCAN）。需要强调的是，算法的选择取决于数据的特性和分析的目标。然后使用内部验证指标（如Silhouette分数或Davies–Bouldin指数）来评估簇的质量；如果有真实标签数据，还可以进行外部验证。这一步骤有助于确保得到的簇是连贯且可解释的。最后，分析识别出的簇以得出关于电力消耗模式的有意义结论。然而，在本工作中，重点是将聚类用于构建低压（LV）负荷曲线，以生成伪测量数据，用于分布式系统能量估计（DSSE）的背景。

2.4 马尔可夫链
在本工作中，使用马尔可夫链来模拟和预测基于第2.3节获得的日负荷曲线聚类的电力消耗变化。每个曲线类别（簇）代表一种典型的需求模式，这些模式的时间序列通过一阶马尔可夫链来描述，这是一种广泛采用的方法，用于使用离散状态和概率转移来表示负荷曲线的生成和演变[25]。根据马尔可夫性质，未来状态的概率仅依赖于当前状态，而不依赖于完整的历史记录。用\(S_p\)表示与第\(p\)天相关的状态，其中每个状态对应于从日负荷曲线中识别出的一个簇。在一阶马尔可夫性质下，状态动态由转移矩阵\(P\)表征，其元素定义为\[P\]（见[26]）。实际中，\(P\)是通过计算从状态\(i\)转移到状态\(j\)的转移次数并执行行归一化（相对频率估计）来估计的\[P\]（见[7]）。一旦获得了转移矩阵\(P\)，就可以计算未来簇出现的概率。用\(p_i\)表示第\(p\)天的状态成员概率行向量。然后，可以使用最大概率标准来选择下一天最可能的簇；一旦确定了第\(p\)天的状态，就为其分配相应的典型日负荷曲线以构建相应的伪测量数据。与基于单一典型曲线的静态分配不同，这种方法捕捉了跨日的顺序依赖性，并表示了消耗的日内变化，当适用的天气影响通过聚类过程间接反映时。

伪测量数据是为没有智能电表（SM）的客户专门生成的，而拥有SM的客户被用作参考集，以学习日模式和转移行为。在模型构建之前，SM的客户小时序列会经过质量控制预处理，包括检测和处理缺失记录、无效值和异常值。这确保了分配给无计量客户的伪测量数据与有计量客户观察到的动态保持一致，并可作为部分可观测分布式系统（DSSE）和其他高级操作功能的输入。

3. 提出的方法论
为了提高这些估计的准确性，必须为每个没有SM的客户分配一个能充分代表其行为的典型负荷曲线。这种分配应基于网络内相似消耗模式的识别，从而更真实和详细地表示系统的运行状况。根据MV/LV变压器周围的测量基础设施，可以定义不同的可观测性场景（见图2）。这些场景将SM客户与那些没有连续计量的客户结合起来，后者只有月度或双月度的账单记录。这种分类支持设计适应性的伪测量生成策略，这些策略后来可以用作在部分可观测性下的状态估计方案的输入。

图2展示了根据客户级别的可用测量基础设施定义的不同可观测性场景。在每种场景中，提供时间分辨消耗数据的智能电表客户与非连续计量的客户共存，后者仅显示月度或双月度的账单信息。这些场景代表了不同的可观测性水平，并激发了使用适应性伪测量生成策略来估计在部分可观测性下非计量客户的需求。可观测场景对应于在MV/LV变压器处配备了SM和数据收集点（PDC）的低压网络，允许配电系统运营商（DSO）通过变距报告率的遥测进行监控。在这种情况下，由于PDC提供了聚合需求的直接观测，因此不需要生成伪测量数据。

在部分可观测的场景中，一些客户有SM，但在MV/LV变压器处没有PDC；而在不可观测的场景中，既没有SM也没有PDC。在这两种情况下，MV/LV层面都没有直接聚合测量；因此，需要伪测量数据来表示下游需求。在这项工作中，通过为没有SM的客户分配每日典型负荷曲线来构建伪测量数据，结合了从SM客户那里学习到的信息以及按月或双月度分辨率获得的气象记录。

在这种背景下，提出的MV/LV变电站伪测量生成框架结合了外生天气相关变量和通过聚类获得的典型负荷曲线。然后通过马尔可夫链对这些曲线的日变化进行建模，以便为每一天选择最可能的模式，从而将日内变化纳入典型曲线的分配中。整个工作流程如图3所示。图3展示了提出的伪测量生成方法的工作流程：(a) 从智能电表和天气数据中聚类和构建代表性的日典型曲线；(b) 基于账单信息的月度聚类；(c) 用于状态转移学习的马尔可夫链训练；(d) 为非智能电表客户分配日负荷曲线和生成每小时伪测量数据。SM的测量数据以及可用的PDC测量数据以15分钟或30分钟的分辨率记录下来。为了统一分析中使用的时间分辨率，在处理和聚类之前，这些序列被聚合到每小时间隔。同时，假设有无SM客户的月度能耗数据作为聚合的活跃能量记录。基于这些输入，该方法分为两个阶段。第一阶段通过对SM客户时间序列进行聚类来推导出每日典型负荷曲线；在某些变体中，会结合气象变量（如温度）来反映它们对消耗的影响（见图3b）。第二阶段解决了为没有SM的客户分配典型曲线的问题，这是在部分可观测或不可观测条件下表示总负荷所必需的。为此，根据每月消耗将有无SM的客户分组，确保每个组至少包含一个SM客户，作为构建和更新日模式的参考（见图3b）。然而，静态地为每个客户（或每个组）分配单一典型曲线并不能充分捕捉日内变化，因为日负荷曲线通常在不同的模式之间交替（例如，日类型效应）并表现出时间依赖性。因此，在SM客户观察到的日曲线序列上训练马尔可夫链模型，以学习模式之间的转移概率，并为每一天选择最可能的簇（见图3c）。结果，分配给没有SM客户的典型曲线是根据从有计量客户学到的转移动态更新的。根据这一预测，动态地为同一月度消耗组内的所有没有SM的客户选择并分配相应的典型曲线，而不是为整个月份固定单一曲线。这种方法捕捉了电力消耗的日变化，并改进了不同日子类型（例如，工作日与周末）之间的差异表示，以及与天气条件相关的变化。最后，构建MV/LV活跃负荷伪测量数据，并与变压器级别的测量数据进行比较，以评估估计的准确性，详见图3d。完整的过程在以下章节中详细描述。

3.1 典型负荷曲线的确定
这种场景依赖于一个综合数据集，它结合了SM测量数据与多天历史窗口内每小时同步的气象（天气）变量。首先进行相关性分析，以量化电力消耗和天气变量（例如温度、湿度和辐照度）对活跃功率的影响。然后通过基于天气的分割（第一层）组织数据，用于构建日负荷曲线集，并一致地定义训练集和测试集。在聚类之前，对消耗曲线进行标准化以消除尺度效应，并应用降维技术（PCA、MDS、t-SNE）来简化数据表示并突出相关模式[15]。然后在 reduced 空间中执行聚类算法，如k-means。使用包括失真、Silhouette、Davies–Bouldin和Calinski–Harabasz在内的标准验证指标来评估簇的质量，以选择适当的簇数量。一旦定义了簇，就使用不同的代表性标准（包括质心以及基于欧几里得距离和DBA的方法）提取代表每个组的典型曲线。最后，曲线被反标准化以恢复其原始幅度。图4总结了这一工作流程，捕捉了日负荷曲线的形态，并为没有SM的客户分配典型曲线和生成其伪测量数据提供了基础。

图4展示了日测量时间序列的聚类阶段。评估了四种构建日典型曲线的替代方案，结合了(i) 聚合级别（每个客户 vs. 全局）和(ii) 是否使用气候标签（从初始热分割定义的分类）。在所有情况下，目标是获得一组随后用于曲线分配和伪测量生成的典型曲线：
- **个体平均曲线（Reduced）**：使用每个客户的完整小时历史数据计算每日平均曲线。然后对这些每个客户的平均曲线进行聚类以识别代表性的个体模式。当没有连续的小时信息时，每个客户永久关联到一个簇。在评估的替代方案中，Reduced 最接近于传统的平均日负荷曲线基准，因为它是在聚类之前为每个客户计算的历史平均日曲线构建的。因此，尽管它不是严格意义上的简单平均曲线分配，但它代表了所提出框架内最可比较的静态基线。
- **日曲线的全局聚类（Normal）**：直接对所有客户的日曲线进行聚类，允许同一个客户在不同的天属于不同的簇。这种替代方案捕捉了日变化，并不假设每个客户都有固定的模式。
- **气候标签—Reduced**：在第一层定义一个气候标签（例如，热类别）。首先按气候类别对天数进行分组；然后，对于每个客户，在每个类别内计算平均曲线。最后，将这些客户-气候平均曲线聚类，以获得同时反映个人习惯和气候条件的典型模式。
- **气候标签—Normal**：这种替代方案也依赖于初始气候标签，但直接对每个气候类别内的所有日曲线进行聚类。得到的典型模式取决于气候条件，允许客户在不同天和不同类别间切换簇。

图5使用SM时间序列对比了这些替代方案。在替代方案1中，聚类输入包括每个客户的平均曲线，导致每个客户被固定在单个簇中。在替代方案2中，对所有每日曲线进行聚类，因此同一个客户可能会根据每日的变化出现在不同的簇中。在替代方案3中，首先进行初步的气候分段，然后为每个类别构建个体平均曲线，再将这些曲线聚类以结合消费习惯与气候背景。最后，替代方案4将初步的热量分段与日坐标的直接聚类结合起来，代表每个环境类别内的变化。图5. 构建和聚类典型负载轮廓策略的比较概览（替代方案1-4）。

3.2. 最优簇的数量
为了确定最优簇的数量，我们采用了一种基于三个内部聚类验证指标的组合评分方法：
- Silhouette得分，它同时反映了簇内的凝聚力和簇间的分离度；
- Davies–Bouldin指数，该指数惩罚簇之间的重叠，并偏好分离良好的配置（数值越低越好）；
- Calinski–Harabasz指数，它衡量簇间分散与簇内分散的比率（数值越高表示结构越明确）。
每个指标都使用最小-最大缩放进行标准化。此外，Davies–Bouldin指数被反转，以便所有标准化指标都遵循相同的方向性（即数值越高越好）。组合得分定义为标准化指标的算术平均值：
\[ \text{组合得分} = \frac{\sum_{i=1}^{n} (S_i - \bar{S})^2}{\sum_{i=1}^{n} S_i} \]
其中 \(S_i\) 和 \(\bar{S}\) 分别表示标准化的Silhouette、Calinski–Harabasz和Davies–Bouldin指数 [24]。
采用这种程序是为了避免仅基于单一有效性指标或主观视觉检查来选择K值。通过将互补的内部标准结合成一个综合得分，所提出的方法为确定最终划分提供了更加稳健和可复制的基础。权重策略在计算时故意是均匀的，对标准化的有效性指标赋予相同的权重。这一选择是为了实现自动和可重复地选择簇的数量，而不偏爱任何单一的聚类标准。因此，这一阶段的重点不是对不同的权重方案进行详尽的敏感性分析，而是定义一个实用且自动的规则，以便在整个评估期间和研究中考虑的不同可观测性场景中一致地选择K值。出于这个原因，对权重方案进行正式的敏感性分析超出了这一阶段的特定范围，该阶段的主要目的是确保在整个研究的时间范围内系统地自动选择K值。
此外，还评估了簇内的失真作为补充指标，计算方法为点与其分配的质心之间的平方距离之和。尽管失真没有直接包含在组合得分中，但其随K值的变化被用作视觉参考，以识别潜在的转折点，并支持最优簇数量的稳健选择。
在当前研究中没有对权重方案进行正式的敏感性分析。进行这样的分析将需要针对每种权重配置、历史窗口和智能电表可用性水平重复日度评估框架。尽管如此，所选聚类配置的适当性是通过其在年模拟范围内的下游性能间接评估的。
应当注意的是，聚类配置不仅仅通过内部划分质量标准来评估。一旦选择了最优的K值，它就被纳入完整的伪测量生成框架，并在一年时间范围内的多种历史窗口配置和可观测性水平下进行评估。因此，所选聚类结构的适当性也通过其对最终伪测量性能的下游影响间接得到了验证。

3.3. 将典型曲线分配给非智能电表客户
在验证了从智能电表客户获得的典型日负载曲线后，该方法扩展到了没有智能电表客户的情况，这对应于部分可观测的场景。在这种情况下，只有一部分客户提供每小时的数据测量，我们提出了一种结合两种主要信息来源的策略：（i）之前通过聚类日轮廓识别的典型曲线；（ii）商业（计费）系统记录的智能电表和非智能电表客户的累积月度消耗量。
与第3.1节和第3.2节不同，后者是基于日曲线计算的验证指数来选择最优簇的数量，这一阶段采用了一种由累积月度消耗量驱动的逆向方法。过程从相对较多的月度消费组开始，逐步减少组数，直到每个组至少包含一个智能电表客户，这是传递参考轮廓所必需的。月度分组是使用最近五个月的计费消费的滚动窗口来执行的，选择这个窗口是为了反映客户的近期行为，同时仍提供足够的数据来形成稳定的组。一旦组别确定，每个非智能电表客户就被分配了一个代表性的典型曲线，要么选择同一组中累积消耗量最接近的智能电表客户，要么使用属于该组的智能电表客户构建的平均曲线。这个过程每月更新一次，以纳入最近的消费变化并保持分配的一致性。

3.4. 下一天预测
然后引入了一个基于马尔可夫链的预测层，动态预测分配给非智能电表客户的典型日曲线。为此，使用每日聚类过程产生的日簇标签的时间序列来估计下一天的最可能的曲线模式。这些标签定义了系统状态，并作为训练随机模型的基础。例如，当采用层次聚类结构时，可以将消费模式和日温度标签的组合合并成一个复合状态，保留变量之间的相关性。这种方法捕捉了日轮廓之间的转换概率，并产生与电力消费时间动态一致的预测。
通过这种概率方案预测的典型曲线随后被分配给每个非智能电表客户在其对应的月度消费组中，从而能够构建其需求的小时估计。得到的伪测量结果可以在部分可观测的场景中与可用的智能电表实际测量结果汇总，或者在完全没有智能电表数据（不可观测场景）的情况下，相互汇总以估计MV/LV变压器的总负载。通过这种方式，所提出的方法代表了在部分或零可观测性条件下的总体需求。

3.5. 性能指标
为了评估测量序列与预测值之间的一致性，我们使用了一组指标来共同评估准确性、形状保真度和残差诊断。准确性使用平均绝对误差（MAE）和均方根误差（RMSE）来量化。较低的数值表示更好的拟合，而RMSE对较大误差的惩罚更为严厉。为了便于跨不同量级的比较，我们还报告了平均百分比误差（MAPE），定义为 \(\frac{MAE}{\text{平均预测值}}\)，其中\(\text{平均预测值}\)是一个小常数，以避免除以零的情况。形状保真度通过决定系数来总结，较高的数值表示解释了更多的方差。
除了总体准确性之外，我们还考虑了平均偏差误差（MBE），其理想值接近零（没有系统性的高估或低估）。还包括两个残差诊断指标：Durbin–Watson统计量（DW），当\(DWCloack\geq1\)时表明独立性；以及Jarque–Bera检验的p值（\(\chi^2_p\)），用于评估与正态性的兼容性。这些诊断指标有助于区分具有相似总体误差的方法，并突出可能影响估计结果下游使用的不良误差结构（例如，持续的偏差或自相关）。
此外，结果分析的第一阶段包括对测量序列和重建序列之间的直接统计比较。为此，我们报告了偏差、中位数误差、偏差的95%置信区间、MAE、RMSE、皮尔逊相关系数、Wilcoxon p值和Cohen的\(\phi\)值，以及相应的效应大小类别。这些指标提供了对系统偏差、准确性、关联性和实际意义的补充统计解释。还基于偏差、MAE、基于容忍度的准确性（|e| ≤ 1, |e| ≤ 2, |e| ≤ 5）和Cohen的\(\phi\)值进行了紧凑的总结，以比较选定的方法配置。
为了比较通过聚类得到的典型曲线方案，并识别出在部分或零可观测性条件下最准确、最具代表性的方案，我们采用了一种基于标准化指标特定成本的加权评分方案。在这个框架中，对于给定比较组（替代方案-窗口-方法）内的每个候选方案，复合得分定义为
\[ \text{复合得分} = \frac{\sum_{i=1}^{n} (W_i \cdot C_i)}{\sum_{i=1}^{n} W_i} \]
其中\(W_i\)表示分配给指标\(i\)的权重，\(C_i\)表示与候选方案\(i\)相关的指标\(i\)的标准化成本。因此，复合得分是标准化指标特定成本的加权平均值，较低的数值表示更好的整体性能。
误差指标（MAE、RMSE、MAPE）直接进行标准化（数值越低越好），而“效益”指标在标准化之前被反转（例如）。相比之下，以效益为导向的指标如\(B_i\)和\(B_{eff}\)在标准化之前被反向转换，以便所有组件都在“越低越好”的共同标准下贡献。对于诊断，平均偏差误差通过其绝对值\(|B_i|\)来纳入，而Durbin–Watson统计量则转换为\(\frac{1 - \text{DW}_i}{1 - \text{DW}_i}\)的形式，从而惩罚偏离理想残差独立性的情况。Jarque–Bera p值作为以效益为导向的指标，并在标准化之前进行方向性转换。标准化在每个比较组内进行，因此得分仅在同一组内的候选方案之间可比较。通过这种方式，残差诊断通过与\(W_i\)和\(B_i\)相关的转换项数学整合到复合得分中，而不仅仅作为定性的补充指标。因此，复合得分将残差统计行为纳入了总体性能评估中。然而，这些术语被用作综合评估标准的组成部分，不应被视为竞争方法之间正式的假设检验。
权重设置为\(MAE = 1.0, RMSE = 1.0, MAPE = 0.8, B_i = 0.7, B_{eff} = 0.5, C_i = 0.2, \chi^2_p = 0.1\)，从而在考虑准确性的同时也考虑了形状一致性和残差质量。这些值用作相对权重，并在汇总之前被标准化为一个总和。复合得分最小化（数值越低越好），我们还报告了平均排名（\(\text{mean_rank}()\)作为确认或平局时的稳健辅助标准。

4. 案例研究
为了评估所提出方法的适用性和性能，我们使用来自Low-Carbon London项目[27]的真实住宅智能电表数据进行了案例研究，该项目代表了低压需求条件。目的是评估所提出框架在部分可观测性下分配日负载轮廓和生成负载伪测量数据的能力。因此，本研究的观察对象是住宅客户的小时需求行为，既在个体层面也在聚合形式上进行分析。
这项研究不依赖于具有明确电气拓扑的完全建模的物理馈线。相反，它采用了基于客户级需求测量的数据驱动视角，旨在模拟LV配电系统中部分观测到的运行条件。因此，研究系统的规模是用数据集中包含的住宅客户数量来描述的，而不是详细网络模型中的总线数量、分支数量或变压器数量。
数据集包括智能电表的消费记录以及相关的气象变量，该方法在3.1节和3.2节定义的情景下应用。性能使用误差指标进行量化，这些指标将生成的伪测量结果与从选定的智能电表客户那里构建的聚合参考信号进行比较。这个聚合信号被用作下游需求聚合的功能代理，而不是作为MV/LV变压器或PDC级别的直接测量信号。本节描述了研究范围、数据的主要特征以及相应的结果。

4.1. 数据预处理
该研究使用了来自伦敦大区5567位住宅客户的真实电力消费数据，这些数据是在2011年11月至2014年2月期间由UK Power Networks领导的Low-Carbon London项目收集的。这些记录的时间分辨率为30分钟，包含了家庭能源消耗量（以千瓦时计）、日期和时间戳，以及时间同步的气象变量，这使得分析天气条件对电力需求的影响成为可能。该数据集在[27]中可以公开获取。为了确保分析的质量和一致性，首先将无效或非数字条目视为缺失值，并使用缺失值的百分比（pct-NaN）来评估数据完整性。鉴于客户数据可用性的高度不确定性，采用了pct-NaN ≤ 1%的选择标准。根据这一标准，筛选出了69个具有几乎完整时间序列的客户，用于方法学评估。尽管这个子集比原始数据集小得多，但它保留了构建代表性日常 profile 和以一致方式评估其序列更新所需的连续性。因此，在这里使用这个保留的子集作为在严格数据质量要求下的方法学验证的合适基础，而不是作为完全代表整个数据集的依据。

在过滤阶段之后，仅对保留的子集应用了有限的插补程序，以填补剩余的空缺并保持日常需求序列的连续性。这一决定是基于所提出的框架依赖于对日常负荷曲线的聚类，并通过马尔可夫链阶段对日间 profile 的演变进行建模，这两者都需要足够连续的时间信息。通过将插补步骤限制在缺失值非常少的客户上，可以降低在聚类结构和估计的转移行为中引入人为模式的风险。

在聚类阶段，保留的消费序列随后被表示为每小时分辨率。在简化聚类配置中，使用四分位数范围（IQR）标准处理异常值，将低于和高于该范围的值分别限制在相应的下限和上限。异常值处理后，为每个用户计算了代表性的每小时向量，并在必要时进行插值以保持结果 profile 的连续性。然后，在降维和聚类之前，应用了特征范围内的最小-最大缩放，以确保每小时属性之间的可比性，并防止高幅度变量主导基于距离的分析。

需要注意的是，本研究中使用的参考信号是从选定的智能电表客户汇总得出的，因此旨在作为下游需求聚合的功能性代理。虽然这在部分可观测性下提供了方法学验证的有意义基础，但它不能替代针对实际配电线路中测量的中压/低压变压器或PDC信号的直接验证。

尽管所保留的子集并不声称在普遍意义上完全代表所有居民群体，但它被认为在所提出框架的数据完整性要求下适合用于方法学验证。首先，它提供了足够的时间覆盖范围，以构建代表性的日常 profile 并一致地评估其序列更新。其次，它保留了住宅需求行为的相关变异性，这对于聚类和 profile 分配阶段是必要的。第三，该方法在多种可观测性和历史窗口配置下进行了测试，从而减少了结论对单一数据可用性条件的依赖。

以下小节将介绍第3节中描述的方法应用于该选定数据集的结果和分析。

4.2. 相关性分析
图6a和b分别报告了气象变量（能见度、风向、温度、露点、压力、干球温度、风速和湿度）与电力消耗（以千瓦时/家庭计）之间的皮尔逊相关系数和斯皮尔曼相关系数。观察到消耗量与温度相关变量（特别是空气温度、干球温度和露点）之间有明显的关联。然而，后两者在实践中可能更难以获得，因为它们可能需要标准气象站并不总是能提供特定测量数据。由于空气温度被广泛测量且容易获取，因此被选为所提方法后续阶段的最具代表性的气象变量。

4.3. 仿真场景
所提出的方法在多个场景下进行了评估，这些场景由（i）用于构建典型曲线的历史窗口和（ii）与SM渗透率相关的可观测性水平定义。具体来说，考虑了之前的7天、14天和21天的滚动窗口作为训练数据，以使用图5中的替代方法生成下一天的典型曲线。此外，还分析了部分可观测性场景，在这些场景中，10%、25%、50%和75%的客户被视为非SM客户（他们的小时序列从输入中移除并被伪测量值替换），而其余客户保持为SM用户。还计算了所有客户的月度聚合消耗量，以模拟商业（计费）记录的可用性。这种设置允许评估所提方法在有限信息下生成代表性伪测量值的能力，通过利用从计量客户那里学到的模式。分析包括：（1）根据月度消耗水平对客户进行分组，（2）使用马尔可夫链进行序列聚类预测，（3）为非SM客户分配典型曲线，（4）在中压/低压接口计算变压器级别的聚合负荷，以及（5）使用第3.5节中定义的指标评估生成的伪测量值的性能。

4.3.1. 聚类阶段和方法学替代方案
使用记录的SM客户的温度和有功功率时间序列，执行图4中总结的负荷曲线聚类阶段。作为构建典型曲线的先决条件，必须确定替代方案1-4的最佳簇数（见图5和第3节）。因此，将第3.2节中描述的内部验证程序应用于定义的研究场景。图7展示了一个替代方案1的例子，展示了随着簇数变化的考虑指标（轮廓系数、Davies–Bouldin指数、Calinski–Harabasz指数、扭曲度和综合得分）的演变。选定的簇数对应于综合得分的最大值，该综合得分是根据标准化的轮廓系数、Calinski–Harabasz指数和倒置的Davies–Bouldin指数使用相等权重计算得出的。扭曲度仅作为补充参考，以支持对潜在肘部行为的视觉检查。虚线垂直线表示使综合得分最大化的簇数，因此被选为最佳值。使用多个轴可以直观地查看每个指标对最终决策的相对贡献。此过程自动为每个场景执行，确保跨案例研究选择的一致性和可重复性。

一旦选定了簇数，就将k-means算法应用于标准化的日有功功率曲线，将每小时消费profile聚类为代表性模式。图8展示了2013年6月10日至16日一周内，SM可用率为50%的部分可观测性情况下的日-簇分配情况，显示了替代方案1和2的日曲线集。此外，图9和图10报告了每个方法学替代方案中每个簇的日数绝对分布和百分比分布，仅考虑冬季数据。对于替代方案1和2，簇数用数字（0到3）索引，且完全基于日消费profile获得。在这两种情况下，分布相对平衡，分配给每个组的日数差异较小。

接下来，根据第3节所述方法为每个簇派生了典型曲线，并在图11中展示。基于前一步获得的分割，构建了代表性曲线，以总结识别出的消费组的平均日常行为。为此，评估了多种代表性曲线方法（见图4），以便在消费profile中存在时间偏移或局部变形时改进形状保持。最后，使用第3.5节中定义的指标评估了典型曲线和生成的伪测量值的性能。作为PDC的功能性代理，构建了变压器级别的参考聚合负荷信号，该信号是69个选定的SM客户实际测量值的每小时总和。

然后，通过将SM客户的可用每小时测量值与根据典型曲线分配给非SM客户的伪测量值相结合，获得聚合伪测量值（见公式（11）：\[聚合伪测量值=\sum_{i=1}^{n} P_{SM,i} \times P_{non-SM,i}\]，其中\(P_{SM,i}\)表示选定的日典型曲线中分配给非SM客户的每小时功率。通过比较\(P_{reference}\)和\(P_{pseudo}\)量化了参考聚合负荷与使用第3.5节中定义的指标通过伪测量重建的聚合负荷之间的一致性。这一评估的结果在第4.4节中呈现。

4.3.2. 基于日和月度消耗量的客户聚类
为了整合具有不同可观测性水平的客户，实施了一种渐进式聚类策略，将SM客户和没有每小时测量值的客户分组。分组依据是最近五个月的累计月消费量。主要目标是确保每个簇至少包含一个SM客户，从而实现从可观测客户向不可观测客户的负荷模式信息传递。该过程遵循图4中所示的聚类工作流程，并重复进行，直到满足每个簇的最小可观测性条件。

图12显示了秋季季节获得的簇，其中拥有SM和没有SM的客户被分组在一起。聚类过程通过逐步减少组数进行细化，直到确保每个簇至少包含一个SM客户，从而提供可转移的每小时参考profile。然后，将每个非SM客户的典型profile分配给同一簇中累计月消费量最接近的SM客户；如果一个簇中只有一个SM客户，则使用其profile作为参考并分配给组中的其他客户。

表2提供了在50% SM场景下一年中四个月的簇组成示例，详细列出了每个组中SM和非SM客户的数量。这些信息证实，在所有情况下都满足了每个簇至少包含一个SM客户的最小标准，支持该方法在部分计量基础设施下的适用性。

总之，基于月度消耗量的聚类产生了混合组，确保每个簇至少包含一个SM客户。这种分割使得后续能够为非SM客户分配典型曲线，并为基于马尔可夫链的序列预测阶段提供了基础。

4.3.3. 使用马尔可夫链进行序列预测
在基于累计月消耗量形成簇并将每个非SM客户分配给参考SM客户之后，引入了马尔可夫链模型来描述日常负荷模式的时间演变。这个阶段并不替代最初的分配；相反，它在初始分配的基础上添加了顺序动态，允许与每个客户相关的簇（因此也是典型曲线）每日更新。具体来说，根据最新的日状态和在SM客户中观察到的历史转换，概率推断出下一个运营日最可能的状态。当每小时测量带有延迟（例如，在一天结束时）时，这种方案特别有用，因为它允许在尚未获得完整记录的情况下生成当天的伪测量值。随着月份内新数据的出现，过渡序列会进行更新，并且根据累计消耗情况每月重新进行校准。根据预测结果，为预期的数据群分配相应的典型曲线，将计量客户的动态扩展到没有智能电表的客户。4.4 结果分析本节讨论的结果基于2013年1月30日至2014年1月30日的完整年度每日评估期，为在不同可观测性条件下评估所提出框架的稳健性提供了代表性的基础。分析分为三个互补阶段进行。首先，比较了本研究中考虑的时间更新策略，以确定捕捉负载曲线状态日变化的最佳机制。这种比较基于第3.5节中定义的复合得分，并通过获胜次数、平均排名以及竞争策略之间的配对差异来报告。其次，在确定了时间更新策略后，直接对参考聚合负载和重建的序列进行统计比较，报告偏差、中位数误差、偏差的95%置信区间、MAE、RMSE、皮尔逊相关系数、威尔科克逊p值、科恩值以及相应的效应大小类别。此外，还使用基于偏差、MAE、基于容忍度的准确性和科恩值的简洁总结，进一步检查了不同方法配置下的欧几里得方法。第三，使用第3.5节中定义的复合得分全面比较方法选择，其中较低的值表明在考虑准确度、形状忠实度和残差诊断的情况下整体适应度更好。结果针对10%、25%、50%和75%的客户具有智能电表数据的情况进行了报告（相应的，90%、75%、50%和25%被视为非智能电表客户），非智能电表客户通过典型曲线派生的伪测量值表示。为了清晰起见，讨论分为三个阶段：(i) 选择时间更新策略，(ii) 代表性曲线方法的统计评估，以及 (iii) 基于复合得分的比较评估。4.4.1 选择时间更新策略作为分析的第一阶段，本研究中考虑的三种时间更新策略——Markov、previous_day 和 last_week——使用复合得分进行了比较，以确定框架后续阶段最适合的时间更新机制。这种比较特别重要，因为它允许评估基于Markov的顺序更新阶段的附加价值与更简单的静态或基于持续性的替代方案。图13通过获胜次数、平均排名和策略之间的配对差异展示了这一初步比较。获胜图显示，Markov在获得最低复合得分的情况下占据了绝大多数案例，而last_week仅获得有限的获胜次数，previous_day在全球分析中并未作为最佳替代方案出现。平均排名图进一步证实了这一趋势，Markov显示出最低的平均值，表明它系统地占据了最佳位置。此外，配对比较显示，Markov与previous_day之间以及Markov与last_week之间的差异主要是负的，表明Markov始终产生比其竞争对手更低的复合得分值。尤其是相对于previous_day的优势十分明显，尽管相对于last_week的改进幅度较小。综上所述，这些结果表明，Markov链阶段通过更好地捕捉每日负载曲线状态的顺序变化，提供了明显的实际优势。图13. 基于获胜次数、平均排名和配对复合得分差异的时间更新策略的全球比较。图14进一步按场景、历史窗口和基础方法分解了获胜率。按场景分析表明，Markov在所有智能电表渗透率水平上保持了最高的获胜率，证实其优越性不依赖于特定的可观测性条件。按历史窗口的分析显示，Markov在21天窗口内取得了最佳结果，其次是14天窗口，而7天窗口最不理想。这表明更长的时间背景提高了模型捕捉日曲线演变的能力。最后，当按基础方法分析结果时，Markov与dba_subgradient、Euclidean、dba_vectorized 和 soft_dtw结合使用时表现最佳，而centroid似乎是这种策略中最不理想的基础方法。图14. 按场景、历史窗口和基础方法的时间更新策略获胜率。图15通过按场景、历史窗口和基础方法分解的平均排名进一步补充了这些结果。结果与前面的图完全一致：在所有情况下，Markov都表现出最低的平均排名，证实它不仅获胜次数更多，而且以一致的方式保持了更好的相对位置。相比之下，previous_day再次显示出最弱的平均表现，而last_week占据了中间位置。综上所述，图13、图14和图15一致表明，Markov是评估中的最有效的时间更新策略。因此，在后续分析中固定使用Markov作为时间更新机制。图15. 按场景、历史窗口和基础方法的时间更新策略平均排名。4.4.2 代表性曲线方法的统计分析一旦确定了时间策略，就对真实的PDC代理序列和从预测中得出的代表性曲线进行了统计比较。表3总结了在不同智能电表渗透率场景下的这一分析，报告了偏差、中位数误差、偏差的95%置信区间、MAE、RMSE、皮尔逊相关系数、威尔科克逊p值、科恩d值以及相应的效应大小类别。该表提供了对评估方法的统计和实际性能的简洁视图。表3. 基于预测的代表性曲线与真实PDC序列的全球统计比较。在最具信息量的案例中，50%智能电表场景下的centroid显示出Wilcoxon p = 0.41和Cohen’s d = 0.14，表明尽管平均偏差为0.82但效应可以忽略不计。同样，25%智能电表场景下的DBA-V在表中显示出最小的效应大小，Wilcoxon p = 0.02和Cohen’s d = 0.08，证实偏差实际上很小。相比之下，10%智能电表场景下的Euc.显示出最明显的偏离，Wilcoxon p < 0.01和Cohen’s d = 1.06，从而揭示了所有场景-方法组合中最强的系统性正向位移。总体而言，这些结果表明，不能仅从误差大小推断出实际相关性，Cohen’s d对于识别哪些偏差真正有意义很有用。由于欧几里得在最坏情况下结合了最佳的全局准确性和最强的效应，因此接下来的分析特别关注这种方法。表4使用一组简洁的指标总结了欧几里得方法在不同方法配置和智能电表渗透率场景下的性能：偏差、MAE、基于容忍度的准确度（|e| ≤ 1, |e| ≤ 2, |e| ≤ 5）和Cohen’s d。最佳的整体配置是Reduced × 75%智能电表，它实现了最低的MAE（1.65）和最高的容忍度覆盖率，67.98%的预测在±2范围内，97.20%在±5范围内。然而，最接近真实PDC的子组是Reduced × 25%智能电表，它产生了最低的偏差（0.63）和最小的效应大小（）。相比之下，Normal × 10%智能电表是最不理想的情况，具有最大的效应大小（），偏差为2.31，只有22.12%的预测在±1范围内，表明有明显的系统性高估。Temp_normal × 10%智能电表也显示出类似的模式，也显示出较大的效应大小和最高的MAE。总体而言，表格表明Reduced配置提供了最的有利欧几里得性能，而10%智能电表场景仍然是最具挑战性的。表4. 不同方法配置和智能电表渗透率场景下的欧几里得性能的简洁统计总结。4.4.3 基于复合得分的比较分析在确定了时间更新策略为Markov并识别出欧几里得为最具统计优势的代表性曲线方法后，剩余的分析重点是比较方法在不同复合得分标准下的性能。图16展示了在比较定义每个数据群代表性曲线的替代方法时的分布：基于欧几里得距离（Euclidean）选择观察到的曲线、点平均（centroid）和基于DTW的方法，包括两种DBA变体和soft-DTW。在所有四个场景中，欧几里得始终显示出较低的中位数和四分位数范围，表明在复合得分标准下具有更好的整体权衡。因此，在后续分析中固定使用欧几里得作为代表性曲线方法。图16. 按场景和典型曲线方法的复合得分分布。图17比较了不同典型曲线构建策略（Normal、Reduced、Temp_normal 和 Temp_reduced）和历史窗口（7天、14天和21天）下的复合得分。Reduced和Temp_reduced在大多数情况下集中了最低的得分。此外，随着智能电表可用性的降低和使用更长的历史窗口，结合温度变得越来越有益。每种场景下最佳得分的定量总结证实了这些趋势。图17. 使用欧几里得作为典型曲线生成器的不同方法和方法论组合的复合得分比较。最后，图18提供了每周示例，比较了作为可用真实测量值总和构建的参考聚合负载（用作下游需求聚合的功能性代理，而不是直接转换器/PDC测量值）与传统通过伪测量重建的聚合负载，使用欧几里得作为代表性曲线方法。在所示区间内，重建紧密跟随了参考的时间动态，没有明显的时间偏移。差异主要集中于变异性较高的时期（例如，每日峰值），在这些时期，小幅度的差异对误差指标的影响较大。图18. 在不同可观测性水平下，作为功能性PDC代理的参考聚合负载与基于欧几里得的重建曲线的每周比较。总体而言，这些图表为研究的其余部分提供了实用的选择指南：使用欧几里得定义每个数据群的代表性曲线；在中高等可观测性（≥50%智能电表）下采用Reduced作为基线配置，使用7-14天窗口，并在降低时可扩展到21天；在低可观测性（≤25%智能电表，特别是10%智能电表）下，偏好Temp_reduced和更长的窗口（21天）以提高性能。5. 讨论在讨论图16、图17和图18中总结的比较结果之前，重要的是要注意，分析的先前阶段已经确定了Markov作为研究剩余部分的时间更新策略。图13、图14和图15显示，这种策略始终获得了最多的获胜次数、最低的平均排名和相对于previous_day和last_week主要有利的结果。这表明所提出框架的贡献不仅依赖于代表性每日曲线的构建，还依赖于能够捕捉日间依赖性的时间更新机制的包含。图16、图17和图18总结了使用第3.5节中定义的复合得分（数值越低越好，同时捕捉准确度、形状忠实度和残差诊断）在不同可观测性水平下伪测量管道的性能。总体而言，结果支持这样的假设：在低压需求条件下，可以通过基于聚类的典型曲线获得可靠的聚合伪测量值，并且随着智能电表可用性的降低，结合天气信息变得越来越有益。一个关键发现是欧几里得基代表性曲线选择的一致优势（图16）。在所有智能电表可用性场景中，欧几里得产生的中位数和四分位数范围比centroid平均和DTW基方法更小，证明了将其作为研究剩余部分固定代表性曲线方法的价值。这与图18一致，其中重建的聚合曲线跟踪参考动态没有明显的时间偏移，表明DTW的时间扭曲灵活性对于复合标准下的目标聚合需求重建并不关键。这种解释也与表3和表4中总结的统计分析结果一致，在这些表中，欧几里得（Euclidean）在误差幅度、基于容忍度的准确性、相关性和实际效应大小之间表现出最有利的全局平衡，涵盖所有评估的情景。所提出框架的一个相关方面是，聚类阶段并不被视为一个孤立的预处理步骤。尽管对所有可能的聚类算法和参数设置进行详尽的比较超出了本研究的范围，但聚类的数量是通过基于内部有效性指数标准化组合的自动多标准程序来确定的。此外，所选的配置随后在完整的仿真框架内进行了评估，考虑了不同历史窗口长度和一年时间范围内的可观测性水平。这为采用的划分提供了实际的、有意义的验证，因为其适用性最终反映在最终的伪测量性能上，而不仅仅是在内部聚类指标上。图17进一步显示，在大多数情况下，Reduced和Temp_reduced的复合得分最低，表明当伪测量必须代表更大比例的客户时，其鲁棒性得到了提高。此外，在可观测性低且多日窗口较长时，加入温度参数变得更加有帮助，这表明外部环境可以补偿稀缺的SM锚点效应。每周的例子（图18）证实，差异主要集中在高变异性期间（例如，每日峰值），此时小幅度差异对复合得分的影响更大。在评估的替代方案中，Reduced配置也最接近传统的平均每日轮廓基准，因为它是在聚类之前为每个客户计算的历史平均每日曲线构建的。因此，将其与基于马尔可夫的策略进行比较，为评估 incorporating sequential profile updating 的好处提供了有意义的参考。从这个意义上说，讨论可以被视为一个三级验证过程：首先，时间阶段的比较证明了固定马尔可夫策略的合理性；其次，统计分析确认了欧几里得方法和主要方法配置的实际表现；第三，复合得分提供了一个综合标准，用于从准确性、形状保真度和残差结构方面共同比较各种替代方案。这些发现转化为一个实用的建议：使用欧几里得方法来定义代表性的曲线；在中等到高可观测性（≥50% SM）的情况下采用Reduced作为基线，并且仅在窗口扩大后能改善复合得分时才扩展窗口；而在低可观测性（≤25% SM，特别是10% SM）的情况下，优先选择Temp_reduced和较长的窗口。局限性包括依赖于聚合的参考代理变量、天气输入的代表性以及对复合得分权重的敏感性。另一个限制是将原始客户群体缩减为具有高度完整时间序列的较小子集。这一选择是为了最小化聚类和基于马尔可夫的轮廓更新之前的数据重建程度。尽管对保留的子集中的少数缺失数据应用了有限的插补步骤，但结果仍可能反映了时间连续性与完整群体代表性之间的权衡。因此，虽然这种策略增强了研究的内部方法一致性，但它可能限制了结果在整个居民群体中的普遍适用性。因此，报告的结果应被视为在具有代表性的低压需求条件下的方法验证，而不是针对测量的MV/LV变压器或PDC信号的直接现场验证。此外，尽管复合得分通过Durbin–Watson统计量和Jarque–Bera p值的转换贡献纳入了残差统计诊断，但这些术语在这里是作为综合性能标准的组成部分使用的，不应被解释为方法优越性的正式假设检验。未来的工作可以在直接有利于可观测性增强和DSSE（分布式系统状态估计）的方向上扩展该方法。首先，生成具有不确定性意识的伪测量（例如，预测区间或场景集合）可以将不确定性传播到DSSE中，并在可观测性低的情况下改善决策。下一个实际步骤是将生成的伪测量及其相关的不确定性水平注入DSSE框架中，以评估它们对可观测性增强和状态估计精度的影晌。其次，将框架扩展到无功功率和相位分辨的轮廓将增加其在三相DSSE中的适用性。这将使所提出的方法论能够在现实的低压运行条件下支持更详细的不平衡网络状态估计研究。第三，加入额外的外部驱动因素（例如，辐照度、湿度、日历效应、假期）可能会进一步减少高峰期的差异，并在复合诊断标准下改善残差行为。最后，测试跨馈线、气候和客户组合的可转移性将加强普遍性和大规模部署的证据。在实际应用中，这可以通过在一个馈线或气候条件子集上训练该方法论，并在具有不同客户构成、天气状况或智能电表普及率的未见网络上进行评估来实现。这样的分析将有助于确定所提出框架的鲁棒性以及在新的运行环境中部署之前所需的局部重新校准程度。

6. 结论

本文提出了一种集成方法，用于在不同智能电表（SM）普及率下生成配电网络的每小时负荷伪测量。该方法结合了（i）基于聚类的每日消耗曲线特征描述，（ii）通过气象变量纳入外部信息，以及（iii）通过马尔可夫链进行序列模式建模。研究了多种方法论选项，以从SM时间序列构建典型的有功功率轮廓。通过结合聚合级别（每个客户 versus 全局）和使用基于天气的标签来条件化聚类过程，以及不同的历史窗口用于轮廓构建，评估了四种变体。此外，还明确评估了时间更新阶段与简单替代方案之间的差异，结果显示基于马尔可夫的策略提供了捕捉每日负荷轮廓状态序列演变的最有效机制。结果表明，在部分可观测性情况下，基于聚类的典型曲线可以高精度地重建变压器级别的聚合负荷。基于复合得分（分数越低越好）的比较整合了误差指标、拟合优度指标和残差诊断，从而降低了仅由单一指标驱动的结论风险。根据这一标准，欧几里得代表性曲线方法在所有情景中始终表现优于dba_vectorized、dba_subgradient、soft_dtw和centroid，使得复合得分的中位数和分散度更小。这一结果也与统计分析一致，统计分析表明欧几里得在系统偏差、基于容忍度的准确性、相关性和实际效应大小之间提供了最有利的全局平衡。首选的方法论和历史窗口取决于SM的普及率。在75% SM的情况下，Reduced提供了最稳健的性能，在将窗口从7天扩展到14天再到21天时仅有边际改进。在50% SM的情况下，Reduced在7-14天内表现最佳，而在21天时Temp_reduced更为优越，表明加入温度参数在使用较长时间历史数据时是有益的。在25% SM的情况下，Temp_normal在7-14天内表现更好，而在21天时Reduced重新获得了优势。在10% SM的情况下，最佳配置是使用21天窗口的Temp_reduced，这弥补了低可观测性的不足。在评估的替代方案中，Reduced也最接近传统的平均每日轮廓基准，而基于马尔可夫的更新阶段增加了时间一致性，并改善了日间变化的表示。除了主要关注没有SM的客户的情况外，所提出的框架还可以扩展到在数据丢失或延迟获取的情况下为SM客户插补缺失的每小时记录。未来的工作包括在具有明确网络拓扑的多个MV/LV变压器和馈线上验证该方法论，并将生成的伪测量整合到DSSE求解器中，以量化它们对状态估计精度的影响。额外的扩展包括采用基于日类型和/或温度范围的非均匀马尔可夫模型，探索更高阶的时间依赖性，并报告伪测量的不确定性，以便在加权状态估计公式中使用。这些发展将有助于增强所提出方法论在可观测性增强和部分观测配电网络中的实际应用可行性。

热点排行