《Energy and AI》:Energy forecasting under missing data: Comparative evaluation of augmented representations and decoder-only time-series imputation
编辑推荐:
数据相关问题(包括缺失值和测量不规则)对智能电网中短期能源预测的准确性构成挑战。在数据稀缺场景下,两种常用方法各有优劣但尚未被系统比较:基于嵌入(Embedding-based)的模型通过异源数据学习联合表征以补偿时序测量缺失,而插补(Imputation)流
数据相关问题(包括缺失值和测量不规则)对智能电网中短期能源预测的准确性构成挑战。在数据稀缺场景下,两种常用方法各有优劣但尚未被系统比较:基于嵌入(Embedding-based)的模型通过异源数据学习联合表征以补偿时序测量缺失,而插补(Imputation)流水线恢复时序连续性但可能平滑掉变异性或产生不合理值。为解决此局限,研究人员提出一种集成共享Temporal Fusion Transformer(TFT)预测器与可控退化协议(模拟真实缺失数据模式)的统一能源预测框架,以公平系统地比较表征增强学习(Representation-augmented Learning)与Decoder-Only时间序列插补两条流水线。前者融合TS2Vec时序嵌入与基于BERT的静态上下文表征,在不显式重构缺失值情况下提供丰富预测空间;后者使用Chronos-2模型重建缺失时段并结合基于物理(Physics-based)的校正以保证物理合理性。研究人员在受控数据退化协议下用真实非住宅建筑用电与风电生成数据集评估两条流水线以刻画表征学习与插补恢复时序连续性的权衡。结果表明:插补流水线在100栋建筑上平均sMAPE(symmetric Mean Absolute Percentage Error)=10.14%、MAE=8.43 kWh,优于表征方法(sMAPE=12.11%、MAE=10.89 kWh,p<0.01);风电预测中插补亦提升精度(R2=0.870 vs. 0.794)。但在具不规则尖峰或事件驱动消费模式的建筑中,表征模型仍具竞争力且插补增益有限。
论文解读——《Energy and AI》:缺失数据下能源预测中增强表征与Decoder-Only时间序列插补的比较评估
一、研究背景与动机
智能电网中分布式能源资源(Distributed Energy Resources, DERs)的短期负荷与发电预测受传感器故障、数据传输中断等影响常面临缺失数据(Missing Data)问题,传统单变量或简单多变量模型难以处理此类异构输入下的非线性交互。现有两类主流应对策略——表征学习(Representation Learning)通过自监督或对比学习将时序与上下文编码至隐空间以容忍缺失,但不直接修复缺口;Decoder-Only插补(Imputation)利用预训练时序基础模型(Time Series Foundation Model, TSFM)重建缺失段以恢复时序连续性,但可能过度平滑极端事件或产生违背物理规律的值。两种方法在能源预测中优劣尚未在受控缺失机制下系统量化比较,因此研究人员设计统一框架与受控退化协议(Controlled Degradation Protocol),在真实建筑用电(GENOME Buildings Dataset)与风力发电(Vestas V52 850 kW SCADA)数据上公平对比两策略。
二、关键技术方法
研究人员采用两大预测流水线共享同一下游预测器Temporal Fusion Transformer(TFT):①表征增强流水线(Representation-augmented Pipeline)——对原始用电/发电时序用TS2Vec编码器生成时间戳对齐的时序潜向量(zt(ts)∈Rdts),并与原始协变量拼接绕过变量选择网络(Variable Selection Network);同时用BERT编码器将建筑类型/涡轮规格等静态元数据编码为固定维嵌入(e(B)∈Rdb),经门控残差网络(Gated Residual Network, GRN)注入TFT静态通路,不修改或填补原始缺失值。②物理约束Decoder-Only插补流水线(Physics-constrained Decoder-Only Imputation Pipeline)——用冻结Chronos-2(预训练Decoder-Only TSFM)双向(前向历史+后向未来反转)预测缺失块,前后向中位数聚合后线性插值填充,再施以风机理论功率曲线Pth=?ρACpv3进行物理可行性裁剪(非负及额定容量约束);完整序列送同构TFT训练。受控退化协议模拟随机行删除(r=30%)、连续间隙插入(G=6段,Lmin=12 h~Lmax=48 h)、协变量掩蔽(m=15%)及目标加性高斯噪声(η=0.05·std(y))。样本队列:GENOME非住宅建筑用电(80/10/10时序切分,预测24 h/168 h上下文),Vestas V52风电(2012–2018时段,10 min重采样至1 h)。评估指标含MAE、RMSE、sMAPE及R2,统计显著性用Wilcoxon符号秩检验。
三、研究结果
4.2 能源需求预测(Energy Demand Forecasting)
4.2.1 表征增强TFT(Representation-augmented TFT):在规则周期性强的教育/办公建筑(如Bear_education_Lewis,R2=0.931)表现较优,TS2Vec捕获超出168 h编码器窗的长程周期,BERT使TFT按建筑类型自适应注意力;但对具随机负荷(住宿)或近恒定+偶发尖峰建筑(Bull_education_Clarice出现负R2)改善有限甚至劣于基线。
4.2.2 Decoder-Only插补(Decoder-only Imputation):Chronos-2+物理校正+TFT在15栋建筑中有11栋sMAPE更低、13栋MAE更低,整体均值sMAPE=9.38% vs. 表征流水线10.08%,MAE=7.58 vs. 8.64 kWh,R2略优(0.609 vs. 0.604)。教育类大体量建筑受益最明显(完整日周期被恢复);但在强不规则/尖峰主导建筑(Bull_assembly_Daryl、Bull_education_Clarice)插补平滑效应致低估方差,此时表征方法不改动原始信号反具相对优势。
4.3 能源生成预测(Energy Generation Forecasting)
4.3.1 表征增强TFT(Representation-augmented TFT):干净训练下TS2Vec+BERT TFT较基线TFT降低MAE(57.81 vs. 59.54 kW)、sMAPE(62.43% vs. 63.17%)、R2升至0.794;受控退化下性能仅微降(MAE+1.20 kW,R2?0.015),说明嵌入有效补偿短程缺失。
4.3.2 Decoder-Only插补(Decoder-only Imputation):物理约束Chronos插补重建空缺R2=0.9559;以此训练TFT得干净条件下MAE=6.21 kW、R2=0.9512;退化条件下MAE升至12.35 kW、R2=0.870,仍优于未退化表征流水线,表明插补增益超过表征增强但该管道对输入稀疏度更敏感。
四、讨论与结论总结
研究人员指出:受控退化显著损害无处理基线(p<0.001),Chronos插补完全恢复干净基线水平(p>0.05 vs. 干净基线)且显著优于未插补退化基线及同期表征流水线(p<0.01)。表征增强(Rep-augmented)与显式插补(Imputation)是互补策略——前者对缺失不敏感且推理时不改原始观测值适合IoT流式更新与尖峰不规则负荷,但跨建筑方差大;后者恢复时序连续性显著提升周期性强负荷的预测稳定性,但引入重建偏差且在事件驱动尖峰场景可能平滑极值,且需额外预处理阶段。对于大段缺失或规整周期负荷优选插补;新投运无历史数据资产因TS2Vec需先验观测故只能先用插补。最终结论:Chronos-2结合物理校正之插补流水线在具显著缺失的建筑用电与风电预测中总体优于TS2Vec+BERT表征增强法,但在具不规则、事件驱动消费模式场景下表征学习保留竞争力,二者选择应依据时间序列结构性及运行部署约束决定。