利用元启发式优化的时间融合变换器（结合分解技术）进行短期负荷预测

《Frontiers in Artificial Intelligence》：Short-term load forecasting using a metaheuristic optimized temporal fusion transformer with decomposition technique

【字体：大中小】 时间：2026年05月11日 来源：Frontiers in Artificial Intelligence 4.7

编辑推荐：

　　摘要短期负荷预测在现代生活中扮演着至关重要的角色，以确保能源供需之间的平衡。天气和电力消费模式的动态变化会显著影响负荷模式，由于数据的非平稳性和非线性特征，导致建模复杂化，并增加了预测的难度。传统的统计方法简单易懂，但难以捕捉时间和非线性依赖关系。尽管机器学习可以应对这些挑

　　摘要
短期负荷预测在现代生活中扮演着至关重要的角色，以确保能源供需之间的平衡。天气和电力消费模式的动态变化会显著影响负荷模式，由于数据的非平稳性和非线性特征，导致建模复杂化，并增加了预测的难度。传统的统计方法简单易懂，但难以捕捉时间和非线性依赖关系。尽管机器学习可以应对这些挑战，但在处理长期时间依赖性方面存在困难。相比之下，深度学习模型能够从原始数据中自动提取时间模式和相关特征。本研究提出了一种基于多元变分模态分解（MVMD）的时间融合变换器（TFT），并通过GOAT优化算法（GOA）进行优化。该变换器模型的深度架构因其自注意力机制、捕捉长序列的能力、并行处理能力以及通过注意力权重实现的可解释性而成为多变量短期负荷预测的理想选择。将MVMD与TFT结合的主要优势在于，它可以分解复杂的多变量时间序列数据为具有不同频率的组成部分，从而增强特征提取并减少噪声。MVMD通过降低复杂性和提高可解释性，有效应对了能源负荷数据的非平稳性和非线性问题。此外，还采用了GOAT优化算法对TFT模型进行超参数调优以提升性能。模型的误差评估采用了均方绝对误差（MAE）、平均绝对百分误差（MAPE）、均方根误差（RMSE）和对称平均绝对百分误差（sMAPE）。结果表明，所提出的模型优于其他对比模型。最后，通过SHapley加性解释（SHAP）分析来解释各特征对模型预测的影响。

1 引言
在未来20年内，由于全球人口增长，能源消耗预计将增加48%。目前，大约80%的全球能源需求来自化石燃料，这对可持续性构成了重大挑战（Moodley, 2021; Goren et al., 2023）。短期负荷预测通过准确预测能源需求来提高电力系统的运行效率，其预测时间范围从几分钟到几天不等（Eren and Kü?ükdemiral, 2024）。精确的预测对于降低运营成本、优化发电计划、维持电网稳定以及在动态复杂的背景下有效分配能源资源至关重要（Han et al., 2025）。然而，数据的复杂性和波动性、时间依赖性以及影响预测准确性的模式给短期负荷预测带来了巨大挑战。外部变量如天气、消费行为、社会经济因素、日历效应和随机干扰都会影响负荷预测的准确性。此外，平均负荷消耗和最大负荷需求还受到电价和工业化程度的影响。能源需求的波动将影响与机组投入、维护和经济调度相关的决策。短期负荷预测采用了多种预测技术，包括统计方法、机器学习、深度学习和混合模型，以捕捉时间依赖性和其他相关因素（Liu et al., 2023）。传统的统计模型，如自回归移动平均（ARMA）（Huang and Shih, 2003）、自回归积分移动平均（ARIMA）（Alberg and Last, 2018）、季节性自回归积分移动平均（SARIMA）（Bozkurt et al., 2017）、指数平滑（Taylor and McSharry, 2007）和卡尔曼滤波蒙特卡洛方法（Owusu et al., 2023），在数据线性的情况下效果良好，但难以捕捉非线性依赖关系，对异常值敏感且容易过拟合，从而限制了其对未见数据的泛化能力。随着数据波动性和复杂性的增加，统计方法在处理非线性和时间依赖性方面的不足问题变得更加突出。机器学习模型通过捕捉复杂模式和非线性关系来改善模型性能，例如K均值（K-Means）和支持向量机（SVMs）（Dong et al., 2022）、模糊c均值聚类结合随机森林和深度神经网络（DNNs）（Liu et al., 2021）、K均值和K最近邻（KNN）（Hnin et al., 2024）以及自组织映射（Lee et al., 2019）。随机森林和梯度提升模型通过提高预测精度自动减少噪声（Wang et al., 2018）。贝叶斯神经网络提供概率估计，包括点预测，为决策提供宝贵信息（Hippert and Taylor, 2010）。数据不足可能导致预测不准确，传统模型在高维、非结构化数据面前也可能表现不佳。深度学习有效克服了机器学习的局限性，它能够自动从原始数据中学习非线性关系并提取相关特征，从而提升峰值负荷预测的准确性。深度学习模型，如循环神经网络（RNNs）（Zhang et al., 2018）、长短期记忆（LSTM）（Majeed et al., 2025; Ijaz et al., 2022）、双向长短期记忆（BiLSTM）（Hu et al., 2023）、卷积神经网络（CNN）-LSTM（Li and Shi, 2025）、双向门控循环单元（BiGRU）和堆叠自动编码器（Dong et al., 2025），能够捕捉高维数据中的长期时间依赖性。然而，传统深度学习模型也面临数据质量高度敏感、多尺度时间模式捕捉、计算成本高、泛化能力差和可解释性不足等问题。变换器模型通过并行化和自注意力机制解决了序列处理的瓶颈问题。一些混合模型，如结合注意力的Seq2Seq LSTM（Buratto et al., 2024）、多层线性回归/多层（MLR）和LSTM（Li et al., 2020）以及双向RNN结合深度信念网络（DBN）（Tang et al., 2019），能够克服单一模型的局限性并取得更好的效果。混合模型还可以结合分解技术和特征提取，以提高短期负荷预测的准确性。将经验模态分解（EMD）、集合经验模态分解（EEMD）、完全集合经验模态分解（CEEMDAN）和变分模态分解（VMD）等分解技术与深度学习相结合，可以降低模型复杂性。一些混合模型，如VMD和基于小波的CNN（Ahajjam et al., 2022）、双层分解结合动态最优集合学习（Lin et al., 2025）、VMD与堆叠模型融合（Zhang Q. et al., 2022）、EMD与BiLSTM（Mounir et al., 2023）、EEMD与Sparrow Search算法（SSA）和BiLSTM（Zhang, 2025）以及VMD LSTM与贝叶斯优化算法（He et al., 2019），提高了模型精度。基于变换器的融合模型，如CNN-BiGRU（Xie et al., 2025）、稀疏变换器（Chan and Yeo, 2024）和用于智能电网的变换器（Wang and Zhao, 2021），以及分布式变压器的联邦模型不可知元学习（Feng et al., 2024），也有助于提升模型性能。ICEEMDAN、模糊熵与CNN、BILSTM和改进的Sparrow Search算法的组合能够处理特征提取不完全和长期依赖性问题（Tang et al., 2025）。改进的灰狼遗传算法通过分层处理提高了预测精度（Li, 2025）。时间卷积网络（TCN）结合自注意力和BiLSTM能够捕捉长期依赖性并实现稳健的时间关系（Hu et al., 2025）。动态粒子群优化（PSO）结合最小二乘支持向量机用于动态调整参数，实现稳健的适应性（Ji et al., 2025）。使用多任务图卷积网络结合基于注意力的季节性分解对不同时间范围内的多区域小时负荷数据进行预测（Zhang et al., 2024）。CEEMDAN、TCN、AutoLSTM和交叉 stitch网络的组合用于次日和下一周的预测。与TCN和LSTM等独立模型相比，交叉 stitch网络在信息交换方面表现更优。该模型的局限性在于仅依赖于单区域数据，缺乏天气、价格和社会经济等外部特征（Sakib and Mustajab, 2025）。指数平滑结合指数平滑和扩张循环神经网络（ES-dRNN）用于一天前的预测和小时级的短期负荷预测，但该模型仅针对欧洲数据集进行了测试，未考虑外部特征（Smyl et al., 2023）。为了提高24小时预测的泛化和性能，使用了基于变换器的模型；然而，其区域适用性有限（Ahmad et al., 2025）。LSTM变换器编码器模型用于单步预测，仅针对美国住宅数据，因此可能存在泛化问题（Pentsos et al., 2025）。基于空间和时间的变换器用于短期负荷预测，能够捕捉空间相关性，但可能在某些地区面临可扩展性问题（Zhao et al., 2023）。多头CNN与BiLSTM结合滞后参数的组合能够处理长期依赖性（Han and Zeng, 2024）。现有研究大多仅关注单变量数据（主要是历史负荷数据）和有限区域，考虑气象数据、价格和经济数据等外部变量将更具挑战性。在有限区域的单变量数据上训练模型会导致泛化问题。

1.1 相关研究
尽管近期在短期负荷预测方面取得了进展，但这些模型仍面临挑战，如对非平稳数据的敏感性、在多变量环境下的局限性、可解释性、泛化能力和超参数调优问题。表1展示了混合模型的详细比较，突出了现有方法的局限性。该模型在处理复杂的深度学习预测时缺乏可解释性，并且没有引入注意力机制来选择性地突出相关的历史信息。混合模型中使用的分解方法大多是单变量分析，对于复杂的多变量和非平稳特征不够敏感。传统的超参数调优方法，包括手动调整、网格搜索和随机搜索，在处理复杂架构和高维空间时效果不佳，因为这些方法会受到计算开销和噪声的影响。为了解决这些问题，本研究提出了一种统一的多元变分模态分解-时间融合变换器-GOAT优化算法（MVMD-TFT-GOA）框架，该框架通过多元分解丰富了特征表示，以处理不规则和复杂的模式，解决了非平稳性和非线性问题。同时，利用TFT的内部门控结构和多头自注意力机制来捕捉时间依赖性，实现深度学习预测在多个尺度上的细致解释，并通过GOA进行优化，通过有效的探索和利用平衡避免了过早收敛，从而提高了预测的准确性，并利用SHapley加性解释（SHAP）增强了模型的可解释性。

1.2 本研究的主要贡献
本研究的主要贡献如下：
- 开发了一种新的统一框架，将MVMD分解与TFT相结合，有效捕捉复杂的时间模式。
- 通过有效处理非平稳负荷模式，利用MVMD提高了预测准确性，降低了预测误差。
- 引入了GOAT优化算法（GOA），提高了模型的稳定性和收敛性。
- 使用多种评估指标验证了模型的可靠性，并通过SHAP分析增强了模型的可解释性。

1.3 提出的MVMD-TFT-GOA框架的流程
所提出的模型（MVMD-TFT-GOA）的工作流程如图1所示。
- 数据预处理框架结合了缺失值评估、基于四分位距（IQR）的统计异常值检测、最小-最大归一化进行特征缩放，以及基于过滤器和PCC的特征选择来进行重要特征排序，以确保后续建模的质量特征信息。
- 使用多元变分模态分解（MVMD）对关键特征进行分解，并提取了能够捕捉时间模式的信息丰富的内在模态函数（IMFs）。
- 在生成的IMFs上训练时间融合变换器（TFT），以捕捉长期依赖性、处理异构数据，并提供可解释的注意力机制，从而提高模型的预测能力。
- 通过GOA优化算法对TFT的参数进行优化，以增强模型的性能和鲁棒性。
- 使用多种误差指标评估模型的性能。
- 利用SHAP分析对模型进行解释，以提高模型的透明度，并识别对短期负荷预测有影响的特征。所得结果通过显著的统计测试进行了验证。

目录结构如下：
第2节阐述了所提出的方法论和使用的具体方法。
第3节讨论了用于评估模型性能的指标。
第4节描述了结果和讨论。
第5节讨论了模型的结论和未来的改进方向。

2. 方法论
本节讨论了所提出模型在不同阶段应用的方法论。所提出模型的架构如图2所示。数据预处理、分解、模型开发与训练、优化以及可解释性分析中采用的方法论如图2所示。该模型应用了MVMD，能够稳健地将复杂的多变量时间序列数据分解为内在模态函数（IMFs），这些函数能够捕捉原始信号的多尺度变化、非线性动态和非平稳成分。然后将这些IMFs作为增强输入整合到时间融合变换器（TFT）中。TFT能够高效捕捉长期依赖性和非线性相互作用，从而对输入信号的清晰、有意义的成分进行处理，可能比使用原始特征得出更准确的预测和更深入的特征贡献理解。与其他优化器不同，GOAT优化算法强调了对高效、基于种群搜索的有效探索，适用于深度学习模型中固有的高维、噪声较大、非凸的超参数空间。SHAP被用来整合在MVMD特征上训练的TFT模型的黑盒决策。可解释的AI不仅揭示了哪些特征是重要的，还提供了对原始特征特定振荡模式（IMFs）的更深入、细致的洞察，并实现了多尺度可解释性，使得使用传统方法无法实现的短期负荷预测成为可能。

2.1 数据预处理
通过数据预处理技术确保了输入特征的准确性和可靠性。验证了缺失值，并使用最小-最大归一化对数值输入特征进行了缩放。使用四分位距（IQR）方法检测异常值，并通过基于过滤器的特征选择方法确定了与目标变量相关的特征的皮尔逊相关系数（PCC）。根据特征与目标变量（每小时需求Met）的线性关联对特征进行了排序，并识别出最具显著性的特征。异常值的检测阈值设定为Q1?1.5 × IQR的下限和Q3+1.5 × IQR的上限，其中Q1和Q3分别表示第25和第75百分位数。

2.2 多元变分模态分解
MVMD分解技术可以处理多变量特征，是变分模态分解（VMD）的改进版本（Ur Rehman和Aftab，2019）。MVMD将多变量信号分解为一组内在模态函数（IMFs），直接从输入数据中分离出有意义的信息。在数据预处理后的第二阶段，将MVMD应用于最显著的特征。在MVMD中，设输入具有Z个特征和N个多源调制信号a，将多通道信号分解问题表述为共享模式的问题，并确保总和能够准确重建原始信号。如方程4所示，多变量信号输入表示为：
y(m) = ∑n=1 an(m)

2.3 时间融合变换器
时间融合变换器（TFT）是一种支持多时段时间序列预测的深度学习技术。TFT模型提高了模型的可解释性和特征选择能力（Lim等人，2021）。TFT框架将深度学习技术与自注意力层结合，以处理数据中的长期依赖性和全局模式。变量选择网络（VSNs）从不同的输入类别中识别相关特征：静态协变量、已知输入特征和过去观测值。门控机制可以通过移除无关成分来动态控制信息流。与其他深度学习技术相比，时间融合变换器通过变量重要性分数、随时间步骤的时间 Attention 和模型组件的分解提供了可解释性。TFT中的预测区间产生分位数预测，以估计预测区间并表达不确定性，从而支持风险意识决策。模型工作流程包括数据编码、使用深度学习技术的局部处理、使用多头自注意力层进行全局建模以学习观察窗口内不同时间步长之间的依赖性、特征选择和门控，以及多时段输出。MVMD生成的内模态函数（IMFs）使时间融合变换器（TFT）能够提取和利用不同变量之间的独特时间特征，从而提高预测性能。

2.4 GOAT优化算法（GOA）
GOA是一种受生物启发的高效元启发式算法，其自适应行为是其核心特性。为了优化时间融合变换器以进行短期负荷预测，采用了GOA优化算法，因为它在探索和利用之间取得了有效的平衡，具有更快的收敛速度和更高的准确性。像GOA这样的优化算法通过有效提高模型的鲁棒性和效率来平衡探索和利用（Nozari等人，2025）。

2.5 总结
本文的研究提出了一种新的统一框架，将MVMD分解与TFT相结合，有效捕捉复杂的时间模式，提高了预测准确性，并通过GOA优化算法增强了模型的稳定性和收敛性。同时，利用SHAP分析提高了模型的可解释性。所提出的模型在多个评估指标上表现出可靠的性能，并通过SHAP分析揭示了特征对短期负荷预测的影响。最终，输出是最优解Ybest。Temporal Fusion Transformer模型是通过收集调整参数和定义搜索空间边界构建的。遗传算法（GOA）是通过初始化种群Yn来构建的，其中n = 1, 2, …, N。为了在定义的搜索空间边界[LB, UB]内随机生成GOAT的种群（候选解），如公式18所示。Yn=LB+(UB? LB)random(d)（18）其中random(d)生成一个范围在[0, 1]内的d维向量。通过计算每个GOAT的目标函数来评估适应度g(Yn)，以找到最优解Ybest。具有最佳适应度的GOAT被视为当前的全局最优解。更新每个GOAT的位置所涉及的步骤（主迭代循环）包括：- 探索：GOAT随机移动以探索搜索空间，模拟通过适应性觅食的行为。- 利用：通过朝向表现最佳GOAT的移动进行局部搜索和精细化调整位置。- 偶尔，执行显著的随机跳跃以逃离局部最优解。- 寄生虫 avoidance：移除表现不佳的GOAT，并招募新的候选者以保持多样性。通过重新计算每个更新后的GOAT的目标函数来重新评估适应度。找到更好的解，并更新最佳记录。当达到最大迭代次数、最小改进或可忽略的种群方差时，验证终止条件并终止算法。否则，重复迭代循环。TFT可以处理负载、日历和气象变量的非线性关系和时间模式。然而，包括学习率、丢弃率、注意力头数和隐藏大小在内的超参数调整具有挑战性，并且由于其高维度、非凸性和黑箱性质，被视为一个全局优化问题。多参数相互作用会产生许多局部最小值，因此全局搜索策略对于找到最佳解至关重要。GOAT优化算法是一种受GOAT群集、觅食和攀爬行为启发的最新元启发式算法，旨在达到全局最小值。基于每次迭代中的最佳分数和随机探索性移动，该优化算法有效地搜索高维超参数以提高模型性能。TFT与GOAT优化算法结合使用的好处在于在探索和利用之间保持良好的平衡。初始迭代有助于算法遍历超参数空间的各个区域，以减少过早收敛，这种适应性过渡支持短期负载预测。元启发式算法的挑战在于过早停滞。与其他算法不同，GOAT通过独立的群集漫游保持多样性，同时通过指导性利用增加收敛性。适应性觅食策略提高了对局部最小值的鲁棒性。探索和利用的平衡可以处理多样化的变量搜索空间并抵抗过早收敛。GOAT优化算法对于调整TFT超参数和提高收敛稳定性非常有效。对需求的非线性和动态性质的强大适应性使得短期负载预测更加准确。所提出的模型使用GOA优化算法来调整TFT模型的超参数，以提高模型性能。该模型使用各种性能评估指标进行评估。TFT与GOA算法结合使用超参数调整的步骤在图3中描述。图3显示了TFT与GOA优化算法结合使用超参数调整的过程。2.5 可解释性分析使用Shapley Additive Explanation (SHAP) SHAP是一种博弈论方法，应用于所提出的模型中，用于计算所有可能特征组合的平均值。SHAP的重要贡献在于理解模型特定的决策过程，并识别对模型预测最有影响的全局和局部特征。使用最具影响力的特征重新训练模型，以提高其预测性能。3 性能评估指标使用性能指标来评估模型的性能，本研究中用于分析和测量误差的指标如下所述。3.1 均方根误差（RMSE）预测值与实际值之间平方差的平均值，如公式19所示。RMSE=√∑kj=1(Aj? Pj)2k（19）3.2 平均绝对百分比误差（MAPE）使用实际值与预测值之间的绝对百分比差来计算预测性能，如公式20所示。MAPE=1k ∑kj=1∣∣Aj?Pj∣∣×100%（20）3.3 平均绝对误差（MAE）无论方向如何，计算预测误差的平均幅度。该指标表示实际值与预测值之间的绝对差异，如公式21所示。MAE=1k∑kj=1∣∣Aj??Pj∣∣（21）3.4 对称平均绝对百分比误差（sMAPE）通过对绝对误差进行标准化来对称地测量实际值与预测值之间的百分比，如公式22所示。sMAPE=100%k∑kj=12∣∣Pj?Aj∣∣∣∣Aj∣∣+∣∣Pj∣∣（22）其中k是样本数量，Aj是实际值，Pj是预测值。4 结果和讨论4.1 数据集描述本研究使用了2017年1月1日至2024年4月30日期间从印度泰米尔纳德邦收集的每小时需求和天气数据。整个期间的原始每小时需求（以MW为单位），如图4所示。数据集中的能量和气象特征包括DateTime、Hour、Year、Day_of_weeknumber、time_idx、Is_Weekend、Hourly Demand Met、temperature_2m、wind_direction_10m、relative_humidity_2m、dew_point_2m、apparent_temperature、precipitation、rain、windspeed_10m、weathercode和shortwave_radiation，如表2所列。数据集被分为训练集、验证集和测试集，比例分别为80:10:10。训练集、验证集和测试集的大小分别为51207、6234和6234。图4显示了2017–2024年的每小时需求（以MW为单位）。表2数据集属性规格目标变量每小时电力需求气象变量温度、相对湿度、露点、表观温度、降水量、降雨量、weathercode、风速、风向和短波辐射日历特征日期、星期几、月份中的日期、是否为周末数据集大小（实例数）64,248格式CSV时间覆盖范围2017年1月1日至2024年4月30日时间范围每小时数据集描述。检查数据集以评估缺失值并确保数据完整性。特征工程捕捉时间模式和季节性偏差。MVMD是一种有效的特征工程方法，可以处理原始数据中的复杂、重叠、非平稳趋势和季节性成分。MVMD生成的IMFs和包含在TFT中的日历特征可以实现稳健和准确的预测。用于多变量变分模式分解（MVMD）和时间融合变换器（Temporal Fusion Transformer）的参数和组件的总结在表3中呈现。表3模型参数详情多变量变分模式分解（MVMD）nummodes 3alpha 2000容忍度le-3采样率 1Tau 0初始化 1时间融合变换器（TFT）输入特征历史每小时需求（以MW为单位）、天气特征和时间基础特征最大编码器长度 168（过去7天）最大预测长度 24（接下来24小时）注意力层带有多头时间注意力的门控残差网络激活高斯误差线性单元（GELU）序列建模基于LSTM的编码器-解码器优化器Adam学习率 0.0003丢弃率 0.1隐藏大小 32注意力头数 4周期 50指标MAE、RMSE、MAPE和sMAPE所提出模型中MVMD和TFT的模型参数设置。4.2 模型开发和实验评估最初，使用时间戳将每日每小时负载与天气数据聚合并对齐到time_idx。在时间序列数据集中检测到“每小时需求”（以MW为单位）和气象变量的异常值，以识别可能导致失真的数据点。使用最小-最大缩放（范围[0, 1]）对数据进行标准化，以确保均匀缩放并改善收敛性。使用四分位数范围（IQR）作为观察边界来识别异常值：Q1和Q3的1.5 × IQR。为了处理异常值，使用24小时滚动窗口计算每个数据点周围的中位数和标准差，以识别异常值、减少噪声并避免极端偏差。相关性矩阵描述了其他特征与目标变量（每小时需求）之间的相关性。使用皮尔逊相关系数（PCC）识别了与目标变量[每小时需求（以MW为单位）最相关的特征及其关联，如图5所示。由于其简单性、速度和在识别特征之间的强线性关系方面的有效性，PCC被用于初始特征排名。它是一种优秀的初始特征选择方法，并且比其他技术计算速度更快。通过选择与皮尔逊相关系数高度相关的特征，提高了模型效率。特征选择减少了冗余并提高了模型的泛化能力。图5显示了特征与目标变量之间的相关性。为了平衡分解质量，仔细选择了MVMD参数，以确保准确性和计算效率。为了避免欠分解和过分解，模式数（k）设置为3，而收敛容忍度（le-3）和均匀初始化支持稳定的收敛。惩罚因子（alpha = 2000）确保了模式混合的减少和频率分离的稳定性。基于与目标变量的相关性，选择了最显著的12个特征，包括temperature_2m（通道1）、relative_humidity_2m（通道2）、Year（通道3）、time_idx（通道4）、Hour（通道5）、shortwave_radiation（通道6）、windspeed_10m（通道7）、weathercode（通道8）、precipitation（通道9）、Is_weekend（通道10）、Day_of_WeekNumber（通道11）和winddirection_10m（通道12），使用多变量变分模式分解生成内在模式函数（IMFs）。通过将特征分解为基于频率的模式，保留了变量之间的依赖性，从而降低了信号复杂性。MVMD的自适应分解支持非平稳和非线性多变量信号。由于Time Fusion Transformer能够处理异构特征并提供可解释的结果，因此使用它来训练和预测模型。为了提高模型性能，对Time Fusion Transformer的超参数进行了调整。使用GOA优化算法（GOA）对Time Fusion Transformer进行了超参数调整，这是一种基于GOAT行为的元启发式算法。根据实际考虑确定了最优的GOA参数。GOAT的种群大小为5，迭代次数设置为10，这在充分探索超参数搜索空间和计算复杂性之间取得了平衡。搜索空间包括hidden_size（32, 64）、dropout（0.1, 0.3）、学习率（0.001, 0.002）和注意力头数（2, 8），以及20个周期，以平衡模型复杂性和泛化能力。该算法系统地搜索最小化定义目标函数的最优超参数组合，基于TFT模型的最小验证损失。确定的最优超参数如下：隐藏大小：64，丢弃率：0.1，学习率：0.002，注意力头数：4。使用确定的最佳超参数重新训练了MVMD-TFT，结果表明MVMD-TFT-GOA模型的性能优于其他模型。图6给出了MVMD-TFT、MVMD-TFT-GOA模型与其他比较模型的实际值与预测值对比图。(a) RNN。(b) GRU。(c) TCN。(d) Attention_RNN。(e) Attention_GRU。(f) Attention_TCN。(g) Attention_LSTM。(h) CNN_Attention_BiLSTM。(i) MVMD–TFT。(j) MVMD–TFT–GOA。使用MAE、MAPE、RMSE和sMAPE评估了所提出的MVMD-TFT-GOA模型与其他比较模型RNN、GRU、TCN、Attention-RNN、Attention-LSTM、Attention-GRU、Attention-TCN和CNN-Attention-BiLSTM的测试误差指标。表4列出了所提出模型和其他比较模型的测量误差值。结果表明，所提出的模型（MVMD-TFT-GOA）在各种评估指标上提高了预测精度。MVMD-TFT-GOA与MVMD-TFT相比，MAPE降低了1.16%。同样，RMSE降低了4.03%，MAE降低了6.41%，sMAPE降低了6.41%。这表明它在绝对误差和相对误差指标上都提高了性能，表明它不仅减少了预测误差的幅度，还提高了比例精度，证实了其鲁棒性。表4模型性能评估指标RMSE MAE MAPE (%) sMAPE (%)MVMD-TFT-GOA 0.090 30.073 14.42 12.31MVMD-TFT 0.094 10.078 14.59 13.14CNN-ATTN-BiLSTM 0.102 0.075 14.83 12.66ATTN-GRU 0.103 30.074 15.21 12.76ATTN-LSTM 0.105 50.077 16.23 13.29RNN 0.106 10.078 14.94 13.29ATTN-RNN 0.106 10.080 15.96 13.66GRU 0.106 40.077 15.21 12.89TCN 0.116 40.091 18.69 15.75ATTN-TCN 0.156 20.13 23022.86所提出模型与其他比较模型的性能比较。图7展示了所提出模型与其他模型在未来24小时内的实际需求与预测需求的对比图。基于与广泛使用的基于种群的粒子群优化（PSO）的比较，选择了GOA优化进行超参数调整。超参数搜索空间的使用方式与GOA优化算法类似，以确保无偏比较。如表5所示，GOA优化算法（GOA）实现的误差指标低于PSO。在本研究中，我们提出了MVMD-TFT-GOA模型，该模型将原始的每小时能源需求数据（Hourly Demand Met）与天气特征相结合，以提高短期负荷预测的性能。在数据清洗和标准化之后，我们使用了皮尔逊相关系数（Pearson's Correlation Coefficient, PCC）来选择与目标变量线性关系最强的12个重要特征。多变量变分模态分解（Multivariate Variational Mode Decomposition, MVMD）被用来有效捕捉输入序列中的多变量依赖性，将每小时需求数据与重要的天气和日期相关特征结合起来。MVMD能够很好地适应变化的趋势和快速的波动。生成的模态被用作训练和验证TFT（Time-Frequency Transformation, TFT）的输入。训练和验证完成后，模型使用最佳时间融合变换器（best-Temporal Fusion Transformer）进行了测试，并通过MAE（Mean Absolute Error）、RMSE（Root Mean Square Error）、MAPE（Mean Absolute Error Percentage）和sMAPE（scaled Mean Absolute Error Percentage）等指标进行了评估。为了提升模型性能，我们采用了遗传运算算法（Genetic Optimization Algorithm, GOA）来搜索TFT的最优超参数。找到最佳超参数后，TFT使用这些参数进行训练，结果显示其性能优于其他模型：MAE为0.073、MAPE为14.42、RMSE为0.0903、sMAPE为12.31。GOA算法能够更快地找到搜索方向，并且收敛速度比进化算法更快。最后，我们使用SHAP（Shapley Impact Explanation）来解释结果，以确保透明度和可操作的洞察力。通过SHAP分析，我们识别出了对模型预测影响最大的前10个特征。这些特征包括每小时能源需求（Hourly Demand Met，单位为兆瓦）、相对湿度（relative_humidity_2m）的模式3、风向（winddirection_10m）的模式1_12、温度（temperature_2m）的模式1和模式3、短波辐射（shortwave_radiation）的模式1和模式3、天气代码（weathercode）的模式1、风速（windspeed_10m）的模式3和模式2、降水（precipitation）的模式1、相对湿度（relative_humidity）的模式2、以及短波辐射（shortwave_radiation）的模式6的模式1等。这些特征对于模型的预测具有重要影响。

结论与未来改进：
本研究提出了MVMD-TFT-GOA模型，它通过结合原始每小时能源需求数据和天气特征，在短期负荷预测中取得了更好的性能。在数据清洗和标准化之后，我们使用皮尔逊相关系数（PCC）选出了与目标变量线性关系最强的12个重要特征。多变量变分模态分解（MVMD）有效地捕捉了输入序列中的多变量依赖性，将每小时需求数据与重要的天气和日期相关特征结合起来。MVMD能够很好地适应变化的趋势和快速的波动。生成的模态被用作TFT的输入进行训练和验证。经过训练和验证后，我们使用MAE、RMSE、MAPE和sMAPE等指标对模型进行了评估。为了提升性能，我们采用了遗传运算算法（GOA）来寻找TFT的最优超参数。找到最佳超参数后，TFT使用这些参数进行了训练，结果显示其性能优于其他模型：MAE为0.073、MAPE为14.42、RMSE为0.0903、sMAPE为12.31。GOA算法能够更快地找到搜索方向，并且收敛速度比进化算法更快。最后，我们使用SHAP来解释结果，以确保透明度和可操作的洞察力。通过SHAP分析，我们识别出了对模型预测影响最大的前10个编码器特征，并使用这些特征对模型进行了训练。结果表明，模型的性能得到了提升：MAE为0.0627、MAPE为13.32、RMSE为0.0856、sMAPE为11.12。MVMD-TFT-GOA模型的集成性能优于其他对比模型，这得益于其各个组分的强大作用。MVMD分解通过提高输入特征的质量，有效减少了噪声并捕捉了多尺度的时间模式。TFT中的注意力机制（attention mechanism）捕捉了短期和长期的依赖性，关注所有特征和时间步骤，从而增强了模型学习复杂非线性关系的能力。通过比较MVMD-TFT和MVMD-TFT-GOA的结果，可以看出GOA能够优化TFT的超参数，从而提高收敛速度。尽管所提出的模型表现良好，但它仍存在一些局限性。该模型在泛化到受天气条件和负荷变化影响的其他地区方面还有改进空间。未来的研究将专注于计算优化和多区域验证，以提高模型的实际应用能力。作为未来的改进措施，可以考虑使用状态空间模型（state-space model）来处理更长的序列，这比线性复杂的变换器模型更为有效。需要注意的是，变换器模型中的注意力机制计算成本较高；因此，也可以考虑使用无注意力的变换器模型作为替代方案。

热点排行