综述：图强化学习在电网中的应用：一项全面调查

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Energy and AI》：Graph reinforcement learning for power grids: A comprehensive survey

【字体：大中小】 时间：2026年01月04日 来源：Energy and AI 9.6

编辑推荐：

　　本综述系统梳理了图强化学习（GRL）在电力系统中的前沿应用，重点探讨了图神经网络（GNN）与强化学习（RL）相结合如何提升电网的表征学习与决策能力。文章深入分析了GRL在输电网（拓扑控制）和配电网（电压控制）等核心场景中的方法论（如GCN、GAT、GraphSAGE等架构与PPO、SAC、DQN等RL算法），并指出其虽在仿真中展现出应对不确定性和噪声数据的潜力，但目前仍处于概念验证阶段。综述最后强调了实现真实世界应用所面临的开放性挑战与未来方向。

引言

随着可再生能源占比和分布式发电的不断增加，电力系统正经历一场深刻的范式转变。传统的电网运行方法在灵活性方面存在不足，难以应对由此带来的复杂性挑战。在此背景下，深度学习技术，特别是图神经网络（GNN），因其能够从图结构数据中学习而成为一种有前景的解决方案。当与强化学习（RL）相结合时，图强化学习（GRL）可作为控制方法来确定补救措施。这篇综述旨在分析GRL如何改善电网应用中的表征学习和决策过程，重点关注输电网和配电网。

电网基础、图神经网络与强化学习基础

电网基础

电网通常分为输电网和配电网两个层级。输电网负责远距离输送大量电能，其运行目标通常是达到N-1安全准则，即任一元件故障时系统仍能保持安全状态。其结构多为网状，具有冗余性。配电网覆盖区域较小，传统上为辐射状结构，正经历从单向到双向潮流的转变，电压波动问题突出。电压控制是配电网的核心任务之一。

图神经网络

GNN是专门为处理图结构数据而设计的神经网络，可以视为卷积神经网络（CNN）在非欧几里得数据上的推广。其核心思想是消息传递，即每个节点通过聚合其邻居的信息来更新自身的嵌入表示。常见的GNN架构包括空间图卷积（如GCN）、GraphSAGE（通过采样和聚合邻居特征）、图注意力网络（GAT，引入注意力机制权衡邻居重要性）以及谱图卷积（基于图信号处理理论）。GNN的训练常采用结合了物理约束（如基尔霍夫定律）的物理信息损失函数，以学习更符合实际物理规律的解。GNN在电网应用中面临过平滑和过挤压等挑战，但通过残差连接、特定架构设计等方法可以得到缓解。相较于传统电力潮流计算方法，GNN具有线性计算复杂度，在处理大规模电网时展现出显著的速度优势。

强化学习

强化学习关注智能体如何通过与环境的交互学习最优决策策略以最大化累积奖励。其核心框架是马尔可夫决策过程（MDP），包含状态（S）、动作（A）、奖励（R）、状态转移函数（T）等要素。RL算法主要分为无模型和基于模型的方法。无模型方法包括：

•
价值学习：如Q-Learning、Deep Q-Network (DQN)，学习状态-动作价值函数。
•
策略学习：直接学习策略函数，适用于连续动作空间。
•
演员-评论家方法：结合价值函数和策略函数，如近端策略优化（PPO）、深度确定性策略梯度（DDPG）、软演员-评论家（SAC）等。

基于模型的方法如蒙特卡洛树搜索（MCTS），通过模拟未来状态进行规划，例如AlphaZero、MuZero等算法。

GRL将GNN作为强大的特征提取器，用于编码电网的图结构状态，从而增强RL智能体对电网复杂关系的理解，实现更智能的决策、更好的适应性以及跨场景的泛化能力。

输电网的图强化学习

输电网控制，特别是拓扑控制（通过改变变电站开关状态来调整网络结构），是一个大规模、非线性、非凸的组合优化问题。传统优化方法面临计算复杂性和实时性挑战。GRL在此领域的优势在于能够快速提供高质量、可行的解决方案。

RL框架

•
奖励函数：通常围绕三个目标设计：(1) 电网稳定与生存，如惩罚线路过载、鼓励长时间稳定运行；(2) 电网效率，如最大化供电量与发电量之比（L2RPN评分）；(3) 运营约束，如结合发电调度成本和物理约束违反惩罚。
•
动作空间：主要是拓扑动作（开关操作），有时也包括再调度（调整发电机出力）。由于动作空间巨大，通常采用动作掩码、分层控制或动作空间缩减技术。
•
状态表示：通常基于Grid2Op环境提供的信息，包括电网拓扑、发电机/负荷功率、线路潮流、电压等，并建模为图。

整体方法与RL算法

•
单体智能体与动作空间管理：早期工作使用带有安全约束层或动态动作掩码的DQN或PPO等算法，确保探索的安全性。
•
基于规划的策略：利用MCTS结合GNN预测模型（作为世界模型）来智能探索动作空间，选择最优动作序列。
•
分层与多智能体分解：将复杂问题分解，例如高层智能体决定目标拓扑，底层智能体执行具体操作；或按电网组件（如线路、变电站）分配智能体，通过共享GNN实现协同。
•
结合模仿学习的混合方法：利用专家演示数据对智能体进行预训练（如DQfD），加速学习过程并提高样本效率。

图嵌入

•
图表示：最常用的是Grid2Op默认的图结构，其中节点代表负载、发电机和线路端点，边代表连接关系。也有研究探索了变电站图、元件图以及线图等不同表示方法，发现更精细的表示通常性能更好。
•
GNN架构：GCN是常用基线。GAT因其能关注关键节点/边而显示出性能优势。Transformer架构的GNN也有应用。对于需要泛化到不同拓扑的场景，GraphSAGE被证明有效。
•
GNN在RL框架中的作用：最常见的是作为共享的状态编码器，为策略（演员）和价值（评论家）网络提供输入。也有工作将GNN用作预测模型（世界模型）或通过无监督学习预训练特征提取器。

实验与评估

大多数方法在Grid2Op环境下的IEEE标准测试系统（如14节点、118节点）上进行评估。性能指标包括平均生存步数、L2RPN评分、电压偏差、网损等。GRL方法通常优于非图结构的DRL方法，并在处理噪声和部分观测数据时表现出更强的鲁棒性。

讨论

当前GRL研究主要依赖于Grid2Op仿真环境，这与真实电网存在差距（如模型简化、数据合成）。未来需要更真实的基准测试和标准化评估协议。研究方法呈现碎片化，需要将各种创新（如图表示、高级算法、模仿学习）进行整合。需要根据具体问题（拓扑控制 vs. 再调度）选择合适的RL算法家族。最终部署需要解决安全性、可解释性以及人机协同决策等问题。

配电网的图强化学习

配电网电压控制是GRL的另一重要应用领域，主要应对分布式能源接入带来的电压波动问题。

运行控制

•
RL框架：奖励函数通常关注电压偏差最小化，并可能结合网损、设备动作成本、可再生能源利用率等多目标。动作主要是调整光伏逆变器的无功功率（Q），以及储能系统（ESS）的有功/无功功率、电容器组投切等。状态包括电压、功率注入等测量值。多智能体方法常用于分区电网或微电网，智能体代表不同区域，采用集中式训练分布式执行（CTDE）或完全分布式训练与执行（DTDE）框架。算法多采用演员-评论家类方法，如PPO、SAC及其多智能体变体。
•
图嵌入：图表示通常以节点为母线，边为线路。GNN架构多样，包括GCN、GAT、谱GCN，以及一些时空GNN模型（用于捕捉时间动态）。有的工作使用物理信息损失或 surrogate 模型来辅助训练。GNN的作用也各不相同，有的用于演员网络，有的用于评论家网络，有的则作为共享的特征提取器。
•
实验与评估：在IEEE配电网测试系统（如33节点、123节点）上进行。GRL方法在降低电压偏差、减少网损、应对拓扑变化和噪声数据方面表现出色，优于传统优化方法和非图DRL基线，显示出良好的泛化能力和鲁棒性。

紧急模式

在极端情况下，GRL也用于负载削减和系统恢复。

•
负载削减：奖励函数鼓励电压恢复和系统稳定，同时最小化切负荷量。动作通常是二进制决策（切或不切）。采用DQN或PPO等算法。GNN架构包括GCN、GraphSAGE和图胶囊网络，用于从电网状态中提取特征，帮助智能体做出决策。评估显示GRL方法能有效减少切负荷量，并适应不同的故障位置。
•
系统恢复：在发生停电后，GRL可用于指导电网元件的重新连接，快速恢复供电。

讨论

配电网GRL研究同样显示了GNN在提升模型鲁棒性和泛化能力方面的优势。奖励函数的多目标平衡、最佳图表示和GNN架构的选择、以及从集中式到分布式控制的演进是重要议题。然而，研究仍大多基于简化模型和合成数据，需要向更真实的场景推进。

其他应用

能源市场

GRL可用于优化传统电力市场中的竞价策略或点对点（P2P）电力交易。多智能体GRL方法能够考虑市场参与者之间的空间关联，在IEEE测试系统上的仿真表明其能提高市场总体效益和可再生能源消纳能力。

电力通信网络

GRL可用于优化电网监控和控制信息的路由策略，降低通信延迟和丢包率，确保关键信息的可靠传输。

电动汽车应用

GRL被用于电动汽车充电站推荐、充电管理和路径规划，同时考虑交通网络和配电网的约束。通过构建包含交通节点、充电站和电网节点的异构图，利用GAT等架构学习特征，并结合分层RL等方法，实现多目标优化（如降低用户成本、缩短时间、减轻电网负担）。

结论与展望

GRL为电网控制提供了一种强大的新范式，其核心优势在于处理高维、非线性、组合优化问题的速度和可扩展性，尤其在应对不确定性方面潜力巨大。GNN的引入显著提升了RL智能体对电网结构的理解和决策的鲁棒性。

然而，该领域仍处于概念验证阶段，面临从仿真到实际应用的关键挑战：

1.
仿真与现实差距：需要更真实的大规模网格模型、运行数据和标准化的基准测试。
2.
方法整合：需要将分散的创新（如图表示、高级算法、模仿学习、安全约束等）系统性地整合到统一框架中。
3.
安全与可信赖：必须发展更严格的安全RL方法、可解释性技术和多目标优化策略，以建立运营人员的信任。
4.
部署挑战：实际部署还需考虑法规符合性（如欧盟AI法案）、数据延迟、系统集成以及持续学习等工程现实问题。

尽管挑战重重，GRL因其固有的可扩展性和适应性，仍然是管理未来高比例可再生能源电网的一种极具前景的技术路径。未来的研究需要学术界和工业界的紧密合作，共同推动GRL从实验室走向实际电网应用。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号