通过混合行动强化学习,为微电网实现基于预测的增强型双层实时定价

《Engineering Applications of Artificial Intelligence》:Forecast-enhanced bilevel real-time pricing for microgrids via hybrid-action reinforcement learning

【字体: 时间:2026年02月15日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  分布式能源资源整合微网面临可再生能源间歇性、混合决策和分层协调挑战,本文提出基于LSTM预测与混合动作深度强化学习的双层实时电价框架,通过Gumbel-Softmax重参数化实现离散-连续联合优化,提升系统约束满足度与运行效率。

  
Jingqi Wang|Yan Gao|Youmeng He
上海科技大学管理学院,中国上海200093

摘要

将分布式能源资源整合到微电网中面临许多复杂挑战,包括可再生能源的间歇性、混合决策和分层协调。本文提出了一种基于预测增强的双层实时定价框架,该框架采用混合动作深度强化学习(DRL)算法,并结合了Gumbel-Softmax重参数化技术。该框架通过集成优化来管理离散的发电机承诺和连续的定价决策。我们的方法结合了长短期记忆(LSTM)预测技术来增强主动调度能力,并通过双层优化架构协调微电网中的各个节点。主要创新点包括:采用混合动作DRL算法和Gumbel-Softmax重参数化技术进行离散-连续联合优化;将基于LSTM的可再生能源预测集成到状态表示中。我们的DRL方法显著提升了系统性能,改善了约束满足度和运行效率,为复杂的混合动作能源优化问题提供了实用的解决方案。

引言

能源行业在向可持续性转型过程中面临诸多挑战,如温室气体排放、长距离传输过程中的能量损失以及对化石燃料的高度依赖。具有双向通信功能的智能电网使得分布式能源资源(DER)能够通过本地化的微电网(MG)得到整合(Dragi?evi?等人,2021年;Antonopoulos等人,2020年)。这些微电网通常结合了传统的可调度资源(如柴油发电机DG)和可再生能源(如光伏PV、风力涡轮机WT)以及储能系统(ESS),从而实现更高效和环保的电力管理。
然而,整合DERs引入了几个挑战:(1)有效管理可再生能源的不确定性;(2)确保微电网的运行稳定性;(3)灵活协调需求响应(DR)计划。这些挑战是相互关联的,因为可再生能源的间歇性直接影响微电网的稳定性(Yuan等人,2023年;Lin等人,2022年),进而影响需求侧管理策略的效率。此外,传统DG的管理还带来了一个关键的混合决策问题,需要同时做出离散的单元承诺决策(开启/关闭状态)和连续的功率调度决策。这种混合控制问题涉及离散和连续的动作空间,增加了微电网能源管理系统的复杂性,尤其是在与间歇性可再生能源和响应性负载协调时(Alamir等人,2023年;Lu等人,2024年)。
实时定价(RTP)机制通过价格激励来管理不确定性并协调需求,从而应对这些挑战。RTP鼓励用户调整能源使用模式,优化负载分配和社会福利(Kim和Kim,2024年;Kong等人,2023年;Wang等人,2024年)。现有的RTP研究主要集中在两类:(1)供需平衡的优化模型(Li等人,2021年;Li等人,2022年;Qu等人,2022年;Yuan等人,2021年);(2)用于交互式市场动态的博弈论模型(Dai等人,2021b年;Dai等人,2021a年;Gao等人,2024年)。
DR计划采用集中式或分布式协调模型。集中式模型可以直接控制智能家居设备,实现详细优化,但计算成本较高(Nawaz等人,2022年)。分布式模型则分散决策权,减轻了微电网中央控制器(MGCC)的计算负担,并提高了用户隐私性(Ye等人,2021年)。这些模型被构建为双层优化问题,上层操作者设定激励措施,下层用户调整消费行为(Zhang等人,2022a年;Luo和Gao,2025年)。
双层规划模型在RTP机制中体现了层次化的交互关系,特别是系统操作者与市场参与者之间的领导者-追随者关系(He等人,2025年)。Karush-Kuhn-Tucker变换和启发式算法等简化了解决过程(Huang等人,2021年;Yuan等人,2021年)。然而,当扩展到包含大量DERs的现代电力系统时,嵌套的优化结构会导致显著的计算复杂性。传统优化方法在处理高维不确定性时面临计算负担、能力限制以及数据驱动适应性不足的问题。
强化学习(RL)通过在动态环境中具备适应性来应对这些挑战,无需显式的系统建模。RL方法在战略市场竞价、经济调度和动态定价等领域取得了成功(Qi等人,2022年;Fang等人,2021年;Wu等人,2022年;Lu等人,2021年)。Wan等人(2021年)应用Q学习激活了需求灵活性,而Shafie-Khah等人(2020年)开发了可扩展的去中心化DR机制。多智能体强化学习(MARL)使多个智能体能够协调且自主地进行决策(Zhang等人,2023年;Yan等人,2022年),同时处理来自间歇性可再生能源的非平稳动态(Zhu等人,2023年),并保持系统整体目标(Alfaverh等人,2023年)。
最近的研究包括针对随机双层RTP模型的分布式在线算法,将分布式RL集成到双层马尔可夫决策过程(MDP)框架中(Zhang等人,2022b年)。预测分析和鲁棒控制策略用于应对可再生能源的不确定性(Gholizadeh等人,2021年)。针对微电网管理中的复杂决策空间,Lu等人(2024年)提出了一种混合动作DRL方法,结合了混合动作空间和长短期记忆(LSTM)网络以提高时间预测能力。深度确定性策略梯度(DDPG)方法通过结合深度Q学习和演员-评论家方法,在连续控制问题中展现出潜力(Kong等人,2023年;He等人,2025年),为微电网管理中的混合决策空间提供了解决方案。碳交易机制为可再生能源发电提供了激励,同时平衡了经济和环境目标(Liu等人,2022年;Xu等人,2024年;Mu等人,2023年)。
然而,现有研究往往关注范围较窄,缺乏同时解决可再生能源不确定性、混合决策空间和层次化交互的综合性框架,如表1所示。我们的工作与现有方法的不同之处在于:(1)采用基于学习的控制方法,避免了详细的系统建模需求;(2)使用集成网络处理混合决策空间,而非单独的架构;(3)将预训练的预测集成到状态表示中,以主动应对可再生能源的不确定性。为了填补这些空白,本研究做出了三项贡献:
  • 1.
    我们开发了一个双层定价框架,将碳交易机制整合到领导者-追随者结构中。
  • 2.
    我们提出了一种结合Gumbel-Softmax重参数化的混合动作DDPG算法,用于离散-连续联合优化。
  • 3.
    我们设计了一个基于LSTM的预测模块,将其集成到RL状态表示中,以主动应对可再生能源的不确定性。
本文的结构如下:第2节介绍系统模型;第3节阐述双层问题的MDP建模;第4节介绍算法设计,开发双层MDP和算法;第5节展示数值结果和性能分析;第6节总结并讨论未来方向。

章节摘录

系统模型

本节介绍了用于协调分布式能源资源的层次化微电网框架。该架构包括一个中央协调器和多个本地微电网,支持实时定价(RTP)和资源管理。

双层问题的MDP建模

为了解决双层优化的计算挑战,我们将问题重新表述为多智能体MDP框架。这种转换使RL技术能够处理微电网运营中的时间依赖性、不确定性和层次化决策结构。
双层MDP结构自然地模拟了电力市场中的领导者-追随者关系,其中微电网中央控制器(MGCC)设定价格,微电网(MGs)做出最优响应。混合动作架构处理离散和连续动作的混合问题。

算法设计

本节介绍了用于解决第3节中双层MDP问题的混合动作DDPG框架。该算法解决了微电网能源管理中的三个挑战:混合动作空间、可再生能源的不确定性以及分层协调。
图2展示了上层MDP,其中结合了基于LSTM的预测技术来增强状态表示,使MGCC能够优化离散的发电机承诺决策和连续的价格/调度变量,以适应可再生能源的不确定性。

仿真与结果分析

本节通过仿真评估了所提出的混合动作DDPG框架,仿真涵盖了微电网运营的关键特征,包括负载变化、可再生能源的间歇性和层次化决策。

结论

我们提出了一种用于微电网能源管理的双层混合动作DRL框架,通过离散-连续优化实现管理。Gumbel-Softmax重参数化技术实现了统一演员-评论家架构中的端到端梯度流动。在100微电网测试平台上的仿真实验表明,当碳交易活跃时,学习到的定价策略每日可实现1124.70人民币的社会福利。将LSTM预测器集成到状态表示中对于提高预测的韧性至关重要。

CRediT作者贡献声明

Jingqi Wang:撰写 – 审稿与编辑,撰写 – 原稿,可视化,验证,软件开发,方法论,正式分析,数据整理,概念化。Yan Gao:撰写 – 审稿与编辑,项目管理,方法论,研究调查,资金获取,正式分析,概念化。Youmeng He:可视化,研究调查,正式分析,数据整理,概念化。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。

致谢

本研究得到了国家自然科学基金(编号:72071130)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号