能源行业在向可持续性转型过程中面临诸多挑战,如温室气体排放、长距离传输过程中的能量损失以及对化石燃料的高度依赖。具有双向通信功能的智能电网使得分布式能源资源(DER)能够通过本地化的微电网(MG)得到整合(Dragi?evi?等人,2021年;Antonopoulos等人,2020年)。这些微电网通常结合了传统的可调度资源(如柴油发电机DG)和可再生能源(如光伏PV、风力涡轮机WT)以及储能系统(ESS),从而实现更高效和环保的电力管理。
然而,整合DERs引入了几个挑战:(1)有效管理可再生能源的不确定性;(2)确保微电网的运行稳定性;(3)灵活协调需求响应(DR)计划。这些挑战是相互关联的,因为可再生能源的间歇性直接影响微电网的稳定性(Yuan等人,2023年;Lin等人,2022年),进而影响需求侧管理策略的效率。此外,传统DG的管理还带来了一个关键的混合决策问题,需要同时做出离散的单元承诺决策(开启/关闭状态)和连续的功率调度决策。这种混合控制问题涉及离散和连续的动作空间,增加了微电网能源管理系统的复杂性,尤其是在与间歇性可再生能源和响应性负载协调时(Alamir等人,2023年;Lu等人,2024年)。
实时定价(RTP)机制通过价格激励来管理不确定性并协调需求,从而应对这些挑战。RTP鼓励用户调整能源使用模式,优化负载分配和社会福利(Kim和Kim,2024年;Kong等人,2023年;Wang等人,2024年)。现有的RTP研究主要集中在两类:(1)供需平衡的优化模型(Li等人,2021年;Li等人,2022年;Qu等人,2022年;Yuan等人,2021年);(2)用于交互式市场动态的博弈论模型(Dai等人,2021b年;Dai等人,2021a年;Gao等人,2024年)。
DR计划采用集中式或分布式协调模型。集中式模型可以直接控制智能家居设备,实现详细优化,但计算成本较高(Nawaz等人,2022年)。分布式模型则分散决策权,减轻了微电网中央控制器(MGCC)的计算负担,并提高了用户隐私性(Ye等人,2021年)。这些模型被构建为双层优化问题,上层操作者设定激励措施,下层用户调整消费行为(Zhang等人,2022a年;Luo和Gao,2025年)。
双层规划模型在RTP机制中体现了层次化的交互关系,特别是系统操作者与市场参与者之间的领导者-追随者关系(He等人,2025年)。Karush-Kuhn-Tucker变换和启发式算法等简化了解决过程(Huang等人,2021年;Yuan等人,2021年)。然而,当扩展到包含大量DERs的现代电力系统时,嵌套的优化结构会导致显著的计算复杂性。传统优化方法在处理高维不确定性时面临计算负担、能力限制以及数据驱动适应性不足的问题。
强化学习(RL)通过在动态环境中具备适应性来应对这些挑战,无需显式的系统建模。RL方法在战略市场竞价、经济调度和动态定价等领域取得了成功(Qi等人,2022年;Fang等人,2021年;Wu等人,2022年;Lu等人,2021年)。Wan等人(2021年)应用Q学习激活了需求灵活性,而Shafie-Khah等人(2020年)开发了可扩展的去中心化DR机制。多智能体强化学习(MARL)使多个智能体能够协调且自主地进行决策(Zhang等人,2023年;Yan等人,2022年),同时处理来自间歇性可再生能源的非平稳动态(Zhu等人,2023年),并保持系统整体目标(Alfaverh等人,2023年)。
最近的研究包括针对随机双层RTP模型的分布式在线算法,将分布式RL集成到双层马尔可夫决策过程(MDP)框架中(Zhang等人,2022b年)。预测分析和鲁棒控制策略用于应对可再生能源的不确定性(Gholizadeh等人,2021年)。针对微电网管理中的复杂决策空间,Lu等人(2024年)提出了一种混合动作DRL方法,结合了混合动作空间和长短期记忆(LSTM)网络以提高时间预测能力。深度确定性策略梯度(DDPG)方法通过结合深度Q学习和演员-评论家方法,在连续控制问题中展现出潜力(Kong等人,2023年;He等人,2025年),为微电网管理中的混合决策空间提供了解决方案。碳交易机制为可再生能源发电提供了激励,同时平衡了经济和环境目标(Liu等人,2022年;Xu等人,2024年;Mu等人,2023年)。
然而,现有研究往往关注范围较窄,缺乏同时解决可再生能源不确定性、混合决策空间和层次化交互的综合性框架,如表1所示。我们的工作与现有方法的不同之处在于:(1)采用基于学习的控制方法,避免了详细的系统建模需求;(2)使用集成网络处理混合决策空间,而非单独的架构;(3)将预训练的预测集成到状态表示中,以主动应对可再生能源的不确定性。为了填补这些空白,本研究做出了三项贡献:
- 1.
我们开发了一个双层定价框架,将碳交易机制整合到领导者-追随者结构中。
- 2.
我们提出了一种结合Gumbel-Softmax重参数化的混合动作DDPG算法,用于离散-连续联合优化。
- 3.
我们设计了一个基于LSTM的预测模块,将其集成到RL状态表示中,以主动应对可再生能源的不确定性。
本文的结构如下:第2节介绍系统模型;第3节阐述双层问题的MDP建模;第4节介绍算法设计,开发双层MDP和算法;第5节展示数值结果和性能分析;第6节总结并讨论未来方向。