热带气候下低碳商业建筑的集成可再生能源与需求侧管理:结合预测控制的多智能体强化学习架构的基准研究
《ENERGY AND BUILDINGS》:Integrated Renewable Energy and Demand-Side Management for Low-Carbon Commercial Buildings in Tropical Climates: A Matched-Configuration Benchmark with Predictive Control and a Multi-Agent DRL Architecture
【字体:
大
中
小
】
时间:2026年05月10日
来源:ENERGY AND BUILDINGS 7.1
编辑推荐:
阿布·海纳医学博士沙蒂尔|穆罕默德·沙克里|诺什沙德·阿明|纳菲兹·艾哈迈德·奇斯蒂
美国国际大学-孟加拉分校电气与电子工程系,408/1,库拉托利,达卡,1229,孟加拉国
**摘要**
商业建筑占全球能源使用量的很大一部分,特别是在热带地区,那里的高冷却需求、间
阿布·海纳医学博士沙蒂尔|穆罕默德·沙克里|诺什沙德·阿明|纳菲兹·艾哈迈德·奇斯蒂
美国国际大学-孟加拉分校电气与电子工程系,408/1,库拉托利,达卡,1229,孟加拉国
**摘要**
商业建筑占全球能源使用量的很大一部分,特别是在热带地区,那里的高冷却需求、间歇性的可再生能源以及电网不稳定性使得能源管理变得复杂。在基于可再生技术的楼宇能源管理系统(BEMS)文献中,一个持续存在的问题是,所提出的先进控制器往往是与在不同物理资产上运行的基于规则的控制器进行比较,从而混淆了可再生能源硬件和控制策略的贡献。为了解决这个问题,我们引入了一个匹配配置基准(RBC-Full-RE),该基准使用与所提出系统相同的可再生能源资产组合:250千瓦的太阳能光伏阵列、500千瓦时的电池、200平方米的太阳能热系统、800千瓦的热泵以及30千瓦的生物气热电联产(CHP)系统。我们将这种匹配基准应用于孟加拉国吉大港一座10层、面积为12500平方米的商业办公楼,并使用校准的3R2C热模型和与当地气候相匹配的合成天气数据。全年模拟结果显示:在相同的基于规则的控制下,可再生能源硬件使年度电网电力消耗减少了28.2%(基准为2,030兆瓦时→RBC-Full-RE为1,457兆瓦时),而MPC进一步减少了2.8个百分点(1,411兆瓦时),总共相对于全电力基准减少了30.5%。高峰需求下降了34.3%(从612千瓦降至402千瓦);室内舒适度在ASHRAE 55 Cat. II标准下提高了94.8%至97.8%。按照2024年的价格计算,简单的投资回收期为12.1年。我们还指定了一种具有MPC安全过滤功能的安全多智能体DRL控制器(SMA-DRL-MPC);MPC-Full-RE的结果为所提出的DRL扩展设定了一个原则性的最低改进目标。模拟代码已公开发布,以便他人重现实验结果。
**引言**
商业建筑消耗了全球大约40%的初级能源,并导致近30%的温室气体排放[1]、[2]。在快速发展的热带经济体中,这一比例的增长速度超过了全球平均水平,这主要是由于持续的电气化、持续的高温和高湿度增加了冷却负荷,以及对高效建筑围护结构和设备的投资有限。孟加拉国就是一个典型的例子:年度电力需求增长了7-10%[3],该国的沿海经济中心经常面临电网不稳定问题,而吉大港则拥有较高的太阳辐射量(平均每天5.0-5.3千瓦时/平方米[4]、[5])和持续的70-85%相对湿度,从而导致较高的潜热负荷,传统基于规则的楼宇能源管理系统(BEMS)难以应对这些挑战。通过更好的控制和现场分布式能源资源(DERs)来解决这一问题在原理上是可行的。太阳能光伏、电池储能、太阳能热系统、热泵和生物气热电联产(CHP)单元都是成熟的技术,具有明确的成本轨迹。问题在于如何将它们与建筑物的热需求协调起来,以获得比基于规则的调度更高的效率。最近在模型预测控制(MPC)和深度强化学习(DRL)方面的进展在模拟中显示出了潜力,但相关文献存在两个持续存在的问题,这些问题促使我们进行了这项研究。
**文献中的问题**
许多已发表的BEMS研究将基于DRL或MPC的先进控制器与在没有现场可再生能源的建筑上运行的基于规则的控制器进行比较,并将由此带来的电网电力减少量归因于控制器的贡献。这混淆了两个效应:物理资产的贡献和控制策略的贡献。早期版本的手稿审稿人正确指出了这一混淆。解决这一问题需要一个匹配配置基准——即在与所提出系统相同的物理资产上运行的基于规则的控制器,这是本文方法论上的核心贡献。
**三个持续的挑战**
即使进行了清晰的比较,三个持续存在的挑战仍然阻碍了先进BEMS在真实建筑中的广泛部署:
1. **安全性和约束满足**:标准的DRL探索在训练过程中可能会产生违反舒适度的行为,偶尔在部署后也会出现这种情况,当策略遇到分布变化时。最近的研究将MPC作为安全过滤器整合进来[6]、[7],但大多数此类混合系统仍然是单智能体的,无法在多个协调资产之间强制执行联合约束。
2. **整体可再生能源集成**:大多数研究将暖通空调(HVAC)、光伏、电池和热系统视为单独的优化问题[8]、[9];很少有研究在统一的BEMS中联合优化所有DERs,从而忽略了跨子系统的协调价值[10]。
3. **热带气候验证**:大多数BEMS研究都是在温带气候下进行的。热带气候带来了季风引起的太阳辐射变化、高潜热负荷和不稳定的电网条件[11]、[12];在这些条件下进行的验证很少。
**先前的DRL基BEMS工作**
先前的DRL基BEMS工作可以分为四个方向:
- **单智能体DRL用于HVAC**:Wang等人[13]使用基于GNN的价值函数在多区变风量(VAV)系统中实现了15%的节能效果。Guo等人[14]和Liao等人[15]将其扩展到分层演员-评论家结构,报告了18-22%的节能效果。这些研究都没有明确强制执行舒适度或运行约束;违规行为仅通过奖励 shaping 来处理。
- **多智能体DRL用于建筑**:Pinto等人[16]和Shen等人[17]协调了建筑群中的热存储(节省了15-23%的能源)。Wang等人[18]、Liu等人[19]和Kumari等人[20]探索了带有集中评论家的分散执行。这些工作展示了多智能体的可扩展性,但通常分别针对HVAC或分布式能源资产,而不是同时考虑两者,并且安全性是通过惩罚项来处理的,而不是正式的预测。
- **DRL-MPC混合体**:Arroyo等人[21]为单区办公室提出了RL-MPC(节省了15%的能源)。Wang等人[6]将MPC用作单个DRL智能体的安全过滤器(节省了18%)。Chen等人[22]在演员内部嵌入了可微分的MPC策略(节省了21%的能源)。Michailidis等人[7]提供了最新的综述。所有这些研究都使用单个智能体,并没有将MPC安全性与多智能体联合行动预测结合起来。
- **真实建筑验证和迁移学习**:Brandi等人[23]在真实建筑上部署了DRL(节省了11%的能源)。Coraci等人[24]、[25]在HiLo测试平台上展示了可扩展的在线迁移学习。Dey等人[26]使用逆向强化学习从历史数据中提取策略。
**本文的贡献**
与现有研究相比,本文做出了两个独特的贡献:
首先,它提供了一个方法论上清晰的匹配配置基准,将可再生能源硬件的贡献与先进控制的贡献分开——据我们所知,之前的热带建筑BEMS研究并未报告这种分解。其次,它指定了一个安全保障的多智能体DRL架构(SMA-DRL-MPC),在该架构中,MPC在联合行动层面进行预测,回放缓冲区存储经过MPC校正的行动,气候模型针对热带(高潜热负荷、季风调节)条件进行了参数化。大规模验证DRL扩展的工作被确定为未来的研究方向。
**方法论**
本节介绍了用于评估三种匹配配置控制器和指定所提出的SMA-DRL-MPC架构的模拟框架。该方法包括:
(i) 案例研究建筑配置,
(ii) 气候背景和天气合成,
(iii) 子系统模型,
(iv) 四层BEMS架构,
(v) 多智能体系统设计,
(vi) 状态和行动表示,
(vii) 奖励公式,
(viii) 多智能体DRL学习算法,
(ix) 基于MPC的
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号