通过深度强化学习增强的模型预测控制实现计算效率高的智能建筑能源管理

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年02月13日 来源：Energy and Buildings 7.1

编辑推荐：

　　模型预测控制与深度强化学习融合的分层框架在建筑能源管理中的应用，通过动态调整MPC超参数平衡控制性能与计算负担，实验表明计算时间减少75.8%且运营成本仅增加2.6%。

　　
随着全球能源结构向可再生能源转型加速，智能建筑能源管理系统（BEMS）的优化需求日益迫切。该领域面临的核心矛盾在于：模型预测控制（MPC）虽然能通过多目标优化实现高效能源管理，但其固定长预测周期和实时重优化机制导致计算负荷居高不下。据统计，传统MPC在大型建筑群应用时，其优化计算时间占系统总处理时间的比例高达78%，严重制约了边缘计算设备的部署。针对这一瓶颈，作者团队创新性地构建了基于深度强化学习的分层控制框架，通过解耦底层精确控制与高层元参数优化，在保证能效指标的前提下将计算耗时降低至原来的24.2%。

在系统架构层面，该框架采用双闭环控制策略。外环由DRL智能体构成，负责动态调整内环MPC的预测周期（H）和重优化频率（F），二者共同构成系统控制参数空间。这种设计突破了传统AMMPC方案对固定调整机制的依赖，通过建立马尔可夫决策过程（MDP）模型，将参数优化转化为状态-动作交互问题。DRL智能体通过构建包含建筑实时负荷、电池健康度、用户舒适度指数（TSI）和环境温度波动系数的复合状态空间，实现了对系统动态特性的全局感知。

技术实现方面，作者提出专家引导的近端策略优化（EPPO-AMMPC）算法。该方案创新性地引入双通道专家系统：第一通道由具有十年建筑自动化经验的工程师建立的控制参数映射表，第二通道采用LSTM网络动态学习建筑运行规律。这种混合指导机制使得DRL智能体在训练初期就能获得高置信度的参考参数，将训练周期从传统PPO算法的200万步缩短至35万步。实验数据显示，在相同的硬件配置下，该算法的推理速度比标准MPC快7.3倍，同时保持控制性能的98.7%冗余度。

在能效优化方面，系统构建了三维目标函数体系。X轴表征实时能源成本（含电价波动和电池充放电损耗），Y轴反映用户热舒适度（通过PMV-PPD模型量化），Z轴控制设备能耗均衡度。通过引入熵权-TOPSIS法进行多目标决策，系统在2023年夏季典型日运行中，实现综合目标值从传统MPC的0.87提升至0.92，同时将设备启停频次降低42%。特别值得注意的是，当遭遇突发性电价波动（±35%）时，DRL智能体可在83ms内完成控制参数重构，而传统固定周期MPC需要1200ms进行全周期重优化。

硬件部署测试表明，该框架在NVIDIA Jetson AGX Orin平台上实现稳定运行。通过动态调整预测周期（H）在3-15秒之间自适应变化，系统成功将平均计算耗时控制在传统MPC的18.7%以内。在2015年ASHRAE基准建筑模型中，对比实验显示：固定15秒预测周期的标准MPC需要87.3%的CPU资源用于优化计算；而采用DRL调参的AMMPC将计算资源占用率降低至16.2%，同时保持92.3%的能效指标。这种显著的资源优化源于DRL智能体对系统动态特性的精准捕捉——它能识别出建筑在过渡季节时段（11-3月）的负荷波动规律，将重优化触发频率从每日200次降至38次。

在用户热舒适度保障方面，系统开发了多模态反馈机制。通过部署分布式温度传感器网络（采样密度达0.5m2/个）和人体活动检测摄像头，实时构建三维热环境场模型。当检测到用户就座区域PMV值偏离舒适区（±0.5）时，DRL智能体会自动触发MPC进行局部微调，调整周期从原来的15秒缩短至3秒。这种智能触发机制使系统在极端温湿度波动（±8℃/±15%RH）条件下，仍能保持用户舒适度评分在0.8以上（标准PMV-PPD评分系统）。

关于约束处理，系统采用双层验证机制。外层通过DRL智能体预筛选出满足设备运行域（电压0.85-1.05p.u.，频率49.5-50.5Hz）的动作方案，内层MPC则进行精确的约束满足优化。这种设计使系统在连续控制变量空间（维度12）中，约束违反率从传统MPC的2.3%降至0.15%。在电池管理系统（BMS）中，通过引入衰减因子动态调整充放电阈值，使储能设备循环寿命延长至传统控制方案的1.8倍。

鲁棒性测试方面，系统在三种极端场景下均表现出优异性能：1）电网频率突变（±0.3Hz持续10分钟）；2）可再生能源出力预测误差达40%；3）用户行为模式突变（从办公模式切换至会议模式）。测试数据显示，在电网频率突降场景中，DRL智能体通过调整预测周期至5秒，在保障用户舒适度的前提下，将备用发电机启动次数从每分钟2.4次降至0.7次。面对预测误差，系统采用滚动时域误差补偿算法，使控制误差在可再生能源出力波动±50%时仍能维持1.2%以内的偏差。

该方法的经济效益在实测中同样显著。以某20万平米超高层建筑为例，部署后年综合节能达23.6%，相当于减少碳排放1.2万吨。计算成本方面，传统MPC每天产生约15GB优化日志，而新系统通过DRL智能体的参数预优化，将日志量压缩至2.8GB，同时保持优化轨迹的完整性和可追溯性。在算法层面，通过将MPC优化问题转化为DRL的奖励函数设计，成功将Q-learning的离散状态空间扩展到连续域，解决了传统DRL在连续控制问题中的维度灾难问题。

最后需要强调的是，该框架的普适性设计使其能快速适配不同建筑类型。通过模块化接口，系统可在72小时内完成从住宅到工业厂房的部署切换。在2024年冬夏两季的跨气候区测试中，系统控制性能保持稳定，验证了其气候适应能力。这种将传统控制理论优势与机器学习灵活性的有机融合，为智能建筑能源管理提供了新的技术范式，特别是在高并发、低延迟的边缘计算场景中展现出显著优势。

联系信箱：

粤ICP备09063491号

热点排行