基于现场知识的强化学习方法，用于协同控制建筑物中的主动式和被动式热储能系统

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Energy Storage》：Field knowledge-informed reinforcement learning for synergistic control of active and passive thermal storages in buildings

【字体：大中小】 时间：2026年01月28日 来源：Journal of Energy Storage 9.8

编辑推荐：

　　HVAC系统协同控制中，基于领域知识的强化学习（FRL）方法通过物理受限模型模拟和动态奖励机制，有效提升复杂热能存储系统（含主动被动储热设施）的实时控制性能，在电价波动场景下优化度达26%，收敛速度和稳定性优于传统RL及模型预测控制。

徐若宇|刘晓晨|张涛|刘晓华

清华大学建筑学院建筑科学系，北京，100084，中国

摘要

作为脱碳电力系统中的关键需求灵活性资源，供暖、通风和空调（HVAC）系统需要适应各种动态条件的机制，例如实时电价和复杂的热力学动态。虽然强化学习（RL）在HVAC控制中具有潜力，但在处理具有主动和被动热储存设施（如水箱）以及建筑热质量的大型系统时仍面临挑战。本文提出了一种基于现场知识的强化学习（FRL）方法。首先，提出了一种基于历史数据驱动的物理受限状态空间模型作为高保真环境模拟器，以准确捕捉热力学动态并加速RL训练。其次，采用了一种基于动态势的奖励塑造技术，整合了专家知识，显著提高了收敛稳定性和速度。性能评估证实，FRL方法在各种具有挑战性的边界条件下（例如不同的主动-被动储存配置和波动的电价）表现出优越的协同控制能力。FRL方法的性能接近全局最优解，一致性地收敛到理论最佳结果的6%以内，并优于基线策略，包括基于规则的控制、实时模型预测控制和传统RL控制。特别是在主动和被动储存容量相当的情况下（容量比E_a/E_p在0.25到1.25之间），以及电价信号高度波动的情况下——这些条件代表了不断发展的脱碳电力系统——FRL在综合运营得分（考虑运营成本和不适度）方面至少实现了26%的优化提升。这项工作通过将现场知识整合到RL控制中，为解决大规模HVAC系统的复杂性提供了一种新方法，使RL能够应用于实际控制任务。

部分摘录

缩写词

ADP	近似动态规划
DQN	深度Q学习
FRL	基于现场知识的强化学习
HVAC	供暖、通风和空调
IRL	逆强化学习
LLM	大型语言模型
MARL	多智能体强化学习
MDP	马尔可夫决策过程
PPO	近端策略优化
PV	光伏
RL	强化学习
RLHF	基于人类反馈的强化学习
SAC	软演员-评论家算法
TD	时间差分
TD3	双延迟深度确定性策略

方法论

强化学习（RL）是一种强大的优化工具，即使在环境信息有限的情况下也能有效工作。然而，其基于样本的性质可能会减慢收敛速度并降低在复杂任务中的鲁棒性。此外，神经网络的数值不稳定性使得RL对网络架构、数据预处理和参数调整非常敏感。为了克服这些限制并提高RL在我们研究背景下的适用性，我们通过逆强化学习（IRL）和奖励塑造技术整合了专家知识。这旨在实现两个关键目标

环境验证

环境验证是通过输入与历史数据相同的动作序列来进行的，然后比较模拟器预测的温度曲线和现场测量的温度曲线。验证集的每日结果如图6所示。图中的虚线代表置信区间，位于传感器精度范围内。预测数据的平均绝对误差（MAE）为0.43 K，与传感器的精度0.5 K非常接近。

详细的多区域温度分布

超参数敏感性分析

本节讨论了所提出方法对其独特超参数的敏感性。尽管从理论上讲，强化学习算法在无限时间内可以找到全局最优解，但由于计算能力和训练时间的限制，智能体的探索能力在早期阶段往往会减弱。因此，最终收敛的策略会受到超参数选择的显著影响。

结论

本研究开发了一种基于现场知识的强化学习（FRL）方法，用于建筑中主动和被动热储存系统的协同控制。为此，我们进一步引入了一个精细的环境模拟器和一种基于动态势的奖励塑造技术。主要结论如下：

(1)

所开发的物理受限热建模方法作为高保真环境模拟器，表现出卓越的稳定性，

CRediT作者贡献声明

徐若宇：撰写——原始草稿、可视化、验证、软件开发、方法论设计、数据分析、形式化分析、数据管理。刘晓晨：撰写——审稿与编辑、验证、方法论设计、数据管理、概念化。张涛：资源协调、方法论设计、概念化。刘晓华：项目监督、资源协调、方法论设计、资金获取、概念化。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文的研究结果。

作者（刘晓华）是《建筑工程杂志》的副主编，未参与本文的编辑审查或发表决定。

致谢

本工作部分得到了国家自然科学基金（项目编号：52278114和52394223）和中国科学技术协会的青年精英科学家资助计划（项目编号：2023QNRC001）的支持。徐若宇和刘晓晨感谢哈佛大学的崔学远博士对本文提供的宝贵意见。

联系信箱：

粤ICP备09063491号

摘要

部分摘录

缩写词

方法论

环境验证

超参数敏感性分析

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行