针对集中式地热热泵系统的基于软体执行器-评论家（soft actor-critic）的控制策略的现场评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Energy Conversion and Management》：Field evaluation of a soft actor–critic-based control strategy for a centralized geothermal heat pump system

【字体：大中小】 时间：2026年02月21日 来源：Energy Conversion and Management 10.9

编辑推荐：

　　本研究提出基于Soft Actor-Critic（SAC）的集中式地源热泵冷却系统优化控制策略，无需硬件修改或实时室内温度测量，利用物理信息简化的热泵模型和实时电价数据实现动态控制。实地A/B测试表明，该策略较传统规则控制降低用电量11.75%，电费13.27%，同时保持冷却性能稳定。

金东宇|金亨俊|朴贤宇|李在永

韩国能源研究院能源信息通信研究部，大田市裕城区加亭路152号，34129，韩国

摘要

强化学习（RL）在构建能源系统控制方面受到了越来越多的关注。然而，由于其受到传感器限制、传统硬件以及运行不确定性的影响，其在现实世界的应用仍然有限。本研究提出了一种基于Soft Actor–Critic（SAC）的最优控制策略，并在现有商业建筑中的集中式地源热泵冷却系统上进行了现场评估。该控制器在不依赖实时室内温度测量或硬件修改的情况下，通过考虑室外条件、地源温度、缓冲罐温度以及分时电价来优化运行中的热泵数量和冷水供应温度。使用简化后的建筑、缓冲罐和地热循环的热模型构建了一个基于物理信息的仿真环境。SAC策略利用代表研究地点的历史夏季天气数据进行了训练。然后，将训练好的控制器部署在真实建筑中，并通过多个月的现场A/B测试与传统基于规则的控制策略进行了对比。通过使用室外空气焓值对天气引起的性能变化进行归一化，确保了公平的比较。现场结果显示，与基于规则的基线相比，基于SAC的控制方法使电力消耗减少了11.75%，电力成本降低了13.27%，同时保持了相当的冷却能量输出。这些结果证实，基于强化学习的控制可以有效地应用于传统的地源热泵系统，并在实际运行条件下带来显著的能源和成本效益。

引言

建筑行业占全球能源消耗的很大份额，其中供暖和冷却系统是最大的终端用途之一[1]。因此，提高这些系统的运行效率对于降低能源成本和减少温室气体排放至关重要。在各种技术中，基于热泵的系统因其高效率以及与可再生能源的兼容性而成为一种有前景的解决方案。然而，它们在建筑中的实际性能在很大程度上取决于它们对动态环境和经济条件（如室外温度变化和分时电价）的有效响应。

传统的基于规则或模型预测控制（MPC）方案已广泛应用于建筑物的供暖、通风和空调（HVAC）操作[2]、[3]。这些方法通常依赖于静态模型或手动调整的设定点，这限制了它们对建筑负荷和电价实时变化的适应性。最近，强化学习（RL）作为一种数据驱动的替代方案出现，能够通过与环境的交互来学习最优控制策略[4]。已经探索了多种RL算法，包括深度确定性策略梯度（DDPG）[5]、近端策略优化（PPO）[6]和Soft Actor–Critic（SAC）[7]，以优化热泵运行、供应温度和热能存储管理[8]。大多数先前的研究在基于仿真的环境中展示了有希望的节能效果和舒适度的提升。

最近的研究还探讨了在动态和不确定运行条件下使用深度RL（DRL）进行HVAC系统优化。早期研究主要集中在提高控制鲁棒性和安全性上。例如，Heidari等人[9]提出了一种适用于一般建筑HVAC系统的安全可靠的RL框架，明确纳入了安全约束以确保稳定和节能的运行。相应地，Liu等人[10]开发了一种结合RL和基于物理模型的混合控制策略，用于基于热泵的供暖系统，实现了自适应的供应温度控制和更高的能源效率。

后续研究强调了算法性能和比较评估，主要在受控的仿真条件下报告了能源效率和运行稳定性的显著提升。Wang等人[11]将DDPG和SAC等DRL算法与MPC进行了比较，证明了RL在非线性HVAC环境中的优越适应性。同样，Han等人[12]引入了一种基于彩虹深度Q网络的调度方法用于热泵运行，通过数据驱动的预训练实现了能源成本的降低，而Zhang等人[13]通过预训练辅助的RL框架进一步提高了训练效率和收敛稳定性。同样，使用数据驱动的替代模型进行离线预训练也提高了训练效率，在DRL训练期间减少了对外部详细物理模拟器的依赖[14]。

最近的研究通过结合系统灵活性、多能源协调和预测信息扩展了控制范围。Guo等人[15]提出了一个基于DRL的协同优化框架，将HVAC操作与需求侧灵活性相结合，Kim等人[16]将DRL应用于涉及分布式能源资源和热存储的多能源管理问题。天气和价格预测也得到了积极探索，Shin等人[17]将基于天气的预测输入纳入DRL控制中，Schmitz等人[18]开发了一种考虑室外条件和电价的基于预测的RL方法。

通过增量学习和多智能体学习策略解决了个性化和可扩展性问题。Yin等人[19]提出了一种增量RL方法，以动态适应不断变化的用户舒适度偏好，而Liu等人[20]引入了一种用于多区域HVAC系统的多智能体DRL框架，实现了区域级别的设定点优化。除了基于仿真的研究外，Ruddick等人[21]通过将安全的RL与MPC结合提供了短期真实建筑验证，从而突出了基于RL的HVAC控制的实际可行性。以人为中心的舒适度建模也被纳入基于DRL的HVAC控制中，其中使用动态PMV公式表示居住者的舒适度，而不是固定的温度范围[22]。

同时，还探索了先进的学习架构以进一步提高控制性能。Gao等人[23]将预测门控循环单元网络与RL结合，以提高时间序列表示和控制精度，报告称在办公HVAC系统中实现了14.5%的能源减少。Liao等人[24]提出了一个分层DRL框架，能够处理混合动作空间，实现在全年运行条件下同时优化温度、室内空气质量和能源使用。为了进一步解决运行安全性问题，Wang等人[25]研究了结合MPC滤波器和约束层的安全RL架构，以保证在线学习期间的系统稳定性。

尽管取得了这些进展，但基于DRL的HVAC控制在现实世界的应用仍然非常有限。大多数现有研究隐含地假设了全面的室内传感、校准良好的建筑模型以及灵活的控制硬件，从而能够在仿真环境中直接观察状态和进行细粒度调节。

相比之下，许多现有建筑——特别是传统设施——缺乏足够的室内传感器，使用恒速循环泵，并在简化的基于规则的控制逻辑下运行。在这种条件下，大多数基于DRL的控制框架的关键假设不再成立，使得它们的直接部署在技术上具有挑战性且往往不切实际。

因此，弥合面向仿真的DRL框架与现实世界运行约束之间的差距是实现建筑领域数据驱动控制实际应用的关键步骤。

本研究通过开发并验证了一种基于SAC的控制策略来解决这一差距，用于传统的地源热泵（GSHP）冷却系统。选择SAC是因为其熵正则化的随机策略非常适合处理连续控制动作和现实世界HVAC系统中由于传感器限制而产生的不确定性。该控制器仅使用现场可用的测量数据（包括室外空气温度、地源温度、缓冲罐温度和实时电价）来优化活跃热泵的数量和冷水供应温度。该算法在配备多个GSHP、缓冲罐和恒速循环泵的真实商业建筑中得到了实现和测试，无需室内温度传感器或硬件修改。

本研究的主要贡献如下：

•

开发了一个基于物理信息的DRL控制框架，明确考虑了传统HVAC系统的简化热动力学和运行约束。

•

在GSHP运行中实现了基于SAC的控制器的实际应用和扩展的现场评估。

•

在分时电价下量化分析了能源成本的降低，并评估了与传统基于规则的操作相比的控制行为。

本研究提供了少数几个基于DRL的建筑控制的现实世界多个月评估之一，证明了在现有建筑基础设施中部署先进数据驱动控制的可行性和实际效益。

部分摘录

系统概述和建模

本研究考虑的系统由一个集中式的GSHP配置组成，包括多个热泵、一个缓冲罐和一个负载侧分配回路。为了控制-oriented建模，系统被抽象为三个子系统：(i) 建筑负荷，(ii) 热存储，以及 (iii) 地热源回路。

通过为缓冲罐和地热回路制定简化的能量平衡模型来模拟系统的热力学行为。

案例研究

目标系统是一个安装在现有商业建筑中的集中式GSHP冷却系统。该系统服务于一楼大堂区域的冷却需求，包括两个并联的水-水热泵、一个冷水缓冲罐以及分布在各个调节区域的风扇盘管单元（FCUs）。每个热泵从建筑的冷却回路中提取热量并将其排放到地热回路中，提供冷水。

策略训练和仿真结果

表6总结了SAC训练的超参数，图5显示了相应的剧集奖励进展。控制器使用2024年7月至8月的62天室外温度数据集构建的剧集进行训练，该数据集代表了研究地点的历史气候条件。对于每个剧集，从数据集中随机抽取一天的天气序列，以防止代理过度拟合固定的时间顺序并促进策略的鲁棒性。

SAC策略的负载响应性和价格意识控制行为

在低冷却需求和高冷却需求条件下的仿真结果（图6和图7）表明，SAC策略学会了能够响应热负荷变化的控制行为，同时明确考虑了时变电价。在早期运行时间内，观察到了明显的冷却需求，这可以解释为夜间积累的较高室内空气和缓冲罐温度的恢复过程。为了应对这种初始负荷，SAC

结论

在这项研究中，为现有商业建筑中的集中式GSHP冷却系统开发并实验评估了一种基于SAC的最优控制策略。主要目标是证明基于深度强化学习的控制可以在现实世界的约束条件下实际部署，包括有限的传感器可用性、恒速循环泵和传统的基于规则的操作。

使用简化的热模型构建了一个基于物理信息的DRL环境

CRediT作者贡献声明

金东宇：撰写 – 审稿与编辑，撰写 – 原稿，可视化，软件，形式分析，数据管理，概念化。金亨俊：软件，调查，数据管理。朴贤宇：软件，资源，调查。李在永：撰写 – 审稿与编辑，项目管理，数据管理。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。

致谢

这项工作得到了韩国能源研究院（Korea Institute of Energy Research）通过韩国科学技术部/国家科学技术研究委员会（Ministry of Science and ICT/National Research Council of Science & Technology）资助的机构战略发展（ISD）计划的支持（资助编号：C6-2419–63），并在韩国能源研究院的研究与开发计划框架下进行（资助编号：C6-2410–37）。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号