基于深度强化学习的动态室内热环境控制：DIET控制器在节能与人体健康平衡中的创新应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：Dynamic indoor thermal environment control using Reinforcement Learning: Balancing energy efficiency and human well-being

【字体：大中小】 时间：2026年01月18日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　本研究针对传统HVAC控制系统难以适应动态环境变化、导致能源效率低下和室内热舒适度不佳的问题，开发了一种基于深度确定性策略梯度(DDPG)算法的深度强化学习(DRL)控制器——DIET。该控制器通过优化供暖系统能耗、热舒适度及室内温度动态变化，在实验测试中实现了28–64%的加热节能，并为96%的占用时间维持了动态室内环境，为构建以人为本的智能气候控制系统提供了新路径。

想象一下，在寒冷的冬日，办公室的空调系统总是将温度恒定在21°C，虽然舒适但却消耗着大量能源。而传统的供暖、通风和空调(HVAC)控制系统往往依赖预设规则，难以适应天气、人员流动等动态变化，导致能源浪费和室内环境不佳。更关键的是，近年研究发现长期处于恒温环境反而不利于人体健康，适度的温度波动能够激发人体的热调节反应，带来代谢益处。那么，能否设计一种智能控制系统，既能大幅降低能耗，又能为室内人员创造有益健康的动态热环境呢？

这正是发表于《Engineering Applications of Artificial Intelligence》的研究论文"Dynamic indoor thermal environment control using Reinforcement Learning: Balancing energy efficiency and human well-being"所要解决的核心问题。来自瑞士洛桑联邦理工学院(EPFL)综合舒适工程实验室(ICE)的Arnab Chatterjee和Dolaana Khovalyg开发了一种名为DIET(动态室内环境)的新型深度强化学习(DRL)控制器，首次将深度确定性策略梯度(DDPG)算法应用于HVAC系统控制，同时优化能源效率、热舒适度和动态温度暴露三个目标。

为开展这项研究，团队建立了完整的三阶段研究框架：首先构建基于马尔可夫决策过程(MDP)的控制模型，定义状态空间(包括室内外温度、湿度、人员代谢率、服装热阻等)、动作空间(温度设定值调整)和复合奖励函数；随后在EnergyPlus仿真环境中进行在线训练，通过功能性 mock-up 单元(FMU)接口实现Python控制器与建筑模型的协同仿真；最后在气候室中进行实证验证，测试控制器的实际性能。

技术方法上，研究主要采用深度确定性策略梯度(DDPG)算法构建智能控制器，该算法包含执行器-评判器双网络结构，适合处理连续控制问题；通过定义多目标奖励函数平衡能耗、热舒适(使用PMV指标)和温度动态性(以标准差衡量)；建立建筑能源模型与实时控制器的协同仿真平台；并在配备空气处理单元和辐射顶板供暖系统的气候室中进行实测验证，使用热假人模拟人员热负荷。

研究结果

控制器在多模式下均表现出色

研究表明，DIET控制器可在三种模式下灵活运行：低能耗模式优先节能，将温度维持在16°C；高舒适模式优先热舒适，将温度维持在21°C；DIET模式则平衡多方目标。在DIET模式下，控制器能够在占用时段将温度动态控制在16-21°C之间，既避免了能源浪费，又创造了有益健康的温度波动环境。

实际测试验证节能效果

在实际气候室测试中，DIET控制器相比传统恒温控制器(CON-21)实现了28-64%的节能效果，具体节能率取决于控制更新频率(10分钟、20分钟或30分钟)。更长的控制间隔(30分钟)带来更大节能潜力，但会牺牲部分舒适性；而更频繁的更新(10分钟)则能更好地维持舒适度。

热舒适指标维持在理想范围

在DIET模式下，预测平均投票(PMV)值在91%的占用时间内保持在-0.5至-2.0之间，意味着室内人员大多处于"稍凉"到"凉"的热感觉状态，这既符合节能要求，又不会引起明显不适。研究特别将舒适范围设定在PMV为[0, -1]之间，鼓励创造稍凉的室内环境。

控制系统展现良好适应性

通过重复性测试和连续72小时的长时运行评估，DIET控制器表现出稳定的性能和控制韧性。即使在供热系统出现临时故障的情况下，控制器也能在系统恢复后快速调整环境参数，显示出在实际应用中的可靠性。

讨论与结论

本研究成功证明了DRL控制器在复杂建筑环境控制中的实用价值。DIET控制器的创新之处在于其多目标优化框架，不仅关注传统的能耗与舒适度平衡，还引入了动态热环境的概念，这与新兴的健康建筑理念高度契合。

研究表明，通过适当的控制策略，可以在不牺牲 occupant 舒适度的前提下实现显著节能。与传统规则基控制系统相比，DIET控制器能够更好地适应环境变化和 occupancy 模式，展现出更强的鲁棒性和适应性。特别是在实际部署测试中表现出的"即插即用"能力，为DRL控制器在真实建筑中的推广应用提供了有力支持。

然而，研究也指出了一些限制和未来方向：实时获取PMV模型所需的全部参数(如平均辐射温度、服装热阻、代谢率等)在实际建筑中仍具挑战；控制器的可扩展性到多区域建筑需要进一步验证；更高效的学习算法如TD3、PPO等值得探索以加速训练过程。

这项研究的意义在于它为智能建筑控制提供了新范式，将能源效率与人体健康益处有机结合，推动了HVAC系统从单纯的温度维持向健康环境创造的转变。随着物联网和传感技术的发展，这种基于DRL的自适应控制方法有望在未来建筑中发挥越来越重要的作用，为构建更可持续、更健康的人居环境提供技术支撑。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号