优化建筑物中污染物暴露与能源消耗之间的权衡：基于不确定性信息的强化学习及控制策略的鲁棒性分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《BUILDING AND ENVIRONMENT》：Optimizing Trade-off Between Pollutant Exposure and Energy Consumption in Buildings: Uncertainty Informed Reinforcement Learning and Robustness Analysis of Control Policies

【字体：大中小】 时间：2026年01月19日 来源：BUILDING AND ENVIRONMENT 7.6

编辑推荐：

　　强化学习在建筑环境控制中的应用及不确定性量化研究。通过蒙特卡洛滴出（MC-Dropout）改进的深度Q网络（DQN）构建数字孪生住宅的智能控制系统，对比分析12种基于MC-Dropout的行动选择策略在PM暴露与能耗优化中的表现，发现策略间存在-23%至+34%的显著波动，部分策略在高PM浓度（>40μg/m3）下有效降低暴露风险，但多数存在控制不稳定性。研究提出基于MC-Dropout的不确定性量化方法及复合型决策策略。

Nishchaya Kumar Mishra | Sameer Patel

印度古吉拉特邦甘地讷格尔市帕拉杰，甘地讷格尔理工学院土木工程系，邮编382355，印度

摘要

智能控制系统对于确保居住者的舒适度以及减少室内污染物的暴露至关重要。同时，这些系统必须优化建筑物的能源使用。最近在建筑科学和控制领域的研究表明，强化学习（RL）智能体在优化室内环境动态方面比基于物理规则和基于规则的智能体具有优势。虽然先前的研究表明RL智能体可以在不同建筑之间迁移，但确保其鲁棒性和可靠性对于其在实际应用中的有效性至关重要。因此，本研究分析了基于深度Q网络（DQN）的RL智能体的决策能力鲁棒性，并使用蒙特卡洛（MC）dropout方法估计了预测动作的不确定性。评估了十二种动作选择策略（MC-DQN1至MC-DQN12）的性能，以颗粒物（PM）暴露和能耗为指标，传统DQN（TradDQN）作为基准。分析显示，在不同排放活动下，不同MC-DQN的平均暴露量存在显著差异，高排放活动期间的变化范围从-23%到+34%。最后，估计了不同室内PM水平（≤ 10、11–20、21–30、31–40和> 40 μg m^-3）下的分数暴露量，以确定这些MC-DQN表现不佳的具体时期。除了少数在高PM水平（> 40 μg m^-3）下有效降低暴露量的MC-DQN外，其他智能体难以将PM水平降至期望水平。

引言

强化学习（RL）已成为序列决策问题中的先进技术[[1], [2], [3]]。它已被证明在优化复杂的控制系统方面非常有效，例如建筑物中的供暖、通风和空调（HVAC）控制[[4], [5], [6], [7]]、化学反应器[[8], [9], [10]]、机器人和自动驾驶车辆[[11], [12], [13]]以及智能和交互式电网优化[[14], [15], [16]]。RL的广泛应用源于其能够在高度动态和复杂的环境中学习适应性决策策略，以平衡相互竞争的目标。

在建筑物中，最近的研究表明基于RL的控制比基于规则的控制具有优势[[17], [18], [19]]。同时，研究人员还指出，RL智能体[[19], [20], [21], [22]]有可能替代完全基于物理的策略，如动态优化[23]和模型预测控制[24,25]，以优化建筑物内的暴露、能源和舒适度。例如，Mishra等人[22]展示了RL智能体在控制室内外空气交换率（AER）和室内设定温度方面的性能可与传统方法相媲美，从而减少颗粒物（PM）暴露并确保居住者的热舒适度，同时最小化相关能耗。此外，研究还展示了RL智能体在不同环境条件下的迁移潜力，通过迁移学习[26,27]、模仿学习[28,29]和直接迁移实现。由于RL智能体在部署限制方面的优势（例如不依赖于房屋特性和HVAC建模[22]），它们可以替代完全基于物理的策略。

然而，现有的建筑控制RL方法往往忽略了决策中的不确定性量化问题，这可能是由于室内动态的异质性[30,31]、在领域外数据上无法最佳运行[32,33]以及在许多情况下预测过于自信[34,35]等原因造成的。这些因素主要源于数据中固有的不确定性（随机不确定性）和对系统或模型参数理解不足（认知不确定性）[[36], [37], [38]]。虽然随机不确定性由于底层过程的随机性而无法消除，但可以通过增加知识来减少认知不确定性[38]。然而，现有的RL算法并未充分考虑与模型预测相关的不确定性[[39], [40], [41]]。因此，RL智能体在室内环境控制方面的可扩展性仍存在挑战，因为智能体性能的波动引发了对其预测能力的担忧。此外，先前的研究[34,35,42]表明，智能体可以做出准确的预测，但在处理不熟悉的数据时也可能过于自信。因此，不确定性量化不仅提供了预测结果，还提供了信心度量，有助于做出明智的决策和可靠性评估[38]。它还允许在模型预测过程中识别异常值和异常情况，进一步用于研究模型最不自信的情景。

因此，本研究分析了基于DQN的RL智能体的决策能力鲁棒性，该智能体通过专用空气供应系统（DASS）控制室内外AER，以优化室内PM暴露和能耗。在这项工作中，量化了房屋内各种污染物排放活动期间智能体在动作预测中的认知不确定性（与智能体知识缺乏和模型参数不理想相关的不确定性）。相应地，为RL智能体开发了一种基于不确定性的决策策略。为了量化不确定性，先前的研究提出了多种技术，如贝叶斯神经网络[43,44]、蒙特卡洛dropout（MC dropout）[45,46]和深度集成[47,48]，这些技术可用于测量预测的不确定性。贝叶斯网络和深度集成在不确定性估计方面比MC dropout更精确。然而，贝叶斯网络的计算成本较高，深度集成需要训练多个独立模型，具有挑战性[49,50]。最近的研究表明，MC dropout可以作为贝叶斯框架的近似方法，降低了模型复杂性和计算成本[45,51]。因此，在这项工作中，使用MC dropout进行不确定性量化。

此外，在训练和测试RL智能体过程中选择动作的过程对于获得智能体的最佳行为至关重要。不同的RL算法，主要是基于价值的或基于策略的，或者两者的结合，在给定状态下选择动作有不同的方案[52]。例如，本工作中介绍的训练有素的DQN智能体根据价值函数（Q(state, action)）选择动作，即在任何状态下选择Q值最大的动作[53]。在训练DQN时，通过epsilon-greedy方案保持探索和利用之间的平衡。这种动作选择技术通常称为策略，当DQN对每批输入只进行一次前向传递时效果良好。然而，在MC dropout中，使用多次前向传递（例如n次）来获得任何给定状态下每个动作的Q值分布。这确保了智能体意识到决策中的不确定性；然而，动作选择的策略具有挑战性，因为任何状态下有n个输出（最大Q值）对应于n次前向传递。当遵循传统的动作选择策略（选择Q值最大的动作）时，多个输出可能对应于同一状态下的不同动作。这种方法可能导致不可靠和次优的动作选择。为了解决这个问题，本研究评估了多种动作选择策略，并将这些策略及其组合的性能与传统DQN（TradDQN）进行了比较。

简而言之，当前工作重点关注基于DQN的RL智能体在现实建筑集成中的开发和评估的以下三个关键方面：(a) MC-dropout网络的动作选择策略的制定，(b) 这些策略下选定动作的不确定性，(c) 在低排放和高排放活动下这些策略在减少暴露和能耗方面的鲁棒性。最终，这项工作旨在作为实际部署前的验证或性能评估工具，通过将不确定性量化结果转化为对实际建筑中控制器接受的可行指导。

章节片段

房屋的数字孪生和训练-测试数据集

创建了一个房屋的数字孪生，用于使用实地研究的测量数据来训练和测试RL智能体，该研究调查了日常活动对排放、化学转化以及室内空气中微量气体和颗粒物去除的影响[[54], [55], [56]]。在涉及低和高PM排放活动的九天实验期间监测的各种室内外参数被按2:1的比例分为训练和测试部分。

暴露和能耗：实验与传统DQN智能体

图2显示了在低和高PM排放活动下，三种DASS运行模式下的模拟室内PM浓度曲线：(a) 常规运行（BAU）DASS操作下的实验日，速率为0.5 h^-1；(b) 通过TradDQN智能体优化的DASS操作，速率为0.5至10 h^-1；(c) 通过动态优化策略优化的DASS操作，速率为0.5至10 h^-1。动态优化策略旨在最大化方程(1)中显示的相同奖励函数，用作基准。

结论

尽管DRL在序列决策过程（如室内环境控制）中取得了进展，但评估预测的不确定性以衡量其信心和决策能力的局限性是必要的。因此，本研究开发了一个蒙特卡洛dropout DQN智能体，以评估智能体的决策能力鲁棒性并估计与预测动作相关的不确定性。制定了多种动作选择策略，并

数据可用性

用于制定蒙特卡洛DQN智能体的代码已上传到GitHub仓库，地址为：https://github.com/nishmishra15/dopeec

CRediT作者贡献声明

Nishchaya Kumar Mishra：写作 – 审稿与编辑，撰写原始草稿，可视化，验证，方法论，数据分析，概念化。Sameer Patel：写作 – 审稿与编辑，撰写原始草稿，可视化，验证，监督，资源管理，项目协调，方法论，资金获取，数据分析，概念化。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号