强化学习(RL)已成为序列决策问题中的先进技术[[1], [2], [3]]。它已被证明在优化复杂的控制系统方面非常有效,例如建筑物中的供暖、通风和空调(HVAC)控制[[4], [5], [6], [7]]、化学反应器[[8], [9], [10]]、机器人和自动驾驶车辆[[11], [12], [13]]以及智能和交互式电网优化[[14], [15], [16]]。RL的广泛应用源于其能够在高度动态和复杂的环境中学习适应性决策策略,以平衡相互竞争的目标。
在建筑物中,最近的研究表明基于RL的控制比基于规则的控制具有优势[[17], [18], [19]]。同时,研究人员还指出,RL智能体[[19], [20], [21], [22]]有可能替代完全基于物理的策略,如动态优化[23]和模型预测控制[24,25],以优化建筑物内的暴露、能源和舒适度。例如,Mishra等人[22]展示了RL智能体在控制室内外空气交换率(AER)和室内设定温度方面的性能可与传统方法相媲美,从而减少颗粒物(PM)暴露并确保居住者的热舒适度,同时最小化相关能耗。此外,研究还展示了RL智能体在不同环境条件下的迁移潜力,通过迁移学习[26,27]、模仿学习[28,29]和直接迁移实现。由于RL智能体在部署限制方面的优势(例如不依赖于房屋特性和HVAC建模[22]),它们可以替代完全基于物理的策略。
然而,现有的建筑控制RL方法往往忽略了决策中的不确定性量化问题,这可能是由于室内动态的异质性[30,31]、在领域外数据上无法最佳运行[32,33]以及在许多情况下预测过于自信[34,35]等原因造成的。这些因素主要源于数据中固有的不确定性(随机不确定性)和对系统或模型参数理解不足(认知不确定性)[[36], [37], [38]]。虽然随机不确定性由于底层过程的随机性而无法消除,但可以通过增加知识来减少认知不确定性[38]。然而,现有的RL算法并未充分考虑与模型预测相关的不确定性[[39], [40], [41]]。因此,RL智能体在室内环境控制方面的可扩展性仍存在挑战,因为智能体性能的波动引发了对其预测能力的担忧。此外,先前的研究[34,35,42]表明,智能体可以做出准确的预测,但在处理不熟悉的数据时也可能过于自信。因此,不确定性量化不仅提供了预测结果,还提供了信心度量,有助于做出明智的决策和可靠性评估[38]。它还允许在模型预测过程中识别异常值和异常情况,进一步用于研究模型最不自信的情景。
因此,本研究分析了基于DQN的RL智能体的决策能力鲁棒性,该智能体通过专用空气供应系统(DASS)控制室内外AER,以优化室内PM暴露和能耗。在这项工作中,量化了房屋内各种污染物排放活动期间智能体在动作预测中的认知不确定性(与智能体知识缺乏和模型参数不理想相关的不确定性)。相应地,为RL智能体开发了一种基于不确定性的决策策略。为了量化不确定性,先前的研究提出了多种技术,如贝叶斯神经网络[43,44]、蒙特卡洛dropout(MC dropout)[45,46]和深度集成[47,48],这些技术可用于测量预测的不确定性。贝叶斯网络和深度集成在不确定性估计方面比MC dropout更精确。然而,贝叶斯网络的计算成本较高,深度集成需要训练多个独立模型,具有挑战性[49,50]。最近的研究表明,MC dropout可以作为贝叶斯框架的近似方法,降低了模型复杂性和计算成本[45,51]。因此,在这项工作中,使用MC dropout进行不确定性量化。
此外,在训练和测试RL智能体过程中选择动作的过程对于获得智能体的最佳行为至关重要。不同的RL算法,主要是基于价值的或基于策略的,或者两者的结合,在给定状态下选择动作有不同的方案[52]。例如,本工作中介绍的训练有素的DQN智能体根据价值函数(Q(state, action))选择动作,即在任何状态下选择Q值最大的动作[53]。在训练DQN时,通过epsilon-greedy方案保持探索和利用之间的平衡。这种动作选择技术通常称为策略,当DQN对每批输入只进行一次前向传递时效果良好。然而,在MC dropout中,使用多次前向传递(例如n次)来获得任何给定状态下每个动作的Q值分布。这确保了智能体意识到决策中的不确定性;然而,动作选择的策略具有挑战性,因为任何状态下有n个输出(最大Q值)对应于n次前向传递。当遵循传统的动作选择策略(选择Q值最大的动作)时,多个输出可能对应于同一状态下的不同动作。这种方法可能导致不可靠和次优的动作选择。为了解决这个问题,本研究评估了多种动作选择策略,并将这些策略及其组合的性能与传统DQN(TradDQN)进行了比较。
简而言之,当前工作重点关注基于DQN的RL智能体在现实建筑集成中的开发和评估的以下三个关键方面:(a) MC-dropout网络的动作选择策略的制定,(b) 这些策略下选定动作的不确定性,(c) 在低排放和高排放活动下这些策略在减少暴露和能耗方面的鲁棒性。最终,这项工作旨在作为实际部署前的验证或性能评估工具,通过将不确定性量化结果转化为对实际建筑中控制器接受的可行指导。