建筑内的环境质量和能源消耗紧密相关[1]、[2]、[3]:办公室和家庭中的空调系统占据了电力使用的很大份额[4]、[5],然而尽管设定值看似可接受,许多居住者仍然报告房间“太热”、“太冷”或“闷热”。传统的暖通空调控制策略通常依赖于固定的温度时间表[6]或全楼范围的设定值[7]、[8],这忽略了个体热偏好和居住者状态的日常变化。因此,建筑经常过度冷却或过度加热空间以满足通用的舒适目标,浪费能源,同时仍无法为许多居住者提供真正舒适的条件。
在过去的几十年中,热舒适度研究发展出了有影响力的模型,如PMV/PPD[9]、[10]、[11]以及自适应舒适度公式,这些模型将物理参数(空气温度、湿度、风速、穿着、活动)与平均居住者反应联系起来[12]、[13]、[14]。虽然这些模型对设计和政策很有价值,但它们描述的是群体层面的反应,并且通常是静态应用的。实际上,个体之间的偏好温度相差几度,而且他们的偏好会随着一天中的时间、健康状况[16]、穿着[17]和最近的热历史[18]而变化。现有的个性化方法,如一次性问卷[19]或预定义的“用户档案”[20],只能捕捉到偏好的粗略快照,并且很少更新,这限制了它们在真实建筑中支持细粒度、以居住者为中心的控制的能力。
同时,对话式界面正迅速成为居住者与智能环境互动的自然方式[21]、[22]。语音助手[23]和智能手机应用程序[24]已经允许用户说“这里太热了”或“把它调凉一些”,而不是手动调整设定值。然而,大多数当前的实现将每个话语视为一个孤立的命令,并将其转换为简单的基于规则的行动(例如,“太热”→将设定值降低1-2°C)。它们没有维护关于特定居住者随时间对不同温度反应的结构化记忆,因此无法逐渐学习出该个体的“舒适”稳定模型。
大型语言模型(LLMs)的最新进展为弥合这一差距提供了新的机会。LLMs能够解释细微的自然语言反馈[25]、[26],在多步骤上下文中进行推理[27],并生成可以映射到控制动作的结构化输出[28]。早期研究已将LLMs探索为暖通空调控制的“自然语言界面”(NLI)[29]、[30]。在这种范式中,LLM充当命令翻译器,将单个用户的话语(例如,“把它调凉一些”)映射为直接的控制动作(例如,“将设定值降低1°C”)。虽然这种方法对于即时执行有效,但它将每次互动视为一个孤立的事件,无法模拟用户潜在的热舒适度概况。
与这种文本到动作的转换不同,我们的工作将LLM定位为一个基于轨迹的偏好模型。我们的框架不是响应单个命令,而是分析了完整的互动轨迹(一系列感觉、设定值调整和随后的反馈),以推断出一个潜在的舒适温度。这种从被动翻译命令到推断稳定偏好的转变,使系统能够了解用户是谁,从而弥合了即时反馈和个性化热控制之间的差距。
因此,需要基于实证的方法,将对话互动不仅仅视为一次性的输入渠道,而是作为偏好学习的数据来源。这些方法应该(i)使用在受控但现实的热条件下收集的真实对话;(ii)整合物理测量(设定值和本地空气温度)和主观反馈;以及(iii)支持LLM的数据高效适应,以便从“太热/太冷/刚刚好”的完整交流历史中预测每个用户的舒适温度。满足这一需求将使建筑运营更接近真正以居住者为中心、基于对话的个性化控制,同时与现有的暖通空调硬件和传感器兼容。
在追求更具适应性的建筑系统的过程中,Qaisar等人在一系列近期研究[31]、[32]、[33]中在以居住者为中心的控制(OCC)和序列学习方面取得了重大进展。他们明确证明了动态控制策略在现实环境中可以实现显著的节能[31],同时引入了如Mamba(状态空间模型)这样的先进架构,以超越传统Transformer在捕捉长期时间依赖性方面的表现[32]。此外,他们还将大型语言模型(LLMs)的用途扩展到了建筑传感领域,利用少样本推理能力进行准确的室内占用量测量[33]。
尽管这些最先进的方法在使用数值序列或结构化提示估计物理状态(例如,存在或居住者数量)方面表现出色,但在解释人类反馈的主观语义细微差别方面仍存在差距。与作为客观物理量的占用量不同,热舒适度是深刻主观和语言化的。我们的工作通过专注于“对话偏好学习”来补充这些进展,不仅将LLMs用作传感器,还用作从纵向对话轨迹中推断稳定热舒适度概况的推理代理。
在这项研究中,我们通过在北京的一间大学办公室进行为期一个月的对话式热舒适度实验,并使用由此产生的数据集来训练一个基于轨迹的LLM,迈出了第一步。我们招募了25名参与者,在傍晚冷却期间让他们坐在装有传感器的工作站上;在每个小时的会话中,他们会经历四个设定值级别,在每个级别结束时,他们使用智能手机上的自由文本反馈和数字评分来报告他们的热感觉和舒适度。从这些会话中,我们构建了411条有效的多轮轨迹,这些轨迹将测量的本地空气温度和对话反馈与来自最中性轮次的标量“舒适温度”标签配对。在这些数据的基础上,我们使用LoRA适配器[34]对一个紧凑的指令调优LLM进行了微调,以将四轮轨迹映射到预测的舒适温度。我们严格将其性能与仅使用温度的回归模型和未经微调的基LLM进行了比较。我们的实证结果表明,基于轨迹的微调显著降低了预测误差,相对于两个基线而言,这表明即使是少量的真实世界对话数据也可以有效地用于从自然语言中学习个性化的热偏好。