利用轻量级大型语言模型进行对话偏好学习，以实现个性化热舒适度控制

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Energy and Buildings》：Conversational preference learning for personalized thermal comfort control with a lightweight large language model

【字体：大中小】 时间：2026年02月18日 来源：Energy and Buildings 7.1

编辑推荐：

　　传统个性化温控模型依赖标量反馈或固定日程，难以捕捉人类感知的语义细节。本文提出轨迹感知偏好学习框架，利用大型语言模型（LLMs）分析多轮对话历史，通过整合物理参数（设定点/实测温度）与主观反馈（文本+标量评分），构建了包含411条有效轨迹的实验数据集。经LoRA微调的Gemma-2-2B模型将MAE降至0.1220°C，较温度回归基线误差减少76%，较零样本LLMs减少84%。研究验证了多轮对话轨迹对个性化温控的支撑作用，并揭示了LLMs在语义信息映射与非线性控制动态处理上的优势。

刘德莉|周晓萍|李宇

北京建筑大学，中国北京100044

摘要

传统的个性化热舒适度模型通常依赖于标量反馈（例如，-3到+3的评分）或固定的时间表，这些方法无法捕捉到人类感知中蕴含的细微语义信息。虽然对话式界面提供了一种与建筑互动的自然方式，但当前的系统往往将用户的话语视为孤立的命令，缺乏从长期互动轨迹中学习稳定偏好的能力。为了解决这一限制，我们提出了一个基于轨迹的偏好学习框架，该框架利用大型语言模型（LLMs）从多轮对话历史中推断出个性化的舒适温度。我们构建了一个包含411条有效对话轨迹的数据集，每条轨迹都包括连续的空调设定值、测量的本地温度和自然语言反馈。利用这个数据集，我们通过低秩适应（LoRA）对一个紧凑的指令调优LLM（Gemma-2-2B）进行了微调，以将互动历史映射到一个统计上优化的舒适目标。实验结果表明，微调后的模型在保留的测试集上的平均绝对误差（MAE）为0.1220°C。与仅使用温度的回归基线（MAE = 0.4988°C）相比，预测误差减少了约76%；与零样本基LLM（MAE = 0.7560°C）相比，预测误差减少了84%。定性分析进一步表明，微调后的模型有效地弥合了人与建筑互动中的语义差距，正确解读了反馈的强度（例如，区分“太冷”和“稍微冷”），并处理了非线性控制动态，如超调校正。通过将语言先验与物理因果关系对齐，我们的方法实现了精确的偏好估计，支持更加响应迅速、以用户为中心的暖通空调控制，而无需为每个用户收集大量数据。

引言

建筑内的环境质量和能源消耗紧密相关[1]、[2]、[3]：办公室和家庭中的空调系统占据了电力使用的很大份额[4]、[5]，然而尽管设定值看似可接受，许多居住者仍然报告房间“太热”、“太冷”或“闷热”。传统的暖通空调控制策略通常依赖于固定的温度时间表[6]或全楼范围的设定值[7]、[8]，这忽略了个体热偏好和居住者状态的日常变化。因此，建筑经常过度冷却或过度加热空间以满足通用的舒适目标，浪费能源，同时仍无法为许多居住者提供真正舒适的条件。

在过去的几十年中，热舒适度研究发展出了有影响力的模型，如PMV/PPD[9]、[10]、[11]以及自适应舒适度公式，这些模型将物理参数（空气温度、湿度、风速、穿着、活动）与平均居住者反应联系起来[12]、[13]、[14]。虽然这些模型对设计和政策很有价值，但它们描述的是群体层面的反应，并且通常是静态应用的。实际上，个体之间的偏好温度相差几度，而且他们的偏好会随着一天中的时间、健康状况[16]、穿着[17]和最近的热历史[18]而变化。现有的个性化方法，如一次性问卷[19]或预定义的“用户档案”[20]，只能捕捉到偏好的粗略快照，并且很少更新，这限制了它们在真实建筑中支持细粒度、以居住者为中心的控制的能力。

同时，对话式界面正迅速成为居住者与智能环境互动的自然方式[21]、[22]。语音助手[23]和智能手机应用程序[24]已经允许用户说“这里太热了”或“把它调凉一些”，而不是手动调整设定值。然而，大多数当前的实现将每个话语视为一个孤立的命令，并将其转换为简单的基于规则的行动（例如，“太热”→将设定值降低1-2°C）。它们没有维护关于特定居住者随时间对不同温度反应的结构化记忆，因此无法逐渐学习出该个体的“舒适”稳定模型。

大型语言模型（LLMs）的最新进展为弥合这一差距提供了新的机会。LLMs能够解释细微的自然语言反馈[25]、[26]，在多步骤上下文中进行推理[27]，并生成可以映射到控制动作的结构化输出[28]。早期研究已将LLMs探索为暖通空调控制的“自然语言界面”（NLI）[29]、[30]。在这种范式中，LLM充当命令翻译器，将单个用户的话语（例如，“把它调凉一些”）映射为直接的控制动作（例如，“将设定值降低1°C”）。虽然这种方法对于即时执行有效，但它将每次互动视为一个孤立的事件，无法模拟用户潜在的热舒适度概况。

与这种文本到动作的转换不同，我们的工作将LLM定位为一个基于轨迹的偏好模型。我们的框架不是响应单个命令，而是分析了完整的互动轨迹（一系列感觉、设定值调整和随后的反馈），以推断出一个潜在的舒适温度

T^{?}

。这种从被动翻译命令到推断稳定偏好的转变，使系统能够了解用户是谁，从而弥合了即时反馈和个性化热控制之间的差距。

因此，需要基于实证的方法，将对话互动不仅仅视为一次性的输入渠道，而是作为偏好学习的数据来源。这些方法应该（i）使用在受控但现实的热条件下收集的真实对话；（ii）整合物理测量（设定值和本地空气温度）和主观反馈；以及（iii）支持LLM的数据高效适应，以便从“太热/太冷/刚刚好”的完整交流历史中预测每个用户的舒适温度。满足这一需求将使建筑运营更接近真正以居住者为中心、基于对话的个性化控制，同时与现有的暖通空调硬件和传感器兼容。

在追求更具适应性的建筑系统的过程中，Qaisar等人在一系列近期研究[31]、[32]、[33]中在以居住者为中心的控制（OCC）和序列学习方面取得了重大进展。他们明确证明了动态控制策略在现实环境中可以实现显著的节能[31]，同时引入了如Mamba（状态空间模型）这样的先进架构，以超越传统Transformer在捕捉长期时间依赖性方面的表现[32]。此外，他们还将大型语言模型（LLMs）的用途扩展到了建筑传感领域，利用少样本推理能力进行准确的室内占用量测量[33]。

尽管这些最先进的方法在使用数值序列或结构化提示估计物理状态（例如，存在或居住者数量）方面表现出色，但在解释人类反馈的主观语义细微差别方面仍存在差距。与作为客观物理量的占用量不同，热舒适度是深刻主观和语言化的。我们的工作通过专注于“对话偏好学习”来补充这些进展，不仅将LLMs用作传感器，还用作从纵向对话轨迹中推断稳定热舒适度概况的推理代理。

在这项研究中，我们通过在北京的一间大学办公室进行为期一个月的对话式热舒适度实验，并使用由此产生的数据集来训练一个基于轨迹的LLM，迈出了第一步。我们招募了25名参与者，在傍晚冷却期间让他们坐在装有传感器的工作站上；在每个小时的会话中，他们会经历四个设定值级别，在每个级别结束时，他们使用智能手机上的自由文本反馈和数字评分来报告他们的热感觉和舒适度。从这些会话中，我们构建了411条有效的多轮轨迹，这些轨迹将测量的本地空气温度和对话反馈与来自最中性轮次的标量“舒适温度”标签配对。在这些数据的基础上，我们使用LoRA适配器[34]对一个紧凑的指令调优LLM进行了微调，以将四轮轨迹映射到预测的舒适温度。我们严格将其性能与仅使用温度的回归模型和未经微调的基LLM进行了比较。我们的实证结果表明，基于轨迹的微调显著降低了预测误差，相对于两个基线而言，这表明即使是少量的真实世界对话数据也可以有效地用于从自然语言中学习个性化的热偏好。

提出的框架概述

为了使用自然语言实现个性化热舒适度控制，我们提出了一个数据驱动的框架，该框架将纵向用户互动转化为精确的偏好模型。如图1所示，整体方法包括三个不同的阶段：

阶段1：数据收集（第2.2节）。我们在一个共享的办公室进行实验，参与者完成多轮调整会话。在每次会话中，我们记录环境条件的序列（空气

数据集概述和标签统计

实验在30天期间生成了总共450条原始轨迹。大约8.7%（39条轨迹）被排除，因为参与者在整个四轮中都感到不适（例如，|评分| ≥ 2）或由于传感器日志不完整。这表明，尽管协议有效，但它并不能保证在所有情况下都能提供舒适度。最终，共有411条有效的对话轨迹被保留用于建模。每条轨迹对应一个小时的傍晚

对对话式、以居住者为中心的舒适度控制的影响

结果表明，简短的对话交流是学习个体热偏好的有效方式。尽管所有会话都在同一办公室和时间段内进行，参与者仍然得出了明显不同的舒适温度。这证实了单一的固定设定值或纯粹基于群体的舒适度模型不足以实现以居住者为中心的控制。一个在几轮互动中倾听人们意见的系统可以适应这些

结论

这项研究探讨了如何使用简短的引导性对话来学习个体热偏好并支持以居住者为中心的舒适度控制。基于四轮互动协议，我们收集了将温度设定值、测量的空气温度和自由形式的居住者反馈与推断出的舒适温度联系起来的真实傍晚轨迹。基于这个数据集，我们将舒适度预测构建为一个基于轨迹的回归任务，并设计了一个轻量级语言

CRediT作者贡献声明

刘德莉：写作——审稿与编辑，撰写——初稿，方法论，概念化。周晓萍：写作——审稿与编辑，监督，概念化。李宇：方法论，概念化。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

不适用。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号