经过微调的大型语言模型作为智能建筑能源管理的替代调度器

《ENERGY AND BUILDINGS》：Fine-Tuned Large Language Models as Surrogate Schedulers for Smart Building Energy Management

【字体：大中小】 时间：2026年05月10日 来源：ENERGY AND BUILDINGS 7.1

编辑推荐：

　　鲁兹贝赫·哈吉吉 | 范海·布伊 | 温聪·苏密歇根大学迪尔伯恩分校电气与计算机工程系，美国密歇根州迪尔伯恩，48128 **摘要** 建筑物占据了全球能源消耗和相应碳排放的很大一部分，这提高了人们对零能耗建筑（NZEBs）及其高效运营的兴趣。在NZEB的能源管理

　　鲁兹贝赫·哈吉吉 | 范海·布伊 | 温聪·苏
密歇根大学迪尔伯恩分校电气与计算机工程系，美国密歇根州迪尔伯恩，48128

**摘要**
建筑物占据了全球能源消耗和相应碳排放的很大一部分，这提高了人们对零能耗建筑（NZEBs）及其高效运营的兴趣。在NZEB的能源管理中，运营调度必须协调分布式发电（DG）、储能系统（ESSs）、与电网的电力交换以及热能设备，同时在没有可变的可再生能源生产和需求的情况下最小化运营成本。虽然混合整数线性规划（MILP）可以提供最优调度方案，但重复的在线优化可能在实时应用中带来巨大的计算负担。本文提出了一种经过微调的大型语言模型（LLM）框架，作为基于MILP的NZEB调度的替代方案，旨在提供计算效率高的决策支持，并为未来的智能建筑能源管理提供灵活的架构。首先使用MILP模型生成DG调度、ESS充放电功率、电网买卖电力以及供暖/制冷设备运行的最优设定点。然后利用这些优化得到的输入输出对来微调LLM，使其能够直接预测接近最优的运营决策，而无需重复求解MILP问题。通过使用结果部分报告的相同预测误差指标，将所提出的框架与基准学习模型进行评估。结果表明，经过微调的LLM实现了最佳的整体性能，测试mae为0.0853，rmse为0.286，在相同的评估设置下优于ANN和XGBoost。与ANN相比，微调后的LLM在mae和rmse上分别降低了88.2%和33.3%，同时在mae上比XGBoost提高了79.7%，在rmse上提高了24.7%。此外，还从运营可行性和系统级性能方面评估了预测的调度方案。这些发现表明，微调后的LLM可以作为计算效率高的NZEB控制的替代方案。

**1. 引言**
在未来二十年里，建筑物的能源消耗预计将增加40%以上，进一步增加电力需求和与建筑物运营相关的环境影响。因此，提高建筑物的能源效率已成为可持续能源规划和减少碳排放的关键组成部分[1]。在这种情况下，建筑能源系统（BES）通过协调能源的产生、存储、转换和消耗来提高运营效率和整体系统性能[2]。在新兴解决方案中，零能耗建筑（NZEBs）作为一种有前景的低碳建筑运营途径受到了越来越多的关注[3]。[NZEBs]通过平衡现场可再生能源（RES）和建筑能源需求，旨在减少对外部能源供应的依赖，同时减轻环境影响[4]。尽管具有潜力，但由于RES的间歇性、负荷需求的变化以及在运营限制下需要协调多种能源资产，NZEBs的实际运营仍然具有挑战性。这些挑战不仅限于能源预测，还直接影响BES运营中的调度、控制和决策制定。尽管包括混合机器学习方法和光伏（PV）预测方法在内的预测模型提高了可再生能源生成的准确性[5]，但在可变天气和运行条件下仍存在显著不确定性，使得NZEB的实时管理变得复杂[6]。因此，最近的研究越来越多地关注基于优化的和考虑不确定性的能源管理策略，以提高运营稳健性、经济性能和系统灵活性。例如，[7]提出了一种分层RL–MPC框架，用于建筑群，其中基于学习的MPC优化局部暖通空调设定点，而区域级的RL协调共享的热能和电力资源，从而在典型和极端条件下提高灵活性、能源成本、自用电量和热舒适度。此外，[8]开发了一种计算效率高的策略，用于预测家庭热水系统中的动态温度下降和热损失，实现自适应设定点调度，从而提高能源效率并降低运营成本。还有，[9]引入了一种时间在线混合占用预测框架，将上下文丰富的机器学习与动态重新训练相结合，在占用条件突然变化的情况下展示了更好的稳健性和预测准确性。

除了基于优化的建筑运营外，数据驱动的替代模型也因能够减少计算负担并支持BES应用中的快速决策而受到越来越多的关注。机器学习技术特别吸引人，因为它们可以捕捉建筑物状态、环境条件和运营响应之间的复杂和非线性关系[10]、[11]。在这些方法中，人工神经网络（ANNs）已被广泛用于建筑能源预测和控制，以近似非线性系统行为并支持可再生能源利用[12]。然而，基于ANN的模型通常需要大量的离线训练，并且经常需要在变化的操作条件下重复重新训练，这限制了它们在动态现实世界环境中的适应性。此外，它们的推理过程往往难以解释，从而降低了透明度，可能阻碍建筑运营者和能源从业者的信任和采用。它们的实际使用还受到从智能建筑终端收集、清洗和注释数据的耗时过程的限制。这些限制促使人们继续探索可以在保持预测性能的同时提供更大适应性和可解释性以及实施灵活性的替代决策模型。

除了基于ANN的模型外，其他机器学习方法（包括基于树的方法）也在结构化的建筑能源应用中表现出强大的性能，因为它们具有效率、稳健性和适用于数值表格数据的特点。在这项工作中使用大型语言模型（LLMs）并不是基于LLMs普遍优于所有BES任务的假设。相反，采用经过微调的LLM的动机基于几个实际考虑因素。首先，与从头开始构建模型相比，微调预训练模型可以减少特定任务的数据量和训练工作量，同时在没有可变性（包括与RES相关的变化）的情况下仍然提供强大的预测能力。其次，它避免了为每个新应用设计高度专业化的模型架构和训练流程的需求，而是通过高效的微调过程使预训练的基础模型适应NZEB运营环境[13]、[14]。此外，LLMs提供了一个灵活的框架，用于以统一和可扩展的形式表示结构化的运营状态、外部输入和控制动作，使其成为替代决策建模的有希望的候选者。它们在BES中的相关性不仅在于预测性能，还在于它们的适应性、可转移性以及适应更丰富的上下文信息和更广泛的自动化工作流程的能力[15]、[16]、[17]。

最近的研究显示，人们越来越有兴趣将LLMs应用于建筑能源和相关能源系统问题；然而，这些研究主要集中在与本研究目标不同的方面。现有的贡献可以大致分为三类。第一类包括基于LLM的预测和研究，其中大型模型用于时间序列估计、负荷预测或与居住者相关的行为建模[18]、[19]、[20]、[21]、[22]。第二类包括基于LLM的支持和推荐框架，如建筑能源分析、改造推荐和知识辅助决策支持[23]、[24]。第三类包括面向自然语言处理（NLP）的信息管理应用，如运营和维护查询系统、仿真支持、知识提取以及以人为中心的语义集成在建筑工作流程中[25]、[26]、[27]、[28]。尽管这些研究展示了LLMs在建筑能源应用中的广泛潜力，但它们主要针对预测、对话支持、描述性分析或一般自动化，而不是学习优化的运营决策以直接进行BES调度和控制。

与之前专注于预测、推荐支持或通用建筑分析的基于LLM的研究不同，本文开发了一种经过微调的LLM作为替代决策模型，该模型学习从BES运营条件和外源输入到MILP派生的NZEB能源管理运营动作的映射。在所提出的框架中，首先使用混合整数线性规划（MILP）模型生成最优运营调度方案，然后将其用作微调LLM的监督标签。所得模型并非旨在作为通用预测工具，而是作为一种决策替代方案，以计算高效的方式近似基于优化的调度动作，包括调度和电网交互决策。这种表述将LLM定位为建筑能源管理的新替代选项，同时保持了问题的能源系统焦点。因此，这项工作的贡献不仅在于预测准确性，还在于展示了NZEBs中协调电气、供暖和制冷运营的实际调度层。通过从监督MILP模型学习优化的运营模式，所提出的框架提高了重复BES调度的实用性和计算可行性。这对于具有许多决策变量和频繁调度要求的未来智能建筑应用尤为重要，因为在这些应用中直接在线优化可能会变得计算负担沉重。因此，所提出的框架支持多能源智能建筑环境中的可扩展和适应性决策制定。

**2. 系统架构**
所提出的框架是为作为NZEB运行的中型商业办公楼开发的。这种建筑类型被选为整个手稿中的代表性案例研究，并在架构、优化和模拟分析中一致使用[29]。所考虑的BES必须满足建筑的电力、供暖和制冷需求，同时高效可靠地协调本地分布式能源资源和电网交互。在本研究中，负荷剖面对应于办公楼应用，因此运营设置与商业占用条件和办公室类型的日常需求模式一致。调度问题是在前一天的时间范围内以每小时为单位制定的，其中BES决策根据可用的需求和可再生能源生成信息进行更新。

NZEBs的运营仍然具有挑战性，因为必须在外部能源供应的间歇性、负荷需求的变化以及需要在运营约束下协调多种能源资产的情况下进行协调。特别是在PV生成不确定性以及电力、供暖和制冷负荷变化的情况下，实时调度和能源平衡本质上是复杂的。因此，BES必须同时确保能源供应充足、降低运营成本并提高本地可再生能源的有效利用。这些要求激励了本文考虑的集成架构，在该架构中，多种能源资源和转换设备通过集中式能源管理框架进行协调。系统架构以及BES配置在图1中进行了说明。该建筑配备了本地PV生成、分布式发电机（DGs）和储能系统（ESS），所有这些都有助于满足电力需求。BES还连接到电网，在本地资源不足时提供补充电力，并在经济上有利时吸收多余的电力。除了电力子系统外，建筑还包括供暖和制冷设备以满足热需求。具体来说，供暖子系统由锅炉和电动热泵（HP）组成，而制冷子系统包括电动冷却机（EC）和吸收式冷却机（AC）。

**图1. 系统架构概述，包括建筑能源系统。**
热能和电力子系统在BES内共同协调。光伏系统、分布式发电（DGs）、能量存储系统（ESS）和电网产生的电力不仅被分配给建筑的直接用电负荷，还被分配给电气驱动的热设备，如高温泵（HP）和冷却泵（EC）。锅炉和高温泵提供所需的加热能量，而冷却泵利用热能来帮助产生冷却效果。因此，高温泵和冷却泵以互补的方式运行，以满足冷却需求。通过这种集成配置，建筑能源管理系统（BES）实现了电力、供暖和冷却领域的协调多能源运行。系统的整体运行由建筑能源管理系统管理，该系统决定了发电单元的最佳调度、储能系统的充电/放电操作、电网电力交换以及热设备的运行。这种协调的控制结构提高了系统的灵活性，减少了对外部电网的依赖，并增强了建筑运行的效率和韧性。因此，该架构为所提出的基于混合整数线性规划（MILP）的调度模型及其基于大语言模型（LLM）的微调决策框架提供了物理和操作基础。

3. 微调LLM整合的动机
本研究中使用微调后的LLM并非因为任务本身具有语言性。实际上，这里考虑的问题本质上是一个结构化的数值决策映射任务，模型学习建筑能源管理系统（BES）运行状态、外部输入和优化得出的控制动作之间的关系。因此，严格来说，语言建模对于解决该问题并不是必需的。采用微调后的LLM的动机在于使用了一个预训练的基础模型，该模型可以有效地进行适应，并为未来的建筑能源管理提供灵活的接口，这些管理不仅涉及数值变量，还包括操作指令、用户偏好、需求响应信号或其他可能在实际建筑能源管理应用中变得相关的丰富上下文信息[15]、[16]、[17]。同时，当前的任务仍然是一个结构化的数值问题，因此适用于处理表格数据的轻量级机器学习模型（如基于树的模型）是合适且相关的基准。因此，这项工作并不假设LLM在本质或普遍情况下优于传统的结构化数据模型用于BES调度任务。相反，目的是检验一个微调后的预训练模型是否能够在提供竞争力的预测性能的同时，也为涉及混合数值和上下文输入的智能建筑应用提供更大的灵活性。此外，这一框架的动机与净零能耗建筑（NZEB）的运营复杂性密切相关。这些系统必须在需求和可再生能源（RES）可用性的不确定性下协调可再生能源发电、ESS运行、电网互动和热设备调度。虽然传统的基于数据的模型（包括人工神经网络（ANNs）和基于树的预测器）可以有效逼近最优控制动作，但它们通常是为狭义的结构化输入开发的，在需要纳入更广泛上下文信息时可能灵活性较差。相比之下，微调后的LLM在这里被视为一个基于预训练架构的可转移决策模型，其目标是以计算效率高且可扩展的方式逼近优化得出的BES动作，而不仅仅是一个通用的自然语言模型。在提出的框架中，首先使用MILP模型为关键决策变量生成最优设定点，包括分布式发电的调度、ESS的充电/放电功率、电网交换以及供暖/冷却设备的运行。然后使用这些优化输出作为监督标签来微调LLM。因此，LLM的作用不是替代BES的物理或操作逻辑，而是学习由MILP解编码的决策策略的近似值。这种表述方式在训练完成后能够实现快速推导，并支持将该模型作为重复操作决策的替代调度器使用。

还需要澄清预测框架中操作约束的作用。预测器并不以分析或刚性约束的方式明确强制执行BES约束。相反，可行行为是从MILP生成的训练标签中隐式学习的，这些标签本身就满足了原始的操作约束。因此，微调后的LLM是否满足约束是通过事后可行性分析来评估的，包括评估发电机运行范围、ESS的充电状态限制以及电力和热平衡残差，这一点在第5节中有讨论。这种区分很重要，因为模型充当的是优化得出动作的学习代理，而不是一个受约束的优化器。在这种解释下，微调后的LLM被作为一个实用且可扩展的NZEB运营替代决策模型采用。它在本研究中的价值在于以较低的在线计算负担近似MILP得出的调度动作，同时保留了未来扩展到包含混合结构化、数值和文本信息的更丰富操作环境的可能性。这种动机比将任务视为传统的语言生成问题更为精确，并更好地将模型的使用与BES能源管理的目标对齐。

4. 提出的基于LLM的能源管理框架
图2展示了所提出的基于LLM的能源管理框架的总体工作流程。训练阶段包括三个主要步骤：1）数据集收集，2）数据预处理，3）LLM训练和微调。
下载：下载高分辨率图像（780KB）
下载：下载全尺寸图像
图2. 提出的用于微调大型LLM的方法的通用算法。
在第一阶段，使用基于MILP的多目标优化模型来确定每个可控资源的最优设定点，旨在最小化BES的运营成本，同时确保满足所有能源需求（电力、供暖和冷却）。优化决策变量，如锅炉、高温泵、冷却器、分布式发电的输出以及ESS的充电/放电水平。在此阶段，考虑了光伏发电和负荷需求（PL、HL和CL）的不确定性。包括目标函数和操作约束在内的完整数学表述在第4.1节中给出，以确保最佳性能。此外，还纳入了系统级别的功率约束，以提高可靠性并保持BES的安全运行。在第二阶段，进行数据预处理，以便适当地格式化输入以供LLM训练使用，详见第4.2节。在第三阶段，使用准备好的数据集对选定的变压器模型进行微调，使其能够学习系统运行条件与优化得出控制动作之间的映射关系。训练完成后，在测试阶段对模型进行评估。预测输出被转换为物理单位，并检查是否符合关键的操作限制，包括分布式发电的功率限制和ESS的约束，如SOC和充电/放电限制。如果预测解决方案违反了这些要求，模型将收到一个结构化的违规摘要，并再次查询，每个样本最多查询?i次。最终接受的预测结果用于计算性能指标，如MAE和RMSE，这些指标用于评估模型性能并指导超参数的优化。完整的程序在第4.3节中详细讨论。

4.1. 基于MILP的数学优化模型
本节提出了一个详细的基于MILP的数学模型，该模型具有多目标函数，旨在最小化建筑能源运营成本并减少对电网的依赖。此外，还详细介绍了分布式发电（DGs）、ESS以及电力、供暖和冷却系统之间的能源平衡的操作约束。方程（1）定义了目标函数，旨在优化BES的运行。在这个方程中，第一项代表整个BES的运营成本，而第二项反映了建筑对外部电网的依赖性。对于每个时间间隔，模型计算分布式发电产生的功率成本以及与电网交易功率相关的成本/利润。

4.2. 数据预处理、转换和编码用于LLM微调
在解决了上一节描述的基于MILP的优化模型之后，如图2所示，准备训练数据集。本小节概述了微调初期阶段的关键步骤，包括数据预处理、编码和提示工程。本研究中的预测任务本质上是一个结构化的决策映射问题，而不是自然语言生成任务。具体来说，模型学习BES运行条件与相应的MILP得出的最优设定点之间的关系。尽管如此，还是采用了LLM微调方法，因为它提供了一个预训练的基础模型，能够高效地适应相对较小的任务特定数据集，支持结构化的提示到JSON的决策接口，并为未来涉及混合数值和上下文信息的异构和丰富上下文的输入提供兼容性。在预处理过程中，所有输入和输出变量都使用z分数标准化进行标准化：
(15a)xnorm = (x - μ) / σ，
(15b)x = (xnorm / σ) + μ
其中μ和σ仅从训练集中计算得出。这一步将具有不同物理尺度的变量置于一个可比较的数值范围内，从而提高了训练的稳定性并减少了模型微调过程中的尺度相关偏差。在后处理过程中，将预测的标准化输出使用逆操作（15b）转换回其物理值。为了避免信息泄露，每个样本中只使用当前的输入特征，并且训练集、验证集和测试集在时间上严格分离。输入提示中不包含任何未来的信息。目标输出对应于同一时间步长的MILP最优运行设定点。经过标准化和规范化后，处理过的数据被传递给LLM进行特征提取和随后的系统条件预测。

与通常需要大量任务特定训练数据的传统基于ANN的框架不同，所提出的方法使用来自优化阶段的相对紧凑的数据集来微调预训练模型。该过程首先将每个数值样本转换为LLM可以处理的结构化提示格式。在本研究中，使用了一组p维输入特征和q维输出作为将原始数据转换为提示-响应对的一般模板。为了说明提示设计，下面提供了一个完整的示例。每个训练样本遵循聊天完成格式，包括三个部分：定义任务的固定系统消息、包含标准化的BES输入的用户消息，以及包含相应标准化设定点的辅助消息。示例提示-响应对：
下载：下载高分辨率图像（355KB）
下载：下载全尺寸图像
图3.LLM微调数据准备框架的整体流程图。系统消息：“您是负责零能耗建筑（NZEB）的能源管理策略。”给定标准化的每小时特征（z分数处理后），生成标准化的最佳设定点！仅返回一个包含所需数值键的简洁JSON格式——无需文本、单位或附加字段。用户消息：“标准化输入：{”PRbuy”:0.12, “PRsell”:-0.34, “P_storage”:0.56, “P_PV”:1.2, “P_load”:-0.1, “H_load”:0.3, “C_load”:0.8}。返回的JSON键包括：P_DG1, P_DG2, P_buy, P_sell, heat_boiler, cooling.AC, cooling_EC, P_dis, P_charge。助手消息：“{”P_DG1”:0.02, “P_DG2”:0.0, “P_buy”:0.15, “P_sell”:-0.12, “heat_boiler”:0.3, “cooling_AC”:0.5, “cooling_EC”:0.2, “P_dis”:0.0, “P_charge”:0.08}。在推理过程中，仅提供系统和用户消息，模型生成助手响应。这种提示结构保持了标准化操作条件与标准化控制决策之间的一致性，同时保持了紧凑且机器可读的输出格式。每个数据记录随后被序列化为与微调API兼容的结构化JSONL格式。输入特征和目标变量以键值对的形式存储，以确保模式一致性、保持数值精度，并便于与微调框架无缝集成。整个数据到提示的转换过程总结在算法1中。

下载：下载高分辨率图片（215KB）
下载：下载全尺寸图片

算法1. 将数据记录转换为LLM微调的JSONL提示。

4.3. 大语言模型训练和微调
在生成微调提示并将数据集划分为训练、验证和测试子集后，会创建一个API密钥以访问LLM。本研究中采用了OpenAI的GPT模型[30]。在OpenAI模型的背景下，微调是指使用特定任务的数据集来调整预训练模型，以提高其在特定应用中的性能。在此过程中，模型参数会通过新数据更新，使LLM能够捕捉特定任务的模式并产生更专业化的结果。微调过程首先将准备好的提示上传到ChatGPT中，在不同的操作条件下对模型进行最佳设定点的训练。微调作业可以通过微调用户界面[31]或通过Python使用API访问来启动。然后配置超参数，并在选定的基础模型上执行微调。完成后，会生成一个唯一的微调模型ID，可用于实际应用中的推理。值得注意的是，微调所需的数据集规模远小于从头开始训练传统ML模型所需的规模。

微调完成后并获得重新训练的模型后，将进行测试阶段，其中包含一个嵌入式可行性检查层。对于每个测试样本，LLM首先生成一个标准化形式的预测输出向量，然后将其转换为物理单位进行验证。预测的时间表会与运营约束进行检查，包括分布式发电机（DG）输出限制和储能系统（ESS）相关约束，如SOC界限和充放电限制。如果预测满足这些要求，则直接接受。否则，会在原始提示中添加一个结构化的可行性反馈块，总结检测到的违规情况，并再次查询相同的LLM，以便其相应地调整输出。然而，该层并不保证可行性；相反，它试图在违规情况下鼓励LLM修改其决策，以保持设定点在系统约束范围内。这个重试过程会持续到预定义的最大尝试次数。最终接受的预测用于性能评估。

测试阶段中的可行性反馈提示示例：
用户消息：“与第4.2节中的原始样本相同——需要可行性校正（去标准化后）——违规：去标准化后P_DG1超出DG1功率限制（约8.3%的步骤；最大超额约为12.3千瓦）。”

对于评估，测试提示的格式与训练提示相同。对于每个测试案例，微调后的LLM生成预测的设定点，并将其与参考值进行比较。模型的预测性能使用平均绝对误差（MAE）和均方根误差（RMSE）来评估，定义如下：
(16) MAE = 1/N × Σi=1N |yi?y^i|
(17) RMSE = 1/N × Σi=1N (yi?y^i)^2

5. 结果
5.1. 案例研究
本节详细分析了所提出的预测模型及其在BES最优运行中的应用。微调后的LLM预测的输出被集成到控制框架中，以支持更有效的BES运行调度和管理。预测和优化模型应用于德国柏林的一座中型办公楼。电力、供暖和制冷负荷数据来自[29]中报告的办公楼模型。PV数据集是使用[32]中的数据为PV系统生成的。每小时计算基于从一个典型办公楼提取的现实住宅负荷曲线。ANN编码、通过API访问执行的微调LLM以及模型评估是在一个配备3.60 GHz英特尔Core i7-4790 CPU和16 GB RAM的计算机上使用Python在Spyder环境中完成的。初始测试系统数据见表1。

表1. BES优化中测试系统配置的参数
参数单位值
PDG_imin/max [0,0.9] MW ηe2h HP
PV Total Capacity 3 MW ηCh/Dis
ESSmax 1 MWh ηe2c EC
2 C 10.2 $/KWh ηe2h BL
3 C 20.3 $/KWh ηh2c AC

本研究中使用的LLM模型是从GPT-4o-mini基础模型[30]微调而来的。表2总结了用于LLM微调的超参数。这些超参数是根据OpenAI API指南和验证损失监控选定的，而不是通过系统化调整过程[31]选定的。所选值确保了验证的稳定性，没有进行超参数消融研究。数据集按照图3中显示的模板转换为结构化文本提示，以确保与模型的分词过程兼容。有意选择GPT-4o-mini作为基线模型，以评估LLM的性能并展示所提出的微调框架的能力和通用性。虽然更大规模的模型预期提供更高的准确性，但GPT-4o-mini提供了一个经济高效且可行的替代方案，适合验证所提出的方法。第5.4节提供了不同LLM模型的比较分析。

表2. LLM微调的超参数配置
参数基线模型 GPT-4o-mini
训练方法监督学习学习率乘数 0.8
批量大小 3
训练周期数 10

5.2. 训练数据规模的影响
为了评估训练数据规模对模型性能的影响，使用了具有不同样本大小的多个数据集进行微调。通常，70%的可用数据用于训练，而总数据集的15%（相当于训练规模的20%）用于验证。为了评估模型预测BES最佳设定点的能力，在所有训练规模场景下进行了24小时范围的测试。每个样本的最大重查询尝试次数εi设置为3（包括初始查询）。

在微调过程中，模型使用OpenAI的分词器处理输入，该分词器将文本转换为标记——即子词单位而不是完整单词。频繁出现的单词通常映射为单个标记，而不太常见或复杂的表达式可能被拆分为多个标记。这种设计使模型能够有效地表示多种词汇、技术术语和数值。因此，分词对于将结构化输入（如负荷值、设定点和时间序列数据）编码为提示格式至关重要。由于训练和推理的计算成本取决于标记数量而不是字符数量，本研究中采用了精心的提示工程设计，以在保持关键上下文信息的同时减少标记数量。表3展示了微调细节，包括标记使用情况和数据集规模。为了透明度，训练预算以标记表示；货币成本取决于当前价格，可以通过公式(18)估算。例如，使用60,110个训练标记，成本约为0.06011 × rate（每1M标记的美元价格[30]）。
(18) cost ≈ (trained_tokens / 10^6) × rate

表3. GPT-4o-mini的标记和微调过程
场景训练样本大小训练标记数量
天 24 60,110
周 16 84,200
月 30 18,053
年 57 60,144

图4(a)展示了不同数据规模场景下的训练过程。如预期，更大的训练集会导致更快的收敛（即达到给定性能所需的周期数更少）。注意，微调中的步骤数与周期数不同。为了可比性，结果按周期报告。例如，使用一个月的训练数据（720个样本）、批量大小3和10个周期，总步骤数为(720/3)×10=2400。由于步骤数随数据集大小和批量大小而变化，按周期标准化可以实现跨场景的一致比较。图4(b)展示了每个场景的验证损失，图4(c)显示了年度规模样本的最佳性能，其次是每月数据集。图5(a)和5(b)分别报告了所有数据规模场景下的测试集MAE和RMSE。一个月的训练集比日和周数据集提供了更可靠的性能，而全年数据集则获得了最低的错误率。然而，每月配置所需的标记数（180万）远少于年度配置（1450万），使得每月数据集成为后续分析和验证的更经济和可扩展的选择。

下载：下载高分辨率图片（311KB）
下载：下载全尺寸图片

图4. 不同训练集大小下GPT-4o-mini的微调收敛情况：(a)训练性能，(b)验证性能，(c)最小验证损失。

下载：下载高分辨率图片（142KB）
下载：下载全尺寸图片

图5. 使用GPT-4o-mini在不同数据规模场景下的测试性能：(a) MAE；(b) RMSE。

5.3. 基线比较
5.3.1. 系统性能
在本节中，使用ANN和XGBoost作为基准预测模型，以验证所提出的微调方法在最佳设定点预测方面的输出。用于ANN和XGBoost训练的超参数总结在表4中。XGBoost是一种基于梯度提升回归树的集成学习方法，最终预测是通过一系列决策树生成的[33]。在每次提升迭代中，都会添加一棵新树以最小化包括预测误差和树复杂性惩罚项在内的规范化目标。与基于ANN的模型不同，XGBoost特别适用于结构化表格数据，并且能够以相对较低的训练复杂性捕捉非线性交互。然而，类似于ANN预测器，除非应用了外部可行性修复或后处理机制，否则XGBoost不会强制实施系统约束。

表4. ANN和XGBoost模型的超参数配置
| 参数 | 基线模型 | GPT-4o-mini |
|-------------|-------------------|--------------|
| Feed-forward | Number of trees | 200 |
| Training method | Supervised | |
| Number of trees | 200 | |
| Max tree depth | 6 | |
| Learning rate | 1×10^-3 | |
| | Learning rate | 0.1 |
| Activation function | ReLU | |
| Subsample ratio | 1 | |
| Optimizer | Adam | |
| Column subsample ratio | 1 | |
| Batch size | 3 | |
| Minimum child weight | 1 | |
| Number of epochs | 10 | |
| Hidden layers | 2 | |
| Neurons per layer | 64 | |

图6将微调后的LLM的结果与ANN和XGBoost方法的结果进行了比较。微调后的LLM在大多数输出变量上与实际操作剖面更为一致，而XGBoost也表现出强劲的性能，并且持续改善了ANN基线的表现。在AC制冷（图6(a)）和热锅炉输出（图6(b)中，LLM和XGBoost都能比ANN更准确地跟踪主要变化和峰值。这种高性能归因于LLM的架构，它能够有效捕捉数据中的复杂和非线性模式。此外，微调后的LLM在图6(d)中展示了建筑与公用电网之间电力交换的更可靠预测，在图6(c)中展示了发电机设定点，在图6(e)中展示了ESS的充放电功率。这表明了其在处理能源系统操作方面的鲁棒性，因为LLM更紧密地跟随实际趋势，并且比ANN和XGBoost更好地捕捉了运营转换。

下载：下载高分辨率图片（1017KB）
下载：下载全尺寸图片

图7比较了三种预测模型的测试误差，显示微调后的LLM取得了最佳的整体性能，其次是XGBoost，而ANN的误差最大。如图7(a)–(d)所示，LLM获得了最低的MAE、RMSE和NRMSE值，分别为0.0282、0.268和0.383，而XGBoost分别为0.139、0.356和0.509，ANN分别为0.238、0.402和0.573。相对于ANN，微调后的LLM将MAE、RMSE和NRMSE分别降低了约88.2%、33.3%和33.2%。与XGBoost相比，LLM进一步将这些误差分别降低了约79.7%、24.7%和24.8%。这些结果证实了微调后的LLM在所检查的方法中提供了最准确和稳定的BES最佳设定点预测，而XGBoost也明显优于ANN基线。

图7比较了三种预测模型在测试数据上的评估指标。图7(e)中的误差分布图提供了关于模型行为的额外见解。LLM的误差分布更集中于零附近，表明预测更一致，大的偏差较少。XGBoost显示出类似但更分散的模式，而ANN则表现出最宽的分布和更严重的极端误差。这种行为表明，经过微调的LLM能够更好地捕捉系统状态与最佳运行决策之间的非线性关系，不仅降低了平均误差，而且在不同运行条件下的预测性能更加可靠。值得注意的是，这一精度水平是仅使用一个月的训练数据实现的，这凸显了在数据有限的情况下所提出的微调策略的有效性。

5.3.2 可行性评估
图8展示了实际调度方案和三种基于预测的方法的可行性和约束满足性能。应当注意，ANN、XGBoost和经过微调的LLM都作为预测代理，而不是受限优化器；因此，它们本身并不能提供正式的可行性保证。然而，在所提出的基于微调LLM的代理调度器中，引入了一个可行性检查层，当检测到约束违规时，允许LLM修正其决策。因此，图8中观察到的差异应被视为每个模型从MILP生成的标签中有效学习可行运行模式的实证反映，而不是明确内置的约束执行的证据。

下载：下载高分辨率图像（127KB）
下载：下载完整尺寸图像
图8. 不同模型的可行性和约束满足性能比较。

如图8所示，ANN在多个约束上表现出最高的违规率，包括PDG、2(t)、PESSCh/Dis(t)、PGbuy(t)、PGsell(t)和CEC(t)。XGBoost相对于ANN提高了可行性性能，并且在大多数情况下降低了违规率，但仍然观察到违规，特别是对于ESS充放电功率和电网功率交换变量。在图6(c)中显示的发电机调度结果中也观察到了类似的趋势，其中ANN偶尔会预测超出可调度单元的操作限制，而LLM和XGBoost则更接近于可行的运行区域。在三种预测模型中，经过微调的LLM实现了最佳的总体可行性性能，大多数变量没有违规，只有PESSCh/Dis(t)的违规率有限。总体而言，经过微调的LLM在热能和电能输出上表现出最一致的行为，进一步支持其在相同训练设置下对BES运行设定点预测的可靠性。

需要强调的是，LLM的输出没有应用硬编码的可行性执行。相反，经过微调的LLM直接从提示-目标训练对中学习输入-输出关系。通过嵌入的可行性检查机制，模型能够识别违规情况并相应地修正其输出。因此，生成的调度方案更倾向于保持在可行的运行区域附近。这种行为表明它从MILP生成的数据中学习了更强的结构化模式，但这不应被解释为LLM明确知道或执行系统约束的证据。同样，ANN在数据有限的情况下可能无法满足某些约束，其可行性性能可能随着更多的训练样本或额外的训练周期而提高。然而，本研究的目标是在相同的数据限制条件下比较所有方法，并评估每种模型从可用数据中学习BES复杂运行关系的有效性。

5.4 LLM模型比较
为了评估对基础模型选择的敏感性，我们使用相同的一个月数据集对几个OpenAI模型[30]进行了微调。微调配置（周期数、批量大小、学习率乘数）在所有模型中保持不变，所有情况下的训练令牌总数相同（1,805,360；见表3）。表5总结了每次运行的实际方面，包括模型特定的成本、作业创建元数据以及过程的每个阶段的墙钟持续时间。报告将操作开销与模型依赖的训练时间分开；我们还提供了总时间（不包括排队）作为独立于瞬态集群负载的有效作业时间指标。为了清晰起见，我们定义了表5中报告的时间阶段：
• 验证：从作业创建到“文件验证”。包括数据完整性、格式化和分词检查；基本上与模型无关。
• 排队：从“文件验证”到“微调作业开始”。反映了等待计算资源（集群拥堵）的情况，而不是模型复杂性。
• 训练：从“微调作业开始”到“创建新的微调模型”。适当的监督微调（在此窗口内设置检查点）；由令牌计数、周期数、批量大小、学习率和基础模型大小驱动。
• 策略评估：从“创建新的微调模型”到“完成使用策略评估”。训练后的安全/策略检查；通常比训练时间短。
• 收尾：从“完成策略评估”到“作业成功完成”。最终注册和启用；秒级开销。
表5. 不同模型的微调阶段持续时间。

图9报告了不同基础LLM的测试MAE和RMSE。在相同的微调设置和一个月的训练数据集下，GPT-4.1取得了最佳的整体预测性能，实现了最低的测试MAE（0.003）和RMSE（0.026），其次是GPT-4.1 mini，其MAE为0.007，RMSE为0.047。相比之下，在相同条件下，GPT-4o mini和GPT-4o显示出明显的更大误差。这些发现表明，对于BES设定点预测，GPT-4.1系列更适合学习基于优化的控制模式。测试范围内的综合结果也倾向于GPT-4.1。这些模型在更高不确定性水平下的性能在第5.5节中进一步讨论。

下载：下载高分辨率图像（138KB）
下载：下载完整尺寸图像
图9. 不同LLM模型的评估指标（MAE和RMSE）比较。

5.5 不确定性分析
为了评估输入不确定性下的鲁棒性，使用乘性高斯噪声扰动了选定的输入特征，同时保持真实目标不变。这种设计隔离了模型输入中的不确定性影响，对于基于LLM的方法，也隔离了提示中嵌入的数值的不确定性影响。扰动的特征包括电网买入价格（PRbuy）、电网卖出价格（PRsell）、光伏功率（PPV）、电能负载（Pload）、热能负载（Hload）和冷能负载（Cload），而储能状态输入没有受到扰动。对于每个特征，扰动值生成为（19）xperturbed=x(1+?)，其中?～N(0,σ2)且σ∈{0.1, 0.2, 0.3, 0.4, 0.5}代表不确定性水平。假设噪声在特征和时间上是独立的（无时间相关性），并且在每个水平上都是同方差的（变化系数恒定）。对于每个不确定性水平，进行10次蒙特卡洛复制，并对所有比较方法应用相同的噪声实现，以进行公平评估。

图10报告了平均MAE和RMSE值，误差条表示蒙特卡洛运行的标准偏差。正如预期的那样，随着不确定性水平的提高，所有方法的预测误差都会增加。然而，基于微调的LLM模型在较低和中等不确定性水平下仍然比ANN和XGBoost基线更稳健。在测试的模型中，GPT-4o-mini和GPT-4.1-mini在10%和20%的不确定性下实现了最低的MAE和RMSE值，如图10(c)和图10(d)所示。在更高的不确定性水平下，所有方法的误差都会增加，但新的LLM变体仍然保持有竞争力的误差水平，通常低于传统基线。总体而言，这些结果表明，经过微调的LLM框架对BES运行输入的不确定性更为稳健，并且在扰动条件下能更有效地保持预测质量。

下载：下载高分辨率图像（525KB）
下载：下载完整尺寸图像
图10. 在输入不确定性下不同方法的验证。

6. 讨论
6.1 主要发现
本研究提出了一个用于预测NZEB中BES最佳设定点的微调LLM框架，该框架使用由确定性MILP模型生成的监督标签。与重复在线解决优化问题不同，所提出的框架学习了系统运行条件与相应的优化控制行动之间的映射。在相同的训练和测试条件下，经过微调的LLM在比较的代理模型中实现了最佳的总体预测性能，包括ANN和XGBoost。结果表明，所提出的基于LLM的框架降低了预测误差，改善了可行性行为，并在输入不确定性下保持了更强的鲁棒性，表明它比基准方法更能有效地再现MILP产生的运行模式。

从建筑能源管理的角度来看，主要贡献不仅在于预测精度，还在于增强了基于优化的调度的实际可用性。在NZEB应用中，重复的基于MILP的调度可能在计算上非常密集，特别是对于具有多个耦合变量的大规模系统。所提出的代理框架能够快速近似优化决策，支持日前和滚动视野控制，同时保持协调的多能源运行。因此，这种方法应被视为一种优化引导的决策支持工具，而不是MILP的直接替代品。

一个值得注意的现象是，即使在数据有限的情况下，经过微调的LLM也能表现得很好。这可能归因于结构化的提示-响应公式以及预训练的变压器模型有效适应相对较小的特定任务数据集的能力。相比之下，ANN基线似乎对有限的训练样本更加敏感，并且对于通过电气和热运行约束强烈耦合的变量，容易出现局部过高或过低的估计。XGBoost在基准比较中有所改进，在大多数情况下表现优于ANN，特别是对于结构化的表格输入；然而，经过微调的LLM在耦合的BES输出上仍然提供了最一致的性能。这些发现支持将经过微调的LLM作为优化引导能源管理任务的实用代理决策模型的使用。

不确定性分析进一步支持了这一结论。当使用乘性高斯噪声扰动多个输入特征并伴有时间相关的误差时，所有方法的预测误差都会增加。尽管如此，经过微调的LLM在大多数不确定性水平下仍然比传统基线更稳健。此外，可行性分析表明，LLM的输出比ANN和XGBoost更接近可行的运行区域。这种改进应被视为从MILP生成的监督标签中更有效地学习可行运行模式的实证结果，而不是明确执行约束的证据。尽管MAE和RMSE等综合误差指标的减少可能看起来很小，但其操作意义是重要的，因为ESS功率、电网交换和热设定点的误差可能会导致成本偏差和能源不平衡。因此，LLM准确性的提高转化为与最佳运行策略更好的对齐，增强了其在实际能源管理应用中的适用性。

6.2 局限性
尽管结果令人鼓舞，但仍应承认几个局限性。所提出的框架并不提供正式的可行性保证，因为LLM、ANN和XGBoost模型都作为预测代理，而不是受限优化器。此外，该研究基于单一建筑案例研究，需要在不同建筑类型、气候、费率结构和BES配置中进行更广泛的验证，以评估其普遍适用性。

所提出的方法也应在适当的方法论背景下进行考虑。这里使用LLM作为MILP最优行动的代理，而不是直接优化器，这使得快速推理成为可能，同时保持了基于优化的监督参考。这对于实时BES调度来说是一个实用的选择，尽管通过基于API的工作流程进行部署可能会引入外部依赖性、延迟和云执行的考虑。此外，本研究中的MILP目标权重系数是固定的，以定义一致的监督政策，这些系数的全面敏感性分析留待未来工作进行。与开源或非OpenAI LLM系列的比较也留待未来研究。

还应注意的是，本研究基于一个中等规模的商业办公楼。因此，所报告的发现应被视为基于案例研究的，而不是普遍适用于所有建筑类型、气候、费率结构和BES配置的。尽管如此，所选择的案例涵盖了NZEB运行的核心多能源调度问题，包括耦合的电能、热能和冷能需求、光伏发电、ESS运行、电网交换和多个可控设备，因此作为所提框架概念验证的有意义基准。

6.3 未来方向
有几个方向可以扩展这项工作。一个重要的方向是研究将代理预测与显式的可行性修复或约束筛选机制结合的混合框架，以提高运营可靠性。另一个有前途的方向是研究是否可以直接将优化结构或物理约束更直接地纳入微调或推理过程中。尽管直接的基于LLM的优化超出了本研究的范围，但它仍然是一个重要的长期研究课题。

还需要进行更广泛的基准测试。未来的研究应该评估更多的开源和商业大型语言模型（LLM）系列，探索系统性的超参数敏感性，并考察更大、更多样化的领域特定训练数据集的影响。在多个建筑和运行环境中进行进一步验证将有助于确定所提出方法的通用性。除了净零能耗建筑（NZEB）调度之外，类似的基于LLM的替代框架也可以扩展到相关的能源应用中，如经济调度、需求响应和集成储能系统（ESS）管理，在这些领域中，快速近似优化决策是非常有价值的。未来的工作应研究该方法在更广泛的智能建筑环境中的适用性，包括不同的占用情况、气候条件、定价结构、ESS容量以及暖通空调/建筑能源系统（HVAC/BES）配置。

7. 结论
本研究提出并评估了一个针对NZEB环境中建筑能源系统（BES）设定点预测的微调后的基于LLM的框架。结果表明，与传统的替代模型（包括人工神经网络（ANN）和XGBoost）相比，所提出的方法提供了更准确和稳健的预测结果，并且在输入不确定性条件下仍保持强劲的性能。这些发现支持将基于LLM的替代模型作为人工智能辅助能源管理的有前途的工具，特别是在数据有限的条件下需要快速可靠决策支持的应用中。
尽管具有这些优势，但仍存在一些限制。当前框架并未明确保证可行性，依赖于API和云计算的部署方式，可能会受到延迟和有限可解释性的影响。此外，本研究基于一个中等规模的商业办公楼。尽管如此，所选的案例涵盖了NZEB运行的关键特征，包括电气子系统和热子系统之间的耦合、光伏发电、ESS调度以及与电网的互动，因此为概念验证提供了一个有意义的基准。未来的工作应该将提出的框架扩展到其他建筑类型和能源系统配置中，以评估其更广泛的适用性。

作者贡献声明：
Rouzbeh Haghighi：撰写——原始草稿、调查、方法论、概念化。
Van-Hai Bui：撰写——审阅与编辑、监督、方法论、验证。
Wencong Su：撰写——审阅与编辑、监督、验证、项目管理、资金获取。

热点排行