重新审视数据驱动的短期建筑能耗预测中的关键因素:迈向数据准备、模型训练和评估的标准化方法
【字体:
大
中
小
】
时间:2026年03月12日
来源:ADVANCED ENGINEERING INFORMATICS 9.9
编辑推荐:
本研究基于32栋建筑数据,分析数据预处理、模型训练及评估方法对24小时建筑能源预测的影响,提出标准化流程框架,为LLM辅助的能源预测提供实践指导。
程帆|沈恩琪|戴妍|莫金汉
中国深圳大学亚热带建筑与城市科学国家重点实验室
摘要
准确描述建筑能源模式的时间动态对于优化实时建筑运营性能至关重要。建筑运营数据的广泛可用性以及数据科学的最新进展极大地促进了基于数据的解决方案的发展,这些解决方案可用于小时、天或周级别的短期建筑能源预测。尽管建筑领域有大量的研究,但由于建筑数据的特点各异、数据驱动建模程序不一致以及使用的评估指标不同,要区分真正具有竞争力的方法仍然具有挑战性。本研究利用从32栋建筑收集的实际测量数据,探讨了各种方法在开发用于24小时建筑能源预测的数据驱动模型中的影响。设计的数据实验旨在回答三个主要方面的八个问题(即数据准备、模型训练和性能评估),并揭示常见做法中的潜在陷阱和在量化数据驱动解决方案的实际价值时的偏差。本研究旨在提高建筑研究人员和实践者对短期建筑能源预测最佳实践的认识。所获得的结果有助于标准化分析程序,并进一步提升建筑领域学术研究的参考价值。
引言
对可持续和低碳建筑的迫切需求需要更高效、更智能的建筑运营方法。现代建筑通常配备了全面的传感器网络,能够系统地收集数据以监测和控制建筑性能。虽然秒级或分钟级的高频数据越来越容易获得,但由于与公用事业计量实践、运营决策时间尺度以及公共基准数据集的可用性相一致,亚小时级或小时级数据仍然是建筑能源预测任务中最常见的分辨率[1]、[2]。
作为一个突出的例子,短期建筑能源预测通常描述未来几小时或几天的能源模式,这引起了学术研究人员和工业实践者的极大兴趣,因为它们与日常建筑运营密切相关,如实时异常检测和控制优化[3]、[4]。在过去几十年中,建筑领域观察到了一个更广泛的范式转变,从使用小型数据集进行灰箱模型参数化发展到利用大型建筑运营数据集进行复杂的机器学习模型开发[5]、[6]。现有研究已经证明了机器学习技术在预测准确性方面的优势[7]、[8]。例如,集成模型可能采用自举或装袋方法来建立基础模型,由于其在准确性和对抗过拟合方面的技术优势而被广泛使用[9]、[10]。基于人工神经网络的方法得到了发展,因为它们在模型架构上的可扩展性和与各种任务的兼容性方面表现出色,例如通过主动学习识别信息数据样本[11]、通过半监督图卷积进行故障检测和诊断[12]、通过模型权重共享和微调进行知识转移和协作模型训练[13]、[14],以及通过生成学习生成合成数据[15]、[16]。最近的调查系统地研究了时间序列预测的深度学习架构,强调了从传统统计方法到使用卷积、循环和基于变压器的先进方法的演变[17]、[18]。最近开发的模型不可知和模型特定解释方法进一步提高了基于人工神经网络的解决方案在数据驱动建模中的受欢迎程度[19]、[20]。几项研究评估了建筑能源预测的评估方法,并指出了时间序列建模工作流程中的常见陷阱[21]、[22]。包括ASHRAE Great Energy Predictor III竞赛在内的基准研究为不同建筑组合的模型性能提供了宝贵的见解[23]。研究人员意识到选择合适的基线方法是严格比较模型性能的关键[24]。
尽管取得了这些进展,但仍然难以识别出真正有前景和具有竞争力的数据驱动解决方案来分析建筑能源数据。主要原因有两个方面。首先,大多数研究使用一两个特定的建筑进行分析,因此得出的结论可能不具有普遍性,因为建筑可能具有独特的运营模式和不同的内在可预测性水平[25]。例如,预测较小规模建筑的能源模式可能更加困难,因为它们对个别居住者的日程安排和活动的随机变化更为敏感。其次,建筑领域缺乏标准化的分析流程[26]。因此,不同的研究可能在数据预处理和模型优化等关键任务上采用不同的方法,使得直接比较几乎不可能。例如,数据驱动模型的性能对其超参数非常敏感。考虑到模型优化的不同努力,报告的结果可能无法反映所提出方法的最佳性能。
上述挑战可以从两个角度解决。首先是使用多个测试建筑的固定开放数据集来评估所提出的数据驱动模型的性能[27]。研究人员已经在收集和准备此类建筑能源模式的数据集方面做出了努力[28]、[29],但这仍处于初步阶段,大多数开放数据集收集在美国、英国、爱尔兰和新加坡[30]。其次是正确理解各种分析程序的影响和后果,从而就最佳数据驱动建模实践达成共识[31]。应该提到,大型语言模型(LLMs)的快速发展为建筑能源研究提供了强大的工具。LLMs在自动化复杂工程工作流程方面表现出色,例如建筑能源模型生成[32]、[33]、能源管理优化[34]以及故障检测和诊断[35]。在数据驱动能源预测的背景下,LLMs越来越多地被用作智能代理,能够自主设计数据预处理流程、选择预测建模算法、调整数据驱动模型的超参数,并以自然语言解释预测结果[36]、[37]。最近的一项调查确定了LLMs在能源相关应用中可以扮演的13个不同角色,从数据分析师和建模者到预测器和顾问[38]。然而,LLM驱动的能源分析的有效性从根本上取决于底层数据驱动建模实践的质量和一致性。如果输入或由LLMs遵循的数据准备、模型训练和评估程序没有标准化,那么获得的结果可能不正确或不合理。例如,正如我们将在本研究的后半部分展示的,一个默认随机数据划分的LLM代理将产生乐观的准确性估计,而不知道潜在的数据泄露问题。这些担忧进一步激发了本研究通过实证量化不同方法如何影响数据驱动建筑能源预测性能的动机。研究结果可以作为领域特定的知识,指导LLM辅助的建筑能源预测任务过程。
虽然现有的综述全面调查了数据驱动的建筑能源预测方法,像ASHRAE Great Energy Predictor III这样的基准竞赛也比较了不同建筑的模型性能,但在量化建筑能源领域方法选择的实际影响方面仍存在差距。随着LLMs被用于自动化数据驱动能源分析流程,这一差距变得越来越重要,应该提供适当的指导来证明LLM生成的工作流程和结果的有效性。本研究通过使用32栋建筑的每小时测量数据进行了全面的数据实验,以解决这一差距。贡献有三个方面。首先,将量化不同的数据准备、建模和评估实践的影响,为分析流程设计提供有用的参考。其次,将得出基于证据的标准化分析流程建议,以确保建筑领域研究的可重复性和公平的跨研究比较。第三,提出了一个结构化的方法论框架,作为LLM驱动建筑能源分析的知识库,促进采用最佳实践进行自动化建筑能源预测。
其余内容组织如下。第2节介绍了理论基础和数据实验设置。接下来的三个部分展示了不同数据准备、建模训练和评估方法如何影响整体分析的数据实验结果。第6节讨论,第7节结论性评论分别作为讨论和结论。
部分摘录
点态建筑能源预测的一般程序
本研究关注在固定时间窗口范围内的点态建筑能源预测,其中建立数据驱动模型,使用前
个时间步长的历史测量数据(即表示为Xt-p+1、Xt-p+2、…、Xt-1、Xt)来预测下一个f步长的值(即表示为Yt+1、Yt+2、…、Yt+f)。当f等于一时,问题被定义为一步预测任务;否则为多步预测任务。本质上,这种情境对应于滚动窗口
训练和测试数据划分策略的变化
如2.1节所述,随机和时间划分策略在数据分割过程中是否保留时间顺序方面有所不同。本节量化了这一选择对32栋建筑预测准确性的实际影响。
为了说明这一点,设计了数据实验来评估在训练和测试数据采样时是否考虑其时间顺序对准确性指标的影响。更具体地说,一个固定的神经网络
基于Shapley值的一般性能解释
计算机科学的进步在数据处理技术、模型架构和训练方案方面为数据驱动建模方法带来了巨大的变化[42]、[43]。与计算机视觉和自然语言处理领域的复杂建模任务不同,建筑能源分析通常复杂度较低,因为其数据量较小,且物理相关操作模式更易于追踪。一个自然的问题可能是,采用
点态预测的尺度依赖性和尺度无关性评估指标
存在许多评估点态时间序列预测性能的指标。一般来说,评估指标可以分为两类,即尺度依赖性和尺度无关性指标,我们建议感兴趣的读者参考[45]、[46]以获取关于点态时间序列评估指标的详细总结。尺度依赖性指标使用与目标时间序列相同的尺度和单位来量化预测误差,例如平均绝对误差(MAE)、均方误差
点态建筑能源预测的标准化程序
基于上述数据实验结果,认为需要一个标准化的分析流程来更好地指导建筑领域的研究。如图15所示,制定了三个阶段的六个可操作步骤,每个步骤都附有来自数据实验的具体推荐实践或定量结果。从数据的角度来看,第一步是检查训练数据对不同建筑运营季节性的覆盖情况,因为缺乏
结论性评论
准确的建筑能源预测对于高效和有效地控制建筑能源系统非常有价值。本研究从三个主要方面讨论了确保数据驱动模型可靠性和提高相关研究普遍性的关键问题,即数据准备方法、模型训练技术和评估指标。设计的数据实验量化了不同方法对建筑能源预测的影响。主要发现和
CRediT作者贡献声明
程帆:撰写——原始草稿、软件、方法论、调查、概念化、形式分析、可视化、撰写——审阅与编辑。沈恩琪:可视化、调查、形式分析。戴妍:撰写——审阅与编辑、调查、概念化。莫金汉:撰写——审阅与编辑、监督、调查、概念化。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
致谢
作者衷心感谢国家自然科学基金(编号:52325801、52278117、52225801)、广东省基础与应用基础研究基金(2024A1515011549)以及深圳市科学技术计划(20240813143330039)对这项研究的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号