在极少量上下文信息的情况下,利用结构化采样技术对建筑管理系统中的点进行标记的检索增强型大型语言模型(Retrieval-augmented LLM)
《AUTOMATION IN CONSTRUCTION》:Retrieval-augmented LLM with structured sampling for Building Management Systems point tagging under minimal context
【字体:
大
中
小
】
时间:2026年03月18日
来源:AUTOMATION IN CONSTRUCTION 11.5
编辑推荐:
语义标签自动化:基于检索增强生成的大语言模型在建筑管理系统元数据标注中的应用
郑志宇|西尔万·马里埃|西尔万·库布勒
卢森堡大学,卢森堡市,卢森堡
摘要
对建筑管理系统(BMS)元数据进行语义标注对于实现互操作性至关重要,但目前这一过程仍然非常耗时且劳动密集。本文提出了一种名为BMS-RAG的检索增强生成(Retrieval-Augmented Generation)框架,该框架利用大型语言模型(LLMs)在极少监督的情况下自动完成点类型分类。该框架能够动态检索相关示例以指导LLM的学习过程,适应不同的命名规范而无需重新训练模型。一个轻量级的校正层确保标注内容符合预定义的本体(例如Brick),从而减少错误标注。在六个真实世界数据集上的评估表明,BMS-RAG取得了业界领先的结果,在F1分数上始终比静态的少量样本LLM基线高出15%以上;在一些数据集中,使用我们最小化的、基于质量的上下文大小时,准确率接近或达到了100%。本文的主要贡献是将RAG技术应用于BMS元数据标注,为实现语义互操作性提供了一条可扩展、准确且低成本的途径。
引言
数据驱动的建筑应用(包括故障检测与诊断以及基准测试)的出现,凸显了针对建筑实体相关复杂原始元数据进行高级预处理的重要性[1]、[2]。如图1中的漫画所示(见第一个面板),建筑物依赖于多种不同的元数据规范,这些规范不仅因设施而异,也因供应商和安装者而异(例如,使用‘’或‘’来表示温度)。这种多样性给实际解释带来了挑战,通常需要人工干预来确保一致性和准确性,导致这一过程主要依赖人工且具有场地特定性。为了实现这些应用的规模化,已经创建了诸如Brick[3]这样的标准化元数据框架。这些框架将建筑元数据组织成可识别的模式,如三元组{Room01, hasPoint, temp_sensor}或{temp_sensor, a, Temperature_Sensor},并定义了实体类和关系(例如,Temperature Sensor类和hasPoint关系)。这些标准通过简化建筑组件的识别和分类过程,促进了应用开发。
尽管存在广泛采用的元数据模式和本体,但将供应商或安装者特定的建筑设备元数据标注到这些框架中仍然是一项繁琐的任务,正如漫画中的第二个面板(图1)所示。虽然一些BMS平台提供了手动标注功能并提出了专有的命名规范(如SEBA[4])来辅助基于规则的映射(即确定性模式匹配规则),但这些方法仍然耗时且容易出错。例如,在点实例ZN02-Temp_Flt中,预定义的规则通常将‘ZN’标注为Zone,‘Temp’标注为Temperature Sensor(尽管在某些情况下它也可能表示Setpoint),‘Flt’标注为Fault(尽管它也可能指Filter)。随着数据量和系统复杂性的增加,这些方法在可扩展性方面遇到了困难(参见图1的第三个面板),这凸显了需要更先进、自动化的解决方案来准确灵活地管理日益复杂的建筑元数据。
人工智能技术为元数据标注提供了更强的能力,但同时也带来了新的挑战。传统的机器学习方法,特别是监督学习,需要大量的标记数据集才能有效运行[5]、[6],并且往往难以泛化到新的场景或环境中[7],限制了它们在现实世界中的应用。大型语言模型(LLMs)和检索增强生成(RAG)技术[8]、[9]的出现为克服这些限制提供了有希望的途径。RAG在减少BMS点实例名称的歧义方面尤其有价值。例如,当遇到像‘
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号