基于生成式AI的数据增强技术以及对象引导的视觉-语言推理方法，用于高空作业中个人防护装备（PPE）合规性分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ADVANCED ENGINEERING INFORMATICS》：Generative AI-driven data augmentation and object-guided vision-language reasoning for PPE compliance analysis in work-at-height

【字体：大中小】 时间：2026年01月27日 来源：ADVANCED ENGINEERING INFORMATICS 9.9

编辑推荐：

　　合成数据增强与视觉语言模型驱动的PPE合规性分析框架在建筑高空作业中的应用，通过结构化安全标准生成高质合成数据，结合目标检测与语义推理实现自动化合规评估。

徐文宇|易文|谭毅

香港理工大学建筑与房地产系，中国香港

摘要

个人防护装备（PPE）的合规性是确保高空作业安全的基本前提。尽管计算机视觉技术提升了PPE检测的效率，但仍存在数据集稀缺的问题，这限制了模型的泛化能力；同时，较弱的语义推理能力也阻碍了可靠的合规性验证。为了解决这些问题，本文提出了一种基于生成式人工智能的数据增强方法以及一种对象导向的视觉-语言模型（VLM），用于分析高空作业中的PPE合规性。通过ChatGPT 4o将高空作业的安全标准和PPE要求转化为可变定义池和结构化提示，作为输入用于文本到图像（T2I）生成模型，以创建合成数据集。对象检测模型用于识别PPE部件，其输出结果与VLM结合，实现了将对象检测与自然语言理解相结合的视觉-语言推理。实验结果表明，DALL·E 3生成的合成数据集比其他图像生成模型更加真实，这种混合数据集显著提高了检测性能（mAP@0.5=88.5%，小对象mAP@0.5=75.8%）。使用YOLOv11的检测结果作为结构化输入，Qwen2.5-VL-7B实现了可靠的合规性推理（CRA=87.6%，SC=0.83，EQ=4.2），这些成果被整合到一个支持自动化报告和交互式分析的集成平台中。该框架通过数据增强和加强PPE合规性推理，提高了高空作业的安全性。

引言

高空作业是建筑行业中最为危险的活动之一。从高处坠落是该行业导致死亡和严重伤害的主要原因之一[1]、[2]、[3]。学术界和业界人士认为，个人防护装备（PPE）的不当佩戴或使用是高空坠落事故的主要因素[4]、[5]。因此，对高空作业人员的PPE合规性分析至关重要，以防止坠落事故。然而，目前建筑工地的高空作业PPE合规性分析主要依赖于安全检查员的目视观察，这种方法被认为耗时、成本高且主观性强，不同检查员的判断结果也存在差异[6]、[7]。为了提高安全合规性分析的效率和一致性，越来越多地采用基于计算机视觉（CV）的方法，其中摄像头和无人机作为捕捉用于PPE检测和危险识别的视觉数据的关键工具[8]、[9]、[10]。

目前，基于CV的PPE合规性分析大致可分为两类。第一类方法依赖于边界框或人体关键点，通过预定义的规则或定量指标来评估PPE使用的正确性，例如评估目标位置和几何约束[11]、[12]。这种方法效率较高，但在捕捉复杂的工人与PPE交互方面存在局限性，因为其推理依赖于几何关系（例如，通过头盔与头部的边界框重叠来确定正确位置），这限制了全面的合规性分析和语义解释能力[13]。第二类方法采用基于图的建模，将工人和PPE表示为节点（例如，身体、头盔、安全带、固定点），并通过层次化的边关系（如邻近性、连接性等）来模拟它们之间的交互[14]、[15]。这种表示方法能够捕捉复杂的工人与PPE之间的关系。然而，它依赖于手动定义的节点和边，对未见过的动作泛化能力较差，且生成的输出缺乏自然语言解释或交互式反馈[16]、[17]。这些局限性降低了其检测不安全行为和预防事故的能力。此外，获取详细的视觉数据对于基于CV的PPE合规性分析至关重要。然而，现有的数据收集方法存在显著局限：建筑工地上的固定摄像头由于视角受限和频繁遮挡，往往无法全面捕捉高空作业的场景[18]。虽然无人机可以补充有限的视角，但其操作需要额外的人员、严格的安全管理以及大量资源，增加了数据采集的复杂性和成本[19]。因此，用于训练和评估高空作业合规性分析模型的数据仍然稀缺，这不仅限制了模型训练的效果，也影响了其在实际建筑环境中的泛化能力[20]、[21]。

随着视觉-语言模型（VLM）和生成式人工智能的发展，出现了应对这些挑战的新方法。VLM整合了视觉和文本处理能力，不仅实现了对象检测和场景理解，还具备了生成具有更高可解释性和可操作性的语义输出的自然语言推理能力[22]。近年来，VLM已在多种场景中得到应用，如医学成像中的疾病诊断[23]和工业检测中的缺陷识别[24]，展示了其在整合视觉感知与语义推理方面的潜力。在建筑行业中，VLM已被用于危险识别、事故视频分析和自动化安全报告[25]、[26]、[27]，表明其具有超越单纯对象检测、扩展到语义层面合规性评估的潜力。同时，生成式人工智能在农业[28]、制造业[29]、[30]、建筑设计[31]和结构健康监测[32]等领域展示了强大的数据合成能力，有助于克服数据稀缺问题并提高模型鲁棒性。然而，VLM的检测精度通常低于专门的CV模型（如YOLO和ResNet），在处理小对象时存在困难，其推理往往缺乏视觉依据，导致合规性判断的泛化能力或模糊性[33]、[34]、[35]。因此，仅依赖检测模型或VLM进行高空作业中PPE的合规性分析是不够的，因为这些对象通常体积小且视觉上难以识别。此外，基于生成式人工智能的图像生成模型（如GAN、Diffusion）在场景合成方面表现出高真实度和多样性，为缓解数据稀缺问题提供了新方法[36]。然而，现有的生成方法主要集中在大规模场景合成和整体工作环境的再现上，而对头盔、挂钩和安全绳等关键PPE组件的关注不足。此外，针对高空作业场景的合成数据集研究不足，限制了合成数据集在合规性推理、不安全行为检测和事故预防中的有效应用。

为了解决这些局限性，本文提出了一种基于生成式人工智能和对象导向的高空作业PPE合规性分析框架。具体而言，利用ChatGPT 4o将安全标准系统地结构化并转化为可变定义池和结构化提示模板，然后指导文本到图像（T2I）生成模型生成具有真实感和语义对齐的合成数据集，从而缓解数据稀缺问题。对象检测模型用于识别PPE部件，其输出结果被转化为结构化证据，随后与VLM结合，实现基于可验证视觉线索的视觉-语言推理。本文的其余部分安排如下：第2节回顾了高空作业场景下的数据增强和PPE合规性分析相关文献；第3节详细描述了所提出的框架；第4节展示了实验验证和性能评估；第5节讨论了本文的局限性及未来研究方向；第6节总结了主要发现和实际应用意义。

节选内容

文献综述

本节回顾了现有的高空作业合成数据集生成和PPE合规性分析方法。数据增强方法从传统增强方式发展到基于生成式人工智能的合成数据集生成，以应对数据稀缺问题。PPE合规性研究也从对象检测发展到合规性验证和VLM推理。这些发展为所提出框架奠定了基础。本文还对研究现状进行了总结和讨论。

方法

如图2所示，该方法包括三个步骤：(i) 使用图像生成模型根据安全标准创建合成数据集；(ii) 通过基于对象的视觉感知检测PPE部件；(iii) 进行基于VLM的语义推理，将检测结果转化为合规性分析。

实验与结果

实验是在配备NVIDIA GeForce RTX 4080 SUPER GPU的工作站上进行的，该GPU具备足够的计算能力，支持合成数据生成、对象检测和基于VLM的合规性分析。以下小节分别介绍了图像生成模型、数据集配置、检测框架和语义推理模型的比较研究。

局限性与未来工作

尽管本文取得了有希望的结果，但仍存在一些局限性，为进一步研究和改进提供了机会：首先，基于提示的合成数据集虽然能够覆盖较为多样化的高空作业场景，但生成的图像仍存在不自然姿势和不当使用PPE等问题。由于DALL·E 3和提示设计受到训练数据和安全法规的限制，合成图像可能存在

结论

本文提出了一种基于生成式人工智能和对象导向的高空作业PPE合规性分析框架。结构化的安全标准与ChatGPT 4o结合，构建了可变定义池和结构化提示模板，共同指导T2I生成模型生成具有真实感和语义对齐的合成数据集。对象检测的输出结果被转化为结构化证据，并与VLM结合，实现了基于可验证视觉线索的语义合规性评估。

CRediT作者贡献声明

徐文宇：撰写——初稿撰写、可视化、验证、软件开发、方法论设计、数据分析、概念构思。易文：撰写——审稿与编辑、监督、资源协调、项目管理、资金筹集、数据分析、概念构思。谭毅：撰写——审稿与编辑、监督、项目管理、资金筹集、数据分析。

利益冲突声明

作者声明没有已知的财务利益冲突或个人关系可能影响本文的研究结果。

致谢

本研究得到了国家自然科学基金（NSFC）（项目编号：72201229、72361137006、52308319）和深圳市科技与创新委员会（SZSTI）（项目编号：SGCX20250526142403005）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言