基于场景的多模态深度学习框架：用于同时检测建筑事故的成因因素并进行风险评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《AUTOMATION IN CONSTRUCTION》：Scenario-based multimodal deep learning framework for simultaneous detection of construction accident causal factors and risk evaluation

【字体：大中小】 时间：2026年03月04日 来源：AUTOMATION IN CONSTRUCTION 11.5

编辑推荐：

　　本研究提出基于并行场景的多模态安全管理系统，通过四类工作环境场景的Faster R-CNN优化模型实时检测24种事故成因，结合事故统计数据建立条件概率模型，实现事故发生概率的量化评估，将传统定性识别转变为数据驱动的定量风险决策。

孙在辉（Jaehui Son）| 郑在旭（Jaewook Jeong）| 库米·路易斯（Louis Kumi）| 金海中（Hajung Kim）

韩国首尔国立科学技术大学安全工程系，首尔01811

摘要

建筑行业的高风险率要求采用智能的安全管理系统。以往的研究依赖于人工检查和单一的统一检测模型，但在复杂的建筑环境中，由于危险类型和环境变化多样，这些方法的准确性有限。本文开发了一种基于并行场景的架构，能够同时检测24种事故因果因素。这些因素根据工作环境被战略性地分为四个专门的场景，并为每个场景构建了优化的Faster R-CNN并行模型。并行方法的表现显著优于传统方法：F1分数提高了66.7%，单个模型的分数在0.80–0.93之间，平均精确度为0.67–0.86。该系统能够从单张图像中同时检测出多达12种事故因果因素。该多模态框架结合了深度学习视觉检测和建筑事故统计数据来计算实时发生概率。本文标志着从定性风险识别向定量风险评估的范式转变，使得在建筑安全管理中能够基于数据做出决策。

引言

建筑行业对全球经济增长起着至关重要的作用，但同时也是所有行业中事故率最高的行业之一[1]。建筑工地的大多数事故是由物理风险因素引起的，如梯子、开口和重型设备，而这些事故导致的人员伤亡和经济损失持续增加[2]、[3]。根据美国职业安全与健康管理局（OSHA）提供的统计数据，从高处坠落、滑倒或绊倒以及被物体夹住等事故占建筑行业死亡事故的65.5%，其中仅从高处坠落就占了35.0%[4]。根据劳工统计局的数据，2018年滑倒、绊倒和坠落（STF）事故占建筑行业伤亡事故的33.5%[5]。在韩国，从高处坠落（53.5%）、一般坠落（11.9%）和被物体夹住或挤压事故（5.2%）的发生频率最高，这凸显了针对这些类型事故进行深入研究和预防措施的迫切需求[6]。各种事故的发生主要归因于建筑工地的复杂环境[7]。建筑工地上同时进行着不同类型的工作和任务，导致多种事故因果因素的存在[7]。例如，在高层建筑的建筑工地上，脚手架、开口和重型设备等事故诱因可能同时存在，每种因素都带来不同类型的事故风险[8]。因此，仅考虑单一因素的传统方法无法充分反映存在多种事故诱因的现场风险[7]、[9]。实际上，目前建筑工地使用的安全管理方法难以应对这种复杂性[9]。在大多数建筑工地，安全管理人员的视觉检查和基于经验的手动处理对于大型、广阔场地的实时监控存在局限性[9]。特别是，大型建筑工地在系统地识别和定量评估复杂因素方面面临挑战，这归因于事故因果因素的多样性和场地规模的不同[9]。深度学习技术的最新进展为这一问题提供了有希望的解决方案[10]、[11]、[12]。由于计算机视觉领域物体检测准确性的显著提高，这项技术现在被应用于建筑行业的实时监控[10]、[13]。计算机视觉技术对于建筑安全管理具有明显优势，因为建筑工地的事故诱因（如脚手架、开口和重型设备）主要是可以通过视觉特征（形状、大小和位置）来识别的物理对象[14]、[15]。与受身体存在和注意力限制的人类检查员不同，计算机视觉系统可以连续监控多个区域，并且不会疲劳[14]。建筑工地的事故诱因主要可以通过视觉检查来识别，这使得计算机视觉技术非常适用[10]。此外，也有研究正在积极利用历史事故数据进行基于机器学习的事故预测[16]。然而，以往的研究在准确反映建筑工地复杂性方面存在局限性[10]、[16]。首先，基于计算机视觉的物体检测研究在视觉识别方面表现优异，但在识别事故诱因与特定事故类型之间的统计关联以及定量评估风险方面能力有限[10]。其次，仅基于统计事故数据的预测模型无法考虑建筑工地的实时情况[16]。最后，这些研究没有利用多模态数据的互补优势，而是依赖于单一数据源[17]。为了解决这些问题，本文提出的关键策略是基于并行场景的检测[18]。对建筑工地的分析揭示了一个明显的模式，即事故诱因往往根据工作特征聚集[19]。根据这些模式，确定了四个主要的工作环境类别。在垂直作业场景中，经常观察到脚手架、安全网和开口；而在土方和运输任务中，更常见的是挖掘机、自卸卡车等机械因素[20]、[21]。类似地，基础设施工作涉及管道、梯子和钢筋等因素，而专用设备场景则包括叉车和混凝土泵[7]。本研究的核心思想是根据这些模式为每个专门场景设计模型。每个模型同时分析建筑工地图像，并行检测不同场景中的事故诱因。此外，通过条件概率建模将建筑工地图像与统计事故数据相结合，本研究量化了每个检测到的事故诱因与四种特定事故类型（从高处坠落、普通坠落、STF和被物体夹住或挤压）之间的关联，解决了以往基于视觉的研究无法建立此类统计关系的局限性。当使用所有因素同时训练单个模型时，不同大小和形状的物体混合在一起，导致训练效率降低，小物体的检测能力受限[22]。相比之下，基于场景的方法可以通过为具有相似特征的每组因素创建优化模型来显著提高检测准确性[23]。本研究开发了一种基于并行场景的检测系统，能够同时检测多种事故诱因，克服了现有单一模型的局限性。四个专门的场景模型并行执行，采用多模态方法将建筑工地图像与统计事故数据相结合。该系统针对四种高风险的建筑事故类型：从高处坠落（工人从脚手架和开口等高处位置坠落）、坠落（物体或材料从高处落到工人身上）、STF（工人在地面滑倒、绊倒或坠落）以及被物体或设备夹住或挤压。总共同时检测到24种事故诱因，涵盖了这些坠落类型。通过为每个场景的专用模型和条件概率模型的并行处理，实时计算了每种事故诱因的发生概率。多模态集成方法利用了两种不同数据源的互补优势。建筑工地图像提供了关于事故诱因存在和位置的实时视觉信息，而统计事故数据库提供了与每个因素相关的事故发生模式的历史证据。通过条件概率计算结合这两种模式，该系统克服了单一数据源方法的局限性：它保持了计算机视觉的实时响应性，同时结合了事故数据分析的统计严谨性。因此，本文提出了一种多模态集成框架，能够在复杂环境中检测事故诱因并定量评估风险。

基于上述背景和研究空白，本研究确立了以下具体研究目标。首先，本研究旨在开发一个全面的基于并行场景的检测系统，能够同时识别四种主要建筑事故类型的24种事故诱因。其次，本研究希望通过结合计算机视觉技术和建筑事故统计数据的多模态方法，在图像输入后立即处理当前现场情况，实现定量风险评估框架。第三，本研究旨在为建筑工地安全管理人员提供一个实用的决策支持工具，通过计算每个检测到的事故诱因的发生概率。实现这些目标的重要性在于实现了从传统的定性风险识别向基于数据的定量风险评估的范式转变。这种转变允许根据客观风险优先级高效分配有限的安全资源，最终有助于系统地预防建筑事故并提高整体现场安全性能。

文献综述

为了将提出的框架置于现有研究的背景下，本节综合了两个密切相关领域的先前研究。首先，它批判性地考察了建筑安全中的物体检测方法，追溯了它们从单因素检测到多类框架的演变过程，并指出了统一模型的结构局限性。其次，它回顾了建筑事故预测和多模态集成研究，强调了视觉检测之间的脱节

材料与方法

图1展示了基于多模态深度学习的事故诱因检测和风险评估系统的整体框架。

第一阶段专注于从建筑工地图像中检测事故诱因。建筑工地图像数据集经过数据预处理阶段，包括注释、归一化和处理数据不平衡问题。随后，使用四个专门的Faster R-CNN模型进行基于场景的训练，每个模型针对特定的工作场景

结果

本节通过全面的实验分析展示了所提出框架的实证验证。结果分为五个部分：用于场景确定的统计聚类、视觉细化和特征专门化、检测模型性能评估、事故概率计算以及结合定量风险评估的综合事故检测。这些发现共同证明了该框架的技术性能和实用性

讨论

本文提出的基于场景的并行检测策略解决了传统单一模型方法的一个根本局限性。在这样的方法中，由于物体大小的显著差异导致的学习偏差往往是不可避免的。正如Kim等人（2023年）的研究所强调的，重型设备和个人防护装备（PPE）检测之间的性能差距就说明了这个问题[25]。因此，本文提出的基于场景的方法从根本上缓解了与大小相关的问题

结论

本文开发了一种多模态风险识别系统，将基于深度学习的物体检测与统计事故概率数据相结合，实现了建筑工地的客观和系统化风险评估。特别是，整合了四个特定场景的Faster R-CNN模型，以全面检测24种事故诱因并计算每种因素的事故条件概率。此外，该系统能够同时检测多达12种事故诱因

CRediT作者贡献声明

孙在辉（Jaehui Son）：撰写——原始草稿、可视化、验证、资源准备、方法论、概念化。郑在旭（Jaewook Jeong）：撰写——审阅与编辑、监督、项目管理。库米·路易斯（Louis Kumi）：撰写——审阅与编辑、可视化、方法论、形式分析。金海中（Hajung Kim）：资源准备、方法论、形式分析。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的研究。

致谢

本研究得到了韩国国家研究基金会（NRF）的资助，该基金由韩国政府（MSIT）提供（编号：RS-2023-00213165）。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号