使用预训练语言模型对建筑事故叙述进行分类并挖掘风险主题

《RELIABILITY ENGINEERING & SYSTEM SAFETY》:Construction Accident Narrative Classification and Risk Theme Mining Using Pretrained Language Models

【字体: 时间:2026年06月07日 来源:RELIABILITY ENGINEERING & SYSTEM SAFETY 11

编辑推荐:

  毛雅琪|明子茹|于晓冰|李杰摘要建筑事故调查报告包含了关于事故过程、不安全条件和管理缺陷的丰富叙述信息,但由于其非结构化的特性,这些报告在安全分析中的系统应用受到限制。本研究开发了一个集成文本分析框架,用于对中国建筑事故叙述进行分类并挖掘潜在的风险主题。研究从公开可获取的来源收集

  
毛雅琪|明子茹|于晓冰|李杰

摘要

建筑事故调查报告包含了关于事故过程、不安全条件和管理缺陷的丰富叙述信息,但由于其非结构化的特性,这些报告在安全分析中的系统应用受到限制。本研究开发了一个集成文本分析框架,用于对中国建筑事故叙述进行分类并挖掘潜在的风险主题。研究从公开可获取的来源收集了900份建筑事故调查报告,并根据国家事故分类标准将其分为六类。该框架采用了RoBERTa-LSTM-TextCNN模型,结合了上下文语义表示、序列依赖性建模和局部短语级特征提取技术。在六类不平衡的数据集下,该模型的宏观F1分数达到了81.05%,加权F1分数达到了87.43%,尤其在高空坠落、建筑物倒塌和电击事故方面的表现尤为突出。通过比较分析、消融实验、敏感性分析和鲁棒性测试进一步表明,预训练的上下文表示、双分支结构、领域感知的预处理以及选定的模型配置对分类性能有显著提升。基于分类结果,研究人员对高空坠落事故和物体撞击事故的叙述数据应用了潜在狄利克雷分配和关键词共现网络分析方法,以识别反复出现的风险主题和结构关联。研究结果表明,这两种事故类型存在多个共同的风险因素,包括设备管理、安全培训、隐患检查与整改以及组织监督等方面,同时也表现出各自特有的风险特征。所提出的框架为将非结构化的事故报告转化为结构化的安全知识提供了实用方法,有助于事故报告的筛选、风险优先级排序以及建筑安全管理中的针对性预防规划。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号