一种“先聚类后估计”的自然语言处理(NLP)方法,用于根据文本描述对海上事故的严重程度进行分类

《Accident Analysis & Prevention》:A ‘Cluster-then-Estimate’ Natural Language Processing (NLP) Approach for Classifying Maritime Incident Severity Based on Textual Descriptions

【字体: 时间:2026年01月27日 来源:Accident Analysis & Prevention 6.2

编辑推荐:

  海事事故严重性自动评估方法研究:基于LDA-BERT的聚类分类框架

  
陈天意|梁茂涵|李伟雄|蔡宇彤|孟强
新加坡国立大学土木与环境工程系,新加坡117576

摘要

文本事件描述是理解海上事故严重程度的重要来源。在海上工业中,相关机构和公司通常依赖手动方法根据文本描述来估计事故的严重程度。然而,对于评估船舶运营风险或管理大量历史事件档案而言,手动估计效率较低。因此,本研究提出了一种“聚类后估计”的方法,该方法利用自然语言处理(NLP)技术根据事件的文本描述自动估计其严重程度。在所提出的方法中,使用潜在狄利克雷分配(LDA)将预处理后的文本描述分组到多个簇中,每个簇代表一种事件类型。然后,针对每个簇微调来自Transformer的双向编码器表示(BERT)模型,以根据描述估计事故的严重程度。本研究介绍了所提出方法的详细训练计划。在案例研究中,使用了22,458起事件进行训练和验证,这些事件根据人员伤亡和财产损失的程度被分为三个级别。将所提出的方法与几种最先进的基线模型进行了比较,结果表明该方法在准确估计事故严重程度方面表现更优。研究表明,“聚类后估计”策略有效地利用了BERT的优势,进一步增强了其估计能力。据我们所知,所提出的方法是首批采用NLP技术根据文本描述估计事故严重程度的方法之一,这对于改进海上工业中的事件评估和决策具有实际价值。

引言

海上事故是指涉及船舶的意外事件,如碰撞、搁浅、火灾、机械故障、污染泄漏等。这些事故可能导致安全风险、财产损失、环境污染和运营中断。根据劳氏清单智能(Lloyd’s List Intelligence)的数据,海上事故的增加趋势表明该行业面临日益严峻的安全挑战。截至2022年10月,过去十年间海上事故持续增加,2022年第三季度记录的事故数量约为700起,这是自2008年以来的最高季度数量(劳氏清单智能(LLI),2023年)。2024年,欧盟成员国报告了2,676起海上事故,比2022年增加了49起(欧洲海洋安全局(EMSA),2023年)。这一激增凸显了有效和高效的事故分析及管理的必要性,这对于提高海上安全、合规性和风险缓解至关重要。
历史事故报告在海上安全和风险管理中具有重要价值。通过分析过去的事故,海事机构和公司可以完善法规、加强安全协议并实施预防措施。同时,保险公司和法律团队可以依赖这些报告来评估责任并制定公平的赔偿框架。估计事故严重程度是历史事故分析中的关键任务。精确的严重程度估计有助于海事利益相关者进行船舶风险评估和安全标准的执行。大多数海事机构和公司雇用专家根据报告中的文本描述手动评估事故严重程度。然而,这种手动估计方法有两个局限性。首先,它耗时较长,因为事故报告,尤其是官方发布的报告,通常篇幅较长且数量庞大。例如,新加坡运输安全调查局发布的报告包括各种部分,如事实信息(例如事件顺序、事故统计等)、分析和安全建议(新加坡交通部(MOT),2024年)。其次,估计过程中可能出现人为错误和偏见。大多数事故报告可能不会直接提供事故的严重程度。对于那些包含严重程度级别的报告,它们可能采用不同的评估标准。因此,估计者需要为从多个来源收集的所有事故创建一个统一的严重程度评估标准。这种标准或严重程度级别的定义往往不明确,可能没有连续级别之间的明确定量阈值,这对估计者来说是一个挑战,尤其是在事故复杂的情况下。
为此,开发一种能够高效分析事故报告并准确估计事故严重程度的方法至关重要。自然语言处理(NLP)通过实现从大量非结构化文本数据中自动提取关键信息提供了强大的解决方案。然而,很少有研究尝试在海上领域利用NLP技术根据报告中的文本描述自动估计事故的严重程度。作为一种有效的NLP技术,文本分类可以用于根据文本描述估计事故严重程度。然而,在使用文本分类进行事故严重程度估计时需要解决两个关键挑战:如何提高估计精度以及如何提高分类过程的可解释性。因此,为了解决上述研究空白和挑战,本研究开发了一种“聚类后估计”的NLP方法。该方法首先应用文本聚类方法将文本事故描述分组到多个簇中。然后,为每个簇构建一个文本分类模型,根据描述估计严重程度。这里,“聚类后估计”策略旨在提高估计精度,因为每个簇特定的文本分类模型处理更同质的文本数据集。此外,每个簇可以被视为一种事件类型,这在一定程度上提高了分类过程的可解释性。
据我们所知,本研究是首批在海上工业中利用NLP技术进行事故严重程度估计的尝试之一。本研究展示了将NLP技术应用于通过自动从文本报告中估计事故严重程度来进行海上风险评估的实际价值。所提出的方法可以被海事运营商、保险公司和监管机构等利益相关者采用,以提高历史事故评估的效率并创建结构化的事故档案。本文的其余部分组织如下:第2节回顾了相关研究。第3节概述了所提出的方法。第4节提出了一个案例研究。第5节总结了本研究。

部分摘录

文献综述

近年来,人们越来越关注NLP在交通运输安全分析中的应用。大多数应用集中在事故报告的先进处理上,特别是道路交通和海上运输,相比之下,航空(Tanguy等人,2016年)和铁路(Hong等人,2023年)的应用较少。这可能是由于这些模式的事件数量更多且报告更容易获取。在道路交通中,NLP技术已经

方法论

如图1所示,所提出的方法包括三个阶段:数据预处理、文本聚类和严重程度估计。数据预处理涉及从多个来源收集海上事故的文本描述,清理文本,并将其数字化。文本聚类的目的是将文本事故描述分组到不同的簇中,每个簇代表一种特定的事件类型。在严重程度估计阶段,构建了一个文本分类器

数据来源和描述

案例研究中使用的文本事故描述数据由RightShip提供,RightShip是一家致力于为海上工业建立全球基准的环境、社会和治理(ESG)公司。原始数据包括2015年至2023年间收集的131,652起事故,每起事故记录包含一个文本描述和一个严重程度标签。这些文本描述来自多个来源,如新闻文章、社交媒体、官方报告

结论

在这项研究中,我们开发了一种“聚类后估计”方法,根据文本描述来估计海上事故的严重程度。该方法包括三个阶段:数据预处理、文本聚类和严重程度估计。在数据预处理阶段,文本事故描述被清理、标准化并向量化,作为后续学习任务的输入。在文本聚类阶段,使用LDA将描述分组到

CRediT作者贡献声明

陈天意:撰写——原始草稿、可视化、验证、方法论、形式分析、数据整理、概念化。梁茂涵:撰写——审阅与编辑、软件、形式分析、数据整理。李伟雄:撰写——审阅与编辑、软件、形式分析、数据整理。蔡宇彤:撰写——审阅与编辑、调查、形式分析。孟强:撰写——审阅与编辑、监督、资源协调、项目管理、调查、资金筹集,

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

致谢

我们感谢编辑和两位匿名审稿人对本研究先前版本提出的宝贵建议和评论,这些确实丰富了本研究。本研究得到了新加坡海事研究所(Singapore Maritime Institute)通过项目SMI-2022-MTP-09的支持。本文中的任何观点、发现、结论或建议均为作者所持,并不代表新加坡海事研究所和RightShip的观点。作者无权
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号