《Engineering Applications of Artificial Intelligence》:Domain-adapted deep learning for aviation incident classification with multiple labels and risk assessment
编辑推荐:
航空安全风险监测中基于RoBERTa的多标签分类模型研究,提出融合长文本分割、元数据融合和复合损失优化的AIRC-RoBERTa架构,有效解决ASRS数据长文本处理、类别不平衡和领域术语问题,实验表明其微平均F1值和召回率显著优于传统模型及BERT/MacBERT等基线,特别在罕见关键事件分类中表现优异,并通过注意力可视化增强可解释性。
Xirui Li|Fairuz Izzuddin Romli|Syaril Azrad Md Ali|Amzari Zhahir|Junqi Tang
郑州航空大学民航学院,中国河南省郑州市,450000
摘要
航空安全日益依赖于叙事性事件报告来获取可操作的风险情报。然而,来自航空安全报告系统(ASRS)的报告具有长文本、不平衡的多标签结果以及领域特定的术语,这对传统的自然语言处理方法构成了挑战。为了解决这些问题,我们引入了一个基于Transformer预训练方法中的Robustly Optimized Bidirectional Encoder Representations(RoBERTa)的领域适应性深度学习模型,该模型专门用于33种ASRS事件结果类别及其相关后果严重程度的细粒度分类。该模型整合了(1)长文本分割和聚合机制,以及元数据和叙事特征的表示级融合;(2)结合二元交叉熵(BCE)、标签平滑和焦点损失的复合训练目标,以提高在类别不平衡情况下的鲁棒性;(3)使用扩展的航空特定词汇进行领域适应性预训练。在2001-2023年的ASRS数据上的广泛实验表明,所提出的模型始终优于七种基线架构,在Micro F1分数和召回率方面取得了改进,尤其是在那些罕见但操作上至关重要的结果上。消融实验结果证实了融合、损失设计和领域预训练的独特且互补的贡献。此外,注意力可视化通过揭示模型如何在语义相关的段落中分配表示焦点来支持可解释性。将预测的事件结果映射到五个后果严重程度级别,实现了聚合的严重程度分析和早期预警。总体而言,本研究提出了一种从非结构化叙事到结构化风险评估的可复现流程,突显了领域适应性Transformer模型在主动航空安全监控和数据驱动风险管理方面的有效性。
引言
过去几年,全球航空业以相对较快的速度恢复了发展,尽管这种恢复与日益加剧的安全威胁同时发生,使得防止和管理航空事故成为行业从业者和学术研究人员的共同关注点。2024年12月底,挪威、韩国、哈萨克斯坦和加拿大发生了四起航空事故,其中包括韩国和哈萨克斯坦的两起致命事故,共造成217人死亡,如图1所示。这一系列事件强调了航空风险管理(ICAO, 2018)的极端重要性。先进的民用航空系统严重依赖于数字化和自动化技术,这些技术涉及多层次和复杂的交互系统。不良的风险监控和应急响应可能会带来非常严重的后果。因此,人们迫切关注使用先进技术来增强航空领域的风险检测和预测过程(ICAO, 2010)。
近年来,自然语言处理(NLP)技术在航空安全管理方面展示了巨大的潜力,特别是在航空安全报告分析、飞机维护管理和空中交通控制方面(Amin等人,2022年)。例如,数百万起安全事件被报告在航空安全报告系统(ASRS)中,这是研究人员宝贵的数据来源(NASA, 2024年)。然而,传统的手动分析方法具有多方面的复杂性、劳动密集性,并需要大量资源,这给当前航空业的实时分析带来了挑战(Shi等人,2017年)。通过引入大数据分析和最新的NLP方法,可以有效地识别潜在风险,为航空公司和监管机构设计更准确的预防和控制措施提供关键帮助(EASA, 2023年)。
先前的研究强调了NLP作为航空安全分析的强大工具,但其实际应用面临数据、技术和资源方面的挑战。首先,航空安全报告主要以文本形式提供,包括描述、技术名称和多语言文本(Oza等人,2009年)。这些庞大、异构且多方面的非结构化数据无法直接使用传统的数据分析工具进行处理。同时,由于数据的异质性,报告数据具有高维度,这对建模构成了严重挑战。报告通常包括结构化数据(例如元数据)和非结构化数据(例如事件叙事),而各种类型数据的结合需要更有效的方法(Zhang和Mahadevan,2019年)。其次,文本分类模型(例如词袋模型)没有考虑文本的语义和上下文,这可能导致分类准确性下降。为了解决这些问题,引入了如Transformer的Bidirectional Encoder Representations(BERT)和Long Short-Term Memory(LSTM)等深度学习模型。然而,这些模型消耗大量计算资源且实现起来更为复杂(Sj?blom,2014年)。最后但同样重要的是,模型性能往往受到领域特定训练数据缺乏的限制(Liu等人,2019年)。此外,类别不平衡会使模型偏向于常见类别,从而降低罕见事件的准确性。因此,为了提高分析能力和实施性能,迫切需要创建一种新颖的、数据驱动的、高效、精确且可扩展的模型,以帮助预测风险、预防事故和管理航空安全。
现有研究通常通过直接将航空事件结果映射到后果严重程度级别来简化不平衡标签的问题。这种方法基本上限制了有效预测航空安全事件的模型的构建。在这方面,本文提出了基于Transformer的模型AIRC-RoBERTa,旨在对ASRS数据库中的航空安全事件进行多标签分类。该模型通过实施新的方法(如序列长度的最优化、多种损失函数的最优化和领域特定预训练)大大提高了预测的准确性和稳定性。除此之外,本研究特别关注模型在促进航空风险管理方面的可行性,通过提供定量风险评估。这项工作通过将自然语言处理的最新进展与实际航空运营中的安全风险识别和管理需求相结合,为航空安全分析做出了贡献。研究的关键变化和贡献如下:
- a)
以结果为导向的、基于任务的航空安全叙事建模范式。
所提出的框架并不直接以后果严重程度级别进行预测,而是首先对整个ASRS事件结果分类法进行细粒度多标签分类,然后将预测的事件结果映射到预定的后果严重程度类别进行聚合评估。这种以结果为导向的范式保留了事件级别的语义细节,否则这些细节可能会在早期严重程度抽象过程中丢失,从而更真实地表示可能同时存在多种操作结果的复杂事件。
b)针对长叙事、异构输入和长尾结果分布的集成建模策略。
AIRC-RoBERTa旨在解决ASRS数据中的三个耦合挑战:超出标准Transformer输入限制的长叙事、结合自由文本报告和结构化元数据的异构输入,以及结果类别之间的严重不平衡。该模型整合了长文本分割和聚合,以及叙事和元数据特征的表示级融合,并采用复合训练目标来稳定对罕见但安全关键结果的学习。消融实验结果表明,这些组件提供了互补的好处,而不仅仅是孤立的优势。
c)与案例验证和定性可解释性分析相结合的安全对齐评估。
除了聚合性能指标外,该研究还通过风险级别聚合、样本外事件案例和基于注意力的可视化来评估所提出的模型。案例分析说明了单个报告中的不同叙事段落如何支持不同的结果类别,而注意力可视化提供了定性证据,表明模型将表示能力分配给了多个操作相关的片段,而不是依赖于孤立的线索。总体而言,这些分析证明了所提出框架在安全相关决策制定中的能力。
本文的其余部分将按以下结构组织。第2节介绍了NLP在航空安全报告中的相关文献。第3节提供了数据集、预处理操作、基准系统和提出的AIRC-RoBERTa模型。第4节展示了实验发现、基线比较、消融分析和可解释性评估。第5节深入讨论了贡献、局限性和未来研究方向。第6节总结了本研究。
节选
文献综述
我们首先回顾了ASRS数据的特征及其带来的挑战。航空行业的不同专业人士将电子报告提交到NASA航空安全报告系统(ASRS)数据库(NASA, 2024年)。然后有一到两名安全分析师阅读这些报告并进行分类。经过几天的分析后,分析师会发出警报信息,该信息会公开分发,并随后进行评估
方法论
在本节中,我们描述了使用ASRS叙事进行航空事件结果分类的方法论框架。图2总结了处理流程,包括数据准备和标签编码、航空领域叙事特征分析、基线模型实现以及AIRC-RoBERTa架构的设计。该框架结合了长文本处理、异构特征组合、领域适应性预训练和不平衡感知
基线模型的性能评估
本研究评估了七种基线模型——TextCNN、ATT-BiLSTM、BERT、RoBERTa、MacBERT、DeBERTa和ERNIE 3.0——在ASRS多标签事件结果分类任务上的性能,重点关注精确度、召回率、Micro F1分数、汉明损失和运行时间。所有基线都在相同的设置下进行校准,以便公平比较。
图7显示了从传统神经架构到预训练编码器的明显性能提升。BERT提供了
讨论
本研究的结果得出了一个明确的方法论结论:对于ASRS多标签结果分类,BERT系列预训练模型提供了比传统神经架构更强的基线,而RoBERTa是在评估的基线中最具竞争力的模型。这一点通过基线评估(总体指标)中观察到的一致差距得到了证明,这也激励我们选择RoBERTa作为后续优化的基础。重要的是,这种改进
结论
本研究提出了AIRC-RoBERTa,用于ASRS事件结果的细粒度多标签分类及其后续的后果严重程度映射。这项工作为ASRS叙事提供了一个实用的建模流程,结合了(i)长文本分割和报告级聚合以适应Transformer编码器的输入长度限制,(ii)表示级融合聚合的叙事嵌入和元数据嵌入,(iii)领域适应性持续预训练
CRediT作者贡献声明
Xirui Li:撰写——原始草稿、方法论、形式分析、概念化。Fairuz Izzuddin Romli:撰写——审阅与编辑、监督。Syaril Azrad Md Ali:撰写——审阅与编辑、监督。Amzari Zhahir:撰写——审阅与编辑、监督。Junqi Tang:撰写——审阅与编辑、撰写——原始草稿、软件开发。
利益冲突声明
本手稿的整个内容或其任何部分都未在其他地方发表或接受,也未提交给任何其他期刊。手稿中的任何文本部分都没有从其他文献中复制。所有作者都阅读并批准了提交的最终版本,且本次提交不存在任何利益冲突。
致谢
本项工作得到了河南省科学技术规划项目(项目编号:242102240027)的支持。