编辑推荐:
针对航空维护日志中高不平衡数据及复杂语言特征导致的识别难题,本文提出基于文本挖掘与选择性集成建模的智能识别方法。通过领域专用文本预处理、TF-IDF特征提取、IHT采样优化数据分布,结合双相关性分析筛选与预测精度过滤的集成剪枝策略,构建动态自适应加权融合算法(EAWFA),有效平衡模型多样性与精度,在航空维护企业日志及ASRS公共数据集上验证其显著优于传统方法,兼具高精度与工程可解释性。
作者:侯照国、王华为、熊明兰、刘伟伟
南京航空航天大学民航学院,中国南京 211106
摘要
准确识别民用航空维护中的隐患对于降低事故风险、保障运营安全以及优化维护效率具有至关重要的工程意义。然而,民用航空维护日志复杂的语言特征和高度不平衡的分布给现有的识别算法带来了重大挑战。为了解决这些问题,本文提出了一种基于文本挖掘和选择性集成模型的高度不平衡智能识别方法。首先,考虑到维护日志的领域特异性,进行了领域特定的文本预处理,然后采用词频-逆文档频率(TF-IDF)方法实现有效的特征提取和向量化。接下来,通过实例难度阈值(IHT)采样进行数据类别重新平衡,并设计了一种集成剪枝策略,结合双重相关性分析和基于预测准确性的过滤,以有效管理基础模型之间的多样性与准确性之间的权衡。最后,构建了一种增强型自适应加权融合算法(EAWFA),灵活调整基础模型融合的权重,从而提高隐患识别的精确度和工程可干预性。在一家航空维护企业的维护日志和航空安全报告系统(ASRS)数据集上进行的全面实验验证了所提方法的有效性和泛化能力。与现有方法的比较表明,所提方法具有优越性,显示出其在民用航空维护工程应用中的巨大潜力。
引言
从维护日志中主动识别潜在隐患对于实现民用航空的预测性风险管理至关重要,将安全范式从被动调查转变为预防性控制(Lyu等人,2021年)。在这个框架下,维护操作不仅仅是常规的操作需求,而是确保持续适航性和运营可靠性的关键前沿实践(Dalkilic,2017年;Stadnicka等人,2017年)。这项活动约占年度运营支出的9%(Qin等人,2018年)。航空的安全性要求意味着,即使在维护过程中的小疏忽也可能演变成严重的安全事件(Atak和Kingma,2011年;Jamali等人,2021年)。因此,提高维护隐患的智能识别和管理能力对于提升民用航空系统的整体安全性和运营韧性至关重要。
在民用航空中,积累的维护日志数据主要以非结构化的自由文本形式存在(Li等人,2026年),由于其高度不平衡的分布,这些数据呈现出分析上的重大挑战,其中罕见但关键的隐患类别的数量远远少于常规条目(Sang等人,2025年)。这种固有的不平衡严重限制了传统自动化分类方法在准确识别风险方面的有效性。因此,开发能够解释这种复杂、不平衡且领域特定的文本的智能文本挖掘技术对于从这些记录中揭示可操作的安全洞察至关重要。
在最近的一项研究中,Rose等人(2020年)提出了一种基于自然语言处理的航空安全事件描述聚类分析方法,并成功用于处理和分析航空安全文本数据。此外,Wan等人(2019年)提出了一种基于灰色聚类的民用航空运营安全风险评估方法。他们使用实际运营数据来评估民用航空不安全事件的安全风险。在另一项研究中,Dangut等人(2021年)提出了一种基于日志数据的集成机器学习模型,用于预测飞机部件故障,并使用真实的飞机中央维护系统日志数据集验证了该方法的有效性。Ni等人(2019年)提出了一种基于深度信念网络和主成分分析的民用航空安全评估方法,在预测飞行事故方面表现出显著的优势。同样,Xu和Luo(2021年)提出了一种基于关联规则挖掘和随机森林的空中交通管制员不安全行为风险预测和预警方法,在危险行为预测方面表现良好。虽然先前的工作为民用航空维护中的隐患文本分析奠定了基础,但在处理现实世界日志数据中的严重类别不平衡问题上仍存在关键差距。传统的机器学习模型在直接应用时,通常在这种条件下表现出性能下降和泛化能力差。因此,开发能够在高度不平衡的隐患文本上进行高性能分类的智能方法是一个必要且具有挑战性的研究方向。
值得注意的是,深度学习的最新进展已被应用于这一领域。例如,Hou等人(2025年)提出了一种分层多任务卷积神经网络,用于对航空不安全事件进行细粒度原因分析,提供了对根本原因的深入、可解释的洞察。然而,他们的工作主要集中在对单个事件的因果因素的深入分析和可视化上,这与本研究的目标有所不同。本研究旨在解决在大量高度不平衡的维护日志中进行自动化、高精度风险分类的挑战。这需要从深度解释性建模转变为能够在极端不平衡情况下可靠运行的鲁棒判别建模,本研究通过一种新颖的选择性集成建模框架实现了这一目标。
有效处理不平衡文本数据在很大程度上依赖于结构化特征表示,通常是通过将原始文本转换为数值特征向量来实现的。跨各个领域的先前研究已经展示了结合特征提取、重采样和集成学习来解决类别不平衡问题的有希望的技术途径。Li等人(2019年)使用词频-逆文档频率(TF-IDF)方法和基于遗传算法的集成分类器来对铁路故障隐患文本进行分类。Zhou等人(2021年)将TF-IDF与基于核极限学习机的改进的装袋集成模型相结合,使用不平衡文本数据对机载设备进行故障诊断。Yang等人(2018年)提出了一种基于合成少数样本过采样技术(SMOTE)和集成学习的新型智能分类模型来对铁路信号设备故障进行分类。Rupapara等人(2021年)使用TF-IDF和词袋模型进行文本特征提取和向量转换,并结合SMOTE和回归向量投票分类器进行恶意评论分类。这些工作共同强调了处理文本不平衡的普遍方法论范式。
对于使用集成方法的分类任务,模型性能通常取决于构建既具有高准确性又具有显著多样性的基础学习器。这一原则与选择性集成学习一致,即集成系统选择的一组模型而不是所有可用的基础学习器,可以带来更好的泛化性能,这一发现得到了现有研究的支持(Zhou等人,2002年)。尽管取得了近期进展,但将现有方法直接应用于民用航空维护系统的隐患分类仍然面临几个限制。
- (1)
现有的集成学习方法通常缺乏数据和模型层之间的协同优化机制。它们既没有考虑重采样引起的噪声可能对基础模型性能造成的损害,也没有在集成阶段实施有效的集成剪枝来消除冗余或低质量的模型。因此,这些方法在处理复杂且噪声较大的维护日志数据时难以平衡分类准确性和泛化性能。
- (2)
现有的基础模型集成策略通常使用固定的融合权重,忽略了基础模型之间学习能力的动态差异。这种融合方法不利于充分利用挖掘的信息,并限制了在工程场景中的可干预性。
- (3)
现有研究主要依赖于单源验证策略,很少在异构数据环境中验证模型性能。因此,由于缺乏跨场景的鲁棒性测试,这些方法在应用于民用航空的多样化和复杂操作环境时往往难以保证泛化稳定性。
因此,与(Hou等人,2025年)中的基于深度学习的分析方法不同,本文提出了一种专为高度不平衡和噪声较大的维护日志中的鲁棒隐患识别设计的新颖选择性集成学习框架。
为了解决这些问题,本文提出了一种结合文本挖掘和选择性集成模型的方法,旨在解决高度不平衡的民用航空维护隐患智能识别中的核心挑战。基于一家航空公司和维护安全报告系统(ASRS)数据集的实验结果表明,所提方法有效处理了严重的类别不平衡和复杂的文本噪声,同时确保了分类的鲁棒性。与现有的文本分类模型相比,所提方法在分类准确性和泛化能力方面取得了显著改进。本文的主要贡献如下:
(1)
构建了一个结合实例难度阈值(IHT)采样和选择性集成剪枝的协同优化框架。通过利用IHT技术在数据层抑制重采样引起的噪声,并设计一种结合双重相关分析和基于预测准确性的过滤的集成剪枝策略来消除模型层中的冗余模型,该方法在基础模型的准确性和多样性之间取得了平衡,从而提高了在复杂数据上的泛化性能。
(2)
开发了一种增强型自适应加权融合算法(EAWFA),其中包含一个可调的分布指数。该算法能够根据基础模型的识别性能动态调整融合权重,不仅确保了基础模型挖掘信息的充分利用,还为模型在实际工程应用中提供了灵活的可干预性。
(3)
实施了一种双场景验证策略,不仅在航空维护日志上评估该方法,还在公共ASRS数据集上进行了评估。这种跨源验证证明了该方法在多种航空操作环境中的优越泛化能力,确认了其鲁棒性。
本文的后续部分安排如下:第2节详细介绍了所提出的民用航空维护隐患识别方法。第3节展示了验证所提模型性能的实验。最后,第4节总结了本文并讨论了未来的研究方向。
方法概述
提出的方法
本研究提出的整体框架如图1所示。一般来说,工作流程分为四个连续阶段:数据获取、数据预处理、基础模型选择和融合策略以及实验结果和分析。具体来说,首先从专有工程日志和公共ASRS存储库获取异构文本数据。随后,通过不平衡数据校正和基础模型...
案例研究
为了进一步提高本研究的可读性和可复现性,表2中列出了实验平台和环境配置的具体参数。
结论
本研究提出了一种基于文本挖掘和选择性集成模型的民用航空维护隐患智能识别方法,以应对高度不平衡的安全隐患文本数据中的风险分析挑战。主要结论如下:
(1)
通过在数据层集成IHT采样和在模型层进行选择性集成剪枝,该方法有效抑制了重采样引起的噪声,并在消除冗余模型的同时平衡了类别分布
CRediT作者贡献声明
侯照国:撰写——原始草稿、可视化、软件、方法论、概念化。王华为:撰写——审稿与编辑、监督、方法论。熊明兰:撰写——审稿与编辑、监督、形式分析。刘伟伟:撰写——审稿与编辑、监督。
资助
本工作部分得到了国家自然科学基金(资助编号:72271123)的财政支持。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。