编辑推荐:
针对工业故障记录文本非标准化及多术语融合的挑战,提出MF-FAN模型,结合Transformer与动态卷积神经网络提取全局与局部特征,通过动态注意力融合机制优化实体识别,在自建及公开数据集上F1分数达79.96%-96.16%,显著优于基线方法。
杨振凯|博新宇|杨建宏|杨德斌|周晓峰
北京科技大学机械工程学院,北京,100083,中国
摘要
知识图谱(KGs)是智能故障诊断的关键技术,用于铲运机(BWSRs)的故障检测,而中文命名实体识别(NER)则是从维护故障记录中自动构建此类KGs的基本前提。与标准语料库不同,非结构化的BWSR故障记录包含了混合表达方式,包括口语化表达、领域特定术语和混合编码表达,这需要同时建模局部边界线索和全局上下文语义。现有的中文NER方法主要关注多特征增强,但缺乏有效的动态多特征融合机制,这限制了它们在故障记录上的性能。为了解决这个问题,我们基于真实的BWSR故障记录构建了一个专门的中文NER语料库,并提出了一种多特征融合注意力网络(MF-FAN),该网络针对工业故障记录进行了动态融合注意力机制的优化。MF-FAN同时使用字符和二元词嵌入作为输入,采用并行Transformer和动态卷积神经网络(DCNN)分支来提取全局上下文和局部依赖特征,并通过基于注意力的融合机制在token级别动态整合这些特征。在解码层,使用线性层后接条件随机场(CRF)层来建模标签转换并输出全局最优标签序列。在四个数据集上的实验表明,MF-FAN在自构建的BWSR-NER数据集上达到了79.96%的F1分数,在公共基准测试中达到了高达96.16%的分数,始终优于七个强大的基线方法。这种方法为从非结构化工业文本中自动构建KGs提供了一种高效且可扩展的解决方案,有助于在实际工业场景中实现智能故障诊断和维护。
引言
随着现代工业物流的快速发展,大规模散料处理设备的作用日益重要。作为这类设备的典型代表,铲运机(BWSRs)广泛应用于港口、矿山和发电厂,其运行状态直接影响效率和安全性。然而,由于工作条件恶劣和负载高,BWSRs容易发生各种故障,导致计划外停机并带来潜在的安全风险。因此,有效的故障诊断(Li等人,2024年)对于提高设备可靠性和降低维护成本至关重要。
近年来,随着企业逐步推进制造业数字化转型(Wu等人,2024年),在运营和维护(O&M)过程中积累了大量的非结构化维护故障记录。这些文本数据包含了宝贵的专家知识,包括故障模式、原因因素和纠正措施。目前,基于故障记录的故障诊断仍然主要依赖于人工判断,这既低效又高度主观。因此,从大量非结构化故障记录中提取有用信息并将其转化为结构化知识以支持智能决策已成为工业智能O&M中的一个关键挑战和研究前沿。
知识图谱(KGs)因其能够以可解释和可视化的形式组织语义信息而成为关键范式(Jiang等人,2024年)。通过将设备组件、故障现象和维护措施等实体构建成一个互连的语义网络,KGs有助于快速定位故障并提供智能决策支持。然而,此类KGs的自动化构建从根本上依赖于命名实体识别(NER),其目标是从非结构化文本中精确提取特定实体,例如“走行电机”和“海测夹轨器”。
尽管通用领域的NER方法已经相对成熟——从基于规则和统计的方法(Haarnoja等人,2018年;Xing等人,2023年)到最近的深度学习模型(Huang等人,2015年;Li等人,2020a年;Wu等人,2022年)以及基于大型语言模型(LLM)的方法(Lu等人,2024年;Shen等人,2025b年;Wang等人,2025年)——但将其直接应用于BWSR故障诊断受到领域特定挑战的严重阻碍:
(1)文本非标准化程度高和术语异质性:BWSR故障记录具有明显的电报式语言特征。这些记录包含了中文字符、英文缩写、数字代码和领域特定术语的混合(例如,“F37欠压脱扣器”和“A1Y-Hb20B液控单向阀”)。此外,现场记录通常是口语化的,语法结构碎片化且频繁使用省略号(例如,“编码器损坏”)。这种复杂的语言环境大大增加了实体识别的难度,并对基于局部特征的精确实体边界检测提出了严格要求。
(2)缺乏动态多特征融合:虽然可以使用局部上下文线索识别许多命名实体,但在工业文本中正确识别特定实体通常需要结合全局语义上下文。例如,在短语“发现接线鼻子短路”中,确定“接线”是指维护动作(动词)还是作为组件名称“接线鼻子”(名词)的一部分取决于句子级语义。许多现有方法关注特征增强,但缺乏有效的动态融合机制来整合局部依赖特征和全局上下文信息。因此,它们无法充分利用多尺度特征的互补性,在这种嘈杂的工业场景中识别准确性有限。
为了解决这些挑战,我们首先基于中国上海一家港口公司的真实BWSR O&M记录构建了一个专门的BWSR-NER语料库,然后设计了一个针对工业故障记录的多特征融合注意力网络(MF-FAN)。所提出的MF-FAN由四个紧密集成的组件组成。(1)输入层:使用字符级和二元词级嵌入将标注的文本序列映射到一个共享的语义空间中,以捕获技术术语和混合编码表达的丰富多特征信息。(2)编码层:采用双分支策略,其中一个Transformer编码器捕获长期全局上下文依赖性,而DCNN编码器关注对精确实体分割至关重要的局部模式和边界线索。(3)融合层:融合注意力机制在token级别动态整合两个分支的表示,强调与实体相关的信号并抑制无关噪声。(4)解码层:使用线性层后接CRF层来建模标签转换并输出全局最优标签序列。通过这种端到端的架构,MF-FAN有效地结合了全局语义和局部依赖特征,为从嘈杂的非结构化工业文本中构建维护知识图谱提供了高效且稳健的解决方案。
本研究的主要贡献总结如下:
(1)我们提出了一种新的中文NER框架MF-FAN,它结合了双分支编码来同时捕获全局上下文和局部依赖特征,解决了非结构化、领域特定工业故障记录中的挑战。
(2)我们为中文NER的token级别设计了一种动态融合注意力机制,该机制能够适应性地建模异构全局特征和局部特征之间的交互。这种机制增强了模型在复杂和嘈杂的语言环境中解决语义歧义和准确检测实体边界的能力。
(3)我们在领域特定的BWSR-NER数据集和三个标准公共基准测试集(Resume、OntoNotes 4.0和MSRA)上进行了广泛的实验。结果表明,MF-FAN在泛化能力和鲁棒性方面优于现有的最佳基线方法,而消融研究验证了所提出的融合策略的有效性。
部分片段
NER的一般方法
早期的NER方法主要依赖于基于规则的机制和传统的统计模型(Haarnoja等人,2018年;Xing等人,2023年),如隐马尔可夫模型(HMM)(Zhao,2004年)和条件随机场(CRF)(Lafferty等人,2002年)。这些方法通常需要大量手动设计的词汇、句法和领域特定特征,使得它们对标注语料库的质量和特征工程非常敏感(Moon等人,2022年;Skeppstedt等人
方法
所提出的MF-FAN模型的整体架构如图1所示。该模型包括四个协同工作的组件:输入层、编码层、融合层和解码层。
首先,将标注的文本序列输入输入层,在那里它们被映射到一个高维语义空间中,生成丰富的字符级和二元词级表示。随后,这些嵌入向量被传递到编码层
实验数据集
研究了四个数据集以验证所提出方法的性能。这些数据集包括三个广泛认可的中文NER数据集——Resume(Zhang和Yang,2018年)、OntoNotes 4.0(Ralph Weischedel,2011年)和MSRA(Zhang等人,2006年)——以及一个自构建的数据集BWSR-NER。Resume数据集包含中国高级管理者的简历,而OntoNotes 4.0和MSRA来源于中文新闻语料库。BWSR-NER数据集是基于历史维护记录构建的
消融研究
为了全面评估MF-FAN中每个核心组件的贡献,在通用领域的Resume数据集和领域特定的BWSR-NER数据集上进行了消融实验。如表6所示,结果验证了所提出的融合机制的必要性,并同时揭示了工业维护文本的固有特征。评估了三种变体:
(1)局部特征的影响(不使用DCNN):移除DCNN分支导致F1分数降低了1.69%
结论
在这项研究中,提出了一种新的融合注意力网络MF-FAN,用于解决BWSRs特定领域的NER挑战。与传统依赖于静态特征连接的方法不同,该方法引入了一种基于动态注意力的融合机制。这一创新使得能够自适应地整合全局上下文特征(由Transformer捕获)和局部依赖特征(由DCNN提取),有效减轻了语言噪声的影响
CRediT作者贡献声明
杨振凯:撰写——原始草稿、软件、方法论、数据管理、概念化。博新宇:撰写——审阅与编辑、验证、数据管理。杨建宏:撰写——审阅与编辑、可视化、概念化。杨德斌:撰写——审阅与编辑、监督。周晓峰:项目管理、资金获取、数据管理。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
致谢
本工作得到了MCC宝钢技术服务有限公司的技术开发项目(合同编号:20221010015115)的支持,该项目名为“冶炼领域关键设备传输系统的智能诊断技术研究与应用”。该项目是MCC集团“181”重大研发计划的一个子任务。作者衷心感谢资助组织提供的财务和数据支持。