一种面向低资源工业状态监测的半监督多阶段流程：通过跨模态多模态大语言模型微调注入领域知识

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：A semi-supervised multi-stage pipeline for low-resource industrial condition monitoring by injecting domain knowledge via cross-modal multimodal large language model fine-tuning

【字体：大中小】 时间：2026年06月07日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　电力动车组（Electric Multiple Units，EMU）异常检测对于保障铁路运营安全至关重要，但由于数据稀缺、长尾异常分布以及多样化车辆平台的结构复杂性，该任务面临显著挑战。现有方法通常难以对复杂机械总成进行建模，或需要成本高昂的人工标注。该研究提

电力动车组（Electric Multiple Units，EMU）异常检测对于保障铁路运营安全至关重要，但由于数据稀缺、长尾异常分布以及多样化车辆平台的结构复杂性，该任务面临显著挑战。现有方法通常难以对复杂机械总成进行建模，或需要成本高昂的人工标注。该研究提出了两方面贡献，以同时满足方法学与实际应用需求。在人工智能方法方面，研究人员提出了一种利用共享视觉语义缓解长尾异常失衡的单元联合训练（unit-union training）策略，并结合跨模态多模态大语言模型（Multimodal Large Language Model，MLLM）微调，实现稳健的表征学习。在实际应用方面，研究构建了一种具有高可扩展性的电力动车组自动标注与状态监测范式。该方法通过结合基于 Transformer 的视觉模型与物理信息引导的动态推理，解决复杂层级机械结构的建模难题。通过利用多域传感器数据与机械设计先验，该方法消除了维护数百个单元专用模型的额外负担。依托包含 116 万幅图像的综合真实世界数据集进行稳健表征学习，所提出方法在评测基准上取得了 94.8% 的分割精度和 99.6% 的异常检测召回率。该研究提供了一种透明且高召回的解决方案，避免了维护数百个单元专用模型的额外开销，为智能工业状态监测提供了一种可扩展且稳健的范式。

该论文发表于《Engineering Applications of Artificial Intelligence》，聚焦中国高速铁路场景下电力动车组（Electric Multiple Units，EMU）异常检测的关键难题。研究背景在于，高速铁路具有高速、大运量和高能效等特征，随着运营规模扩大与服役周期延长，列车运行安全面临更高要求。动车组关键基础设施具有显著的动态耦合性和复杂结构特征，因此需要高可靠性的状态监测体系。列车故障图像检测系统（Train of EMU Failures Detection System，TEDS）通过轨旁相机采集图像，对动车组运行状态进行监测，从而支撑车辆安全检查。在这一应用语境下，论文特别区分了“异常”和“故障”：故障通常指经拆解或台架检测确认的机械损伤或功能失效，而异常则是 TEDS 相机观测到的任何偏离正常状态的视觉现象，既包括异物遮挡、鸟类遮挡等外部环境异常，也包括划痕、油污、漆面剥落等表面状态异常，以及明显变形、部件缺失等疑似结构性故障。基于这一更贴近实际低资源运维场景的定义，研究将异常划分为环境/外部异常、表面状态异常和疑似结构故障三层类别，以适配真实工业检测需求。

目前存在的核心问题主要体现在三个方面。首先，动车组部件在统一制造标准下具有高度结构相似性，许多尺寸接近的部件边界不明显，且刚性附着于车体，导致识别与分割难度显著高于自然图像目标。其次，现有人工诊断主要依赖经过专门培训且具有一年以上检修经验的维护人员，随着客运需求增长，检查工作量持续上升，而人工诊断能力有限，形成效率瓶颈。再次，从算法角度看，传统方法如盲反卷积、模板匹配等虽然为工业故障识别提供了早期基础，但对环境变化和位置变化敏感，误报率较高。卷积神经网络（Convolutional Neural Networks，CNN）虽能通过层次化视觉特征提升检测性能，并在少样本条件下展现优势，但其效果依赖充足且均衡的标注数据。在工业长尾异常分布和多车型结构差异显著的情况下，这类监督模型泛化能力不足，往往需要针对不同单元和车型分别训练模型，带来高昂部署与维护成本。近年来，基于 Transformer 的基础模型为解决泛化问题提供了新思路，但通用预训练与专用工业图像之间存在明显领域鸿沟，模型适配通常仍需要海量专家标注或依赖无监督聚类，而后者往往无法可靠识别关键长尾故障。此外，许多先进方法仍孤立分析单一模态数据，没有充分利用多模态交互中的互补信息。因此，数据稀缺、领域差距和多模态协同不足构成了当前方法的根本挑战，这也是开展本研究的直接原因。

围绕这些问题，研究人员提出了一种半监督多阶段流程，将原始视觉数据与抽象工业领域知识进行衔接，并构建了严格机械层级到人工智能模态的系统化工程架构。论文的主要目标并不仅是提升单一算法指标，而是形成一种面向复杂工业装备、可推广、低资源、可解释且高召回的智能状态监测方案。研究的核心贡献包括：构建一种可扩展的低资源自动标注范式，在 116 万幅未标注图像上进行预训练，减少对大规模人工框标注的依赖；通过跨功能单元汇聚异常类型的单元联合训练（unit-union training），使模型学习如“漏油”等抽象异常语义，从而缓解长尾工业分布中具体“单元–故障”组合样本稀缺的问题；采用动态多尺度滑动窗口与基于规则的知识过滤器，对复杂机械总成施加物理和拓扑约束，解决现有特征匹配方法难以处理高形态变异层级总成的问题；通过跨模态聚类和富语义描述驱动的多模态大语言模型（Multimodal Large Language Model，MLLM）微调，以工业安全优先为原则，提高异常召回率并减少关键漏检。最终，该方法在评测中取得 94.8% 的分割精度与 99.6% 的异常检测召回率，表明该体系在智能工业状态监测中具有明显实用价值。

从技术方法上看，作者主要采用了四类关键方法。其一，基于大规模未标注 TEDS 数据进行知识引导分割预训练，数据来源为 TEDS 系统在 6 个月内采集的真实动车组图像与车辆遥测信息。其二，使用基于 Transformer 的视觉模型对整车图像进行分层分割，生成总成级与单元级语义结构。其三，通过动态多尺度滑动窗口和物理规则约束，对复杂机械总成进行符合结构逻辑的候选区域筛选。其四，结合多域传感器数据、机械设计先验、跨模态聚类以及 MLLM 微调，构建图文对齐的异常表征与推理框架，从而实现高召回异常检测。

在研究结果部分，论文首先从基于 CNN 的动车组故障检测研究现状切入，说明 CNN 在图像故障检测中的优势在于可直接从数据学习层次化特征表示，其平移不变性与局部性偏置使其在有限标注样本条件下依然有效，并在既有系统中优于传统模板匹配方法。然而，该部分同时指出，已有系统往往训练专用 CNN 模型，难以适应复杂车队结构差异与长尾异常分布，这为后续方法设计奠定了问题基础。

在“Proposed method”部分，研究给出了完整流程框架。方法建立在正常与异常动车组图像共同构成的数据集之上，并对两类数据并行处理以构建交叉模态训练语料。对于正常图像，系统首先处理整车机械总成图像，并在引导信息帮助下智能分割为多个总成，每个总成包含多个功能单元。这一步的意义在于，将复杂整车视觉内容映射为符合工业机械层级的结构化单元，为后续异常检测和语义建模建立标准参照。研究通过这种方式，将原始图像中的机械拓扑结构转化为机器可学习的视觉语义，并进一步服务于跨模态表示学习。对于异常数据，论文强调通过跨单元聚合异常类型，使模型不再局限于某一车型、某一部件的孤立实例，而是学习跨车辆平台共享的异常概念，从而提升对长尾异常的泛化能力。与此同时，动态多尺度滑动窗口与规则过滤机制确保仅有符合物理逻辑与结构先验的机械总成进入后续语义描述和 MLLM 推理流程，这显著增强了模型对复杂机械装配场景的适应性与可解释性。

在“Datasets”部分，论文说明数据取自 TEDS 系统在 6 个月内的采样。该系统沿铁路主线部署相机，采集动车组底部与侧视图像，并同步记录车辆遥测数据。系统集成图像采集、车辆信息识别、图像质量评估和设备检测等模块；其中，基于射频识别（Radio Frequency Identification，RFID）的识别模块记录车型、通过时间与行驶方向，压力传感器则用于统计车轴和车辆数量，准确率超过 99.99%。这一数据基础说明该研究并非在理想化实验环境中完成，而是建立在真实铁路工业现场的多源异构数据之上，因此更具工程代表性。

从性能结果来看，研究依托包含 116 万幅图像的真实世界数据集进行稳健表征学习，最终取得较高分割精度与异常检测召回率。94.8% 的分割精度表明，该方法能够较准确地完成复杂机械结构的语义分割，为后续异常识别奠定可靠基础；99.6% 的异常检测召回率则直接回应了铁路工业安全场景中“宁可多报、不可漏报”的核心需求。论文特别强调，这种高召回特性并非仅来自单一视觉模型，而是来源于视觉分割、知识过滤、跨模态聚类、富语义描述和 MLLM 微调的联合设计。换言之，研究结果支持这样一个结论：当复杂工业知识被有效注入跨模态模型之后，即使在低资源、长尾分布和结构高度复杂的场景下，依然可以建立兼具可扩展性与鲁棒性的异常检测系统。

在讨论层面，论文的价值主要体现在方法学和工程应用两个维度。方法学上，该研究说明复杂、领域专属性极强的工业任务，并不必然依赖穷尽式人工标注数据，也不必为每一个单元或车型分别训练孤立网络架构。通过利用单元间结构相似性、引入机械设计先验并构建跨模态语义推理路径，模型能够学习更抽象、更可迁移的异常表示。工程应用上，该框架降低了新车型部署成本，减少了维护数百个专用模型的开销，并提供了透明且高召回的异常监测方案，这对于动车组运行安全保障具有直接现实意义。论文并未将研究目标表述为直接故障诊断，而是坚持面向“异常检测”的应用定位，这种界定更符合铁路现场检修流程，也增强了系统在实际运维闭环中的可用性。

研究结论部分可概括为：该研究通过提出一种知识引导的半监督流程，解决了现有动车组异常检测方法在人工标注依赖、长尾分布适应性与复杂机械结构建模方面的基础性限制。该方法显著减少了人工标注工作量，证明复杂、领域专用的工业任务可以在无需穷尽标注数据和无需训练大量孤立网络架构的条件下得到有效解决。研究通过利用单元相似性实现高保真语义分割，并结合跨模态微调与领域知识注入，建立了面向低资源工业状态监测的可扩展、高鲁棒性智能检测范式。这一工作为铁路场景下的异常识别提供了高召回、低维护成本且具备推广潜力的解决方案。

联系信箱：

粤ICP备09063491号

热点排行