SyntheITS:利用先验知识和深度生成模型合成工业时间序列数据,用于在小样本条件下检测设备异常

《COMPUTERS IN INDUSTRY》:SyntheITS: Synthetic industrial time-series data with prior knowledge and deep generative models for equipment anomaly detection under small samples

【字体: 时间:2026年02月24日 来源:COMPUTERS IN INDUSTRY 9.1

编辑推荐:

  智能装备异常检测中基于知识增强的合成时间序列数据方法,提出融合专家知识的多阶段数据表征与混合深度生成架构,解决工业场景数据稀缺、分布不均问题,在电池组紧固工艺验证中显著提升模型性能,并扩展至其他制造场景,为无辅助数据集训练提供新范式。

  
王晓桥|郑楠|张瑞龙|郑瑞|卢少军|刘新宝
合肥工业大学机械工程学院,中国合肥230009

摘要

人工智能(AI)的快速发展和工业时间序列(ITS)数据的指数级增长已经改变了智能制造研究。然而,在获取高质量数据方面仍存在挑战,尤其是在多品种、小批量生产环境中。来自智能设备(I-Equip)的传感器数据往往具有稀疏性和多样性不足的问题,这使得数据收集成本高昂且耗时。为了解决这些问题,我们提出了SyntheITS,这是一种结合先验知识与深度生成模型的新方法来生成ITS数据。首先,我们通过分析产品加工过程确定了I-Equip的关键处理阶段。一种多阶段数据表示方法结合了专家知识,将时间序列数据分解为基本特征元素。这些元素通过反向融合和迭代优化构建了稳健的ITS模板。SyntheITS的核心是一种混合架构,它结合了TimeDiffusion和时间生成对抗网络(Time Generative Adversarial Network)来生成样本数据的潜在空间表示。这种双重方法确保了合成数据的真实性和多样性,为工业异常检测(IAD)模型创建了一个全面的初始数据集。我们通过针对新能源汽车关键电池包拧紧过程的广泛实验验证了该方法的有效性,将合成数据和真实数据以不同的比例集成进行模型评估。结果表明,IAD模型在处理ITS数据时的准确性和稳健性得到了显著提高。为了进一步验证其有效性,我们使用了两个不同的时间序列数据集进行了额外的实验。研究结果表明,SyntheITS桥接了人类专业知识和机器智能,生成了真实、大规模的数据,可以补充或替代现实世界的数据。这一突破使得在没有大量辅助数据的情况下也能进行初始模型训练,其性能可与在精确匹配的真实数据上训练的模型相媲美。所有数据和代码均可在以下链接获取:https://github.com/xluckywang/SyntheITS

引言

下一代信息技术(如物联网、大数据和人工智能(AI)的快速发展正在推动智能制造(IM)的演进(Kusiak, 2024; Lee and Su, 2024; Liu et al., 2025)。自动化设备(A-Equip)是IM的核心(Yin et al., 2022),在新能源汽车生产中的应用中,装配和焊接的装备覆盖率分别达到了80%和97.5%(Wang et al., 2023b)。确保稳定生产需要先进的功能,例如异常诊断、故障预测和智能维护(Zhang et al., 2025b)。这些功能对于实现设备智能化至关重要。智能设备(I-Equip)集成了传感、分析、决策和控制功能,体现了先进制造、信息技术和AI的融合。例如拧紧机器人、高端计算机数控机床和智能测量设备。I-Equip可以自主监控、分析并在加工过程中响应异常状态(Zhou and Wang, 2021)。产品加工过程中的时间序列数据提供了关于产品质量的见解(Fang et al., 2025),使得数据驱动的决策对于确保制造过程的一致性和稳定性至关重要。IAD能够识别出与正常行为模式的偏差(Blázquez-García et al., 2022, Yan et al., 2024),从而支持智能维护。然而,由于I-Equip操作的复杂性、长服务周期、技术更新以及多品种、小批量生产的普遍性,仍然存在挑战。这些因素导致了“大数据小样本”和“数据稀疏”的问题(Li et al., 2024),使得在数据有限的情况下进行IAD成为一个重要的研究挑战。
工业时间序列(ITS)数据对于理解I-Equip的运行行为及其时空演变建模至关重要。尽管AI技术,特别是深度学习(DL),已经促进了制造过程的智能化转型和升级(Liu et al., 2025; Wang et al., 2022, Wang et al., 2024b),但它们对大型高质量数据集的依赖在IM中带来了挑战(Jha and Babiceanu, 2023; Zhang et al., 2025a)。监督学习作为主要的DL方法,需要大量的标记数据,但由于缺陷产品发生率低和样本分布不平衡,这类数据往往很稀缺(Ye et al., 2025; Zhang et al., 2022d)。如图1(b)所示,传统AI模型在制造中的应用涉及收集大量多类异常数据,这既耗时又昂贵。此外,传感器数据分布会随时间变化,从而降低模型在动态环境中的准确性(Singh et al., 2023)。这些问题在新兴工厂或小批量生产场景中尤为突出。因此,在动态环境中(如新工厂、新产品和新设备)确保AI技术的有效应用是一个关键的研究挑战。
为了解决数据稀缺问题,研究人员专注于几个关键领域,包括合成数据生成(SDG)(Karletsos et al., 2022)、少样本学习(FSL)(Feng et al., 2022)和零样本学习(ZSL)(Zhang et al., 2022b)。生成式AI方法,如生成对抗网络(GANs)(Li et al., 2022)、去噪扩散概率模型(DDPMs)(Saharia et al., 2022)和变分自编码器(VAEs)(Gull and Arif, 2022),在生成真实和多样化数据方面显示出潜力,提高了模型的泛化和稳健性。FSL利用先验知识来补偿数据不足(Tyagi et al., 2023, Yang et al., 2025),而ZSL则利用辅助领域信息来识别未见类别(Tang et al., 2025, Yin et al., 2025)。如图1(c)所示,生成式AI解决方案可以缓解制造环境中的数据稀缺问题。然而,制造过程涉及大量的专业知识,使得在实际应用AI模型时难以利用领域专长。
制造商的专家知识在智能分析和决策中起着至关重要的作用(Lu et al., 2022)。将这些知识与DL的数据挖掘能力结合起来对于构建高效的AI模型至关重要。DL凭借其自动特征学习、非线性建模和出色的泛化能力,可以从原始数据中挖掘出高层次的抽象特征表示,从而对未见数据做出准确的预测和决策。这对于涉及多个工厂和设备的制造企业尤为重要(Su et al., 2024)。然而,DL模型需要大量的高质量数据进行训练,因此在处理具有大数据、小样本和稀疏值特征的ITS数据时效果较差(Lu et al., 2025)。因此,将专家知识与DL的数据挖掘能力结合起来可以提高模型的效率和适应性(Gong et al., 2024; Zhang et al., 2022c)。这种整合保留了传统的企业知识,同时将AI模型定位为人类智能的延伸,从而在复杂环境中有效解决问题(Wu et al., 2023)。
为了解决I-Equip加工过程中有效样本数据不足和数据分布不均的问题,我们提出了一种基于TimeGAN和时间扩散模型的ITS数据合成模型(SyntheITS)。我们的目标是构建一个具有泛化和生成能力的ITS数据基础设施模型,开发出适用于制造场景的智能模型。首先,我们对I-Equip加工过程中的IAD进行了深入分析,并建立了一种结合专家知识的ITS数据表示方法。其次,我们基于先验知识和深度生成模型(DGMs)开发了一种工业数据生成方法来解决数据不足的问题。最后,我们使用新能源汽车制造中的关键电池包拧紧过程(BPTP)作为案例研究,验证了我们方法的有效性和稳健性。此外,我们还验证了该方法在另外两个场景的时间序列数据上的泛化能力。本研究的主要贡献包括:
  • (1)
    提出了一种创新的ITS数据表示方法,该方法通过将专家知识融入现有的时间序列生成方法中,增强了生成数据的真实性、上下文多样性和细节丰富性。这是首次解决生成数据与现实世界工业场景复杂性对齐的问题。
  • (2)
    开发了一个基于深度生成的ITS数据生成框架。该框架在生成数据的准确性和多样性方面进行了改进,同时解决了工业生产中数据稀疏和分布不均的问题。该框架的一个关键特点是能够调整数据特征,使生成的数据具有可解释性,并适用于各种工业环境。
  • (3)
    构建并发布了BPTP-DS ITS数据集,包含2265个精确标注的时间序列数据点,用于评估ITS数据生成、预测和分类任务。BPTP-DS的规模和详细注释为评估生成模型在工业应用中的性能提供了基础资源,支持未来的研究。
  • 本文的其余部分安排如下:第2节回顾了与IAD和数据生成方法相关的工作。第3节详细介绍了所提出的框架和ITS数据生成方法。第4节展示了验证该方法泛化能力的实验结果。第5节总结了研究并概述了未来的研究方向。

    章节片段

    I-Equip异常检测方法

    I-Equip的异常检测(IAD)利用先进的传感器、数据采集技术和AI模型来监控和分析工业生产过程中设备的时间序列数据,识别与预期行为的显著偏差(Wei et al., 2025)。当前的IAD方法可以分为基于模型的、数据驱动的和基于知识的方法(Ma et al., 2023)。
    基于模型的IAD方法利用对系统运行的理解来监控和识别I-Equip中的异常

    框架

    AI模型需要大量的高质量数据才能有效运行。然而,小批量定制、新的智能工厂设置以及生产过程的频繁变化阻碍了在制造过程中获取足够和多样化样本。尽管如此,企业内部的领域专家拥有丰富的实践经验和知识,可以用来生成和补充数据,以解决数据不完整的问题。为了应对这些挑战,我们

    实验背景与分析

    本实验研究了生成模型——特别是TimeDiffusion、TimeGAN和DoppelGANger——在模拟高精度时间序列数据(如工业应用中的拧紧曲线)方面的性能。目的是评估这些模型生成的数据在模仿真实世界时间序列模式方面的能力,重点关注它们在IAD和数据增强任务中的使用。生成数据的质量使用FID这一广泛使用的指标进行了定量评估

    结论

    在多品种、小批量生产模型的背景下,从I-Equip的制造过程中收集大量高质量的ITS传感器数据对AI在现实世界工业环境中的部署提出了重大挑战。此外,传感器数据通常存在安全问题、数据稀疏和样本多样性不足的问题,导致数据收集周期延长和获取足够样本数据的成本高昂。这些挑战使得

    CRediT作者贡献声明

    王晓桥:撰写 – 审稿与编辑,撰写 – 原稿,监督,软件,资源,项目管理,方法论,调查,资金获取,数据管理,概念化。张瑞龙:可视化,软件,调查。郑楠:可视化,软件,资源,调查。郑瑞:验证,资源,资金获取。刘新宝:监督,资源,资金获取。卢少军:资源,调查,资金获取。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

    致谢

    本工作得到了国家自然科学基金(批准号:72401085、72371095和72101071)以及国家自然科学基金的国际(区域)合作与交流项目(批准号:W2411063)的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号