一种抗噪声且能适应数据分布的多变量时间序列异常检测框架

《Neural Networks》:A Noise-Robust and Distribution-Adaptive Framework for Multivariate Time Series Anomaly Detection

【字体: 时间:2026年02月13日 来源:Neural Networks 6.3

编辑推荐:

  多变量时间序列异常检测中,现有方法受噪声干扰和分布偏移限制。本文提出NORDA框架,通过多阶差分抑制噪声,混合可逆归一化模块适应非稳态分布,结合Transformer编码器提升跨通道依赖建模能力。实验表明,NORDA在7个基准数据集上显著优于16种基线方法,平均F1-score提升20.14%,且具有计算高效性。

  
杜彦玲|杨子良|常宝增|高静霞|鲍晓佳|宋伟
上海海洋大学信息技术学院,中国上海 201306

摘要

现有的多变量时间序列(MTS)无监督异常检测方法在众多公开数据集上展示了出色的性能。然而,这些方法存在两个关键局限性:(1)完全无噪声的训练数据假设与现实世界情况相悖,因为正常样本不可避免地会受到污染;(2)MTS的固有非平稳性会导致分布偏移,从而引发学习偏差和泛化能力下降。本文提出了一种新颖的MTS异常检测框架NORDA,该框架结合了多阶差分机制和分布偏移优化。首先,多阶差分机制对原始时间信号进行多阶显式差分处理,有效减轻了表示学习过程中的噪声干扰。其次,提出了一种混合可逆归一化模块,该模块利用具有多种统计特征的归一化网络动态建模变量间的非平稳变化。通过这种对称可逆架构,该模块能够消除并恢复MTS的非平稳特性,从而增强模型对分布偏移的动态适应性。通过将上述两个模块与基于Transformer的多层编码器协同集成,该框架能够通过建模差分处理数据流中的通道间依赖关系来提取鲁棒的潜在表示。在七个基准数据集上的广泛实验表明,NORDA的性能显著优于十六种典型的基线方法,并且对噪声污染具有很强的鲁棒性。

引言

时间序列异常检测是数据分析中的一个关键方面,旨在识别偏离预期正常行为的时间序列中的异常点。这一研究领域自20世纪50年代以来一直受到学术界的持续关注(Page, 1957)。在金融监管(Golmohammadi和Zaiane, 2015)、工业生产(Choi等人, 2020)和医疗诊断(Hussein等人, 2021)等关键领域,异常检测系统需要及时识别由设备故障、操作错误或环境扰动引起的异常波动。异常检测的准确性直接影响系统安全和经济利益。随着物联网技术的普及,多变量时间序列(MTS)因其耦合的多维特征而成为感知复杂系统状态的主要手段,同时也为时间序列异常检测带来了新的挑战。
由于异常数据的稀有性,获取大规模标记数据集非常困难,这使得对未标记MTS进行高效异常检测成为一个重要问题(Wen等人, 2021)。因此,当前的研究主要集中在多变量时间序列异常检测(MTSAD)的无监督方法上。这些无监督方法大致可以分为基于预测的方法和基于重建的方法。目前,基于重建的方法(Xu, Wu, Wang, Long, 2022; Yao, Ma, Feng, Ye, 2024; Zhang, Bai, Xie, Chen, Dong, 2023)表现出了良好的性能。这些方法利用模型学习时间序列数据中的正常模式,然后利用训练好的模型重建测试数据。重建数据与输入数据之间的差异(称为重建误差)被用作评估指标。如果该误差超过预定义的阈值,则将该数据点分类为异常。
然而,现有的基于重建的方法仍然面临两个主要挑战。首先,这些方法本质上假设训练数据能够准确反映系统的正常状态。实际上,收集的数据经常包含大量的噪声干扰,这可能会干扰正常模式的学习。如图1(a)和图1(b)所示,在PSM基准数据集中观察到了普遍存在的高频噪声(Qiu等人, 2022)。此外,训练数据中还包含与正常上下文显著偏离的潜在异常,如图1(c)所示。在无监督设置下,训练数据中缺乏标签,人们无法准确识别真正的异常。因此,我们遵循之前的研究(Yu等人, 2024),将这些噪声和潜在异常统称为噪声污染。这种污染包括传感器抖动以及在数据传输过程中产生的异常脉冲或信号段,可能导致模型错误地将噪声模式视为正常操作特征的组成部分。实证研究(Gao等人, 2022)表明,基于重建的模型对噪声污染非常敏感,可能会在训练阶段错误地学习到虚假的正常特征,从而影响其异常检测能力。其次,传统的深度学习实现通常在模型训练和测试之前对数据使用独立的归一化程序,以增强模型的收敛性和性能。传统的归一化技术假设数据是平稳的。然而,在现实世界中,系统动态性会导致MTS的波动,表现为非平稳性(Liu等人, 2022),这是由于设备老化导致的基线漂移和环境变化引起的数据变化等因素。这种非平稳性会导致数据分布的偏移。在分布偏移的情况下,这种现象会导致学习偏差,而传统的归一化方法难以动态适应非平稳的MTS,从而限制了MTSAD的性能。此外,现有的启发式特征提取方法(Passalis等人, 2019)在确定复杂时间模式的最佳归一化方案方面也存在局限性。
总之,现有的MTSAD方法往往容易受到噪声干扰的影响,这阻碍了它们从MTS中准确学习正常模式的能力,从而限制了它们在现实世界中的应用。此外,这些方法经常忽视非平稳性问题,分布偏移会显著阻碍特征提取和学习,从而限制了它们的异常检测性能。在本文中,我们提出了一种名为NORDA的噪声和分布自适应的MTSAD框架。该方法有效减轻了噪声数据的影响,同时适应性地处理非平稳变化。我们使用基于Transformer的多层编码器(ALIAS PARTH GOYAL等人, 2017)来捕获MTS中的通道间依赖关系,进一步增强了鲁棒的潜在表示学习能力。本工作的主要贡献总结如下:
(1) 我们提出了NORDA,这是一种新型的抗噪声和分布自适应的MTSAD框架。它采用了一种具有多阶差分机制的鲁棒特征提取架构,有效抑制了数据中的噪声表达。此外,它还采用了一个可学习的归一化模块,以便适应性地处理MTS的非平稳性。通过将这些组件与基于Transformer的多层编码器协同集成,NORDA实现了一种端到端的异常检测方法。
(2) 提出了一种混合可逆归一化模块,称为MixReVIN。MixReVIN全面考虑了MTS中的非平稳变化,并与其他模型组件共同训练可逆归一化参数。具体来说,MixReVIN对z-score和min-max的归一化结果进行加权,同时引入了两个可学习的矩阵以实现自适应调整。在重建之前,数据通过逆变换重新映射到原始表示空间,使模型能够克服MTS中的非平稳性。
(3) 在七个基准数据集上的广泛实验表明,NORDA的性能显著优于十六种典型的基线方法。与最优基线相比,NORDA的平均F1分数、R-AUC-PR和R-AUC-ROC分别提高了20.14%、43.07%和17.11%。此外,NORDA还表现出出色的可扩展性和计算效率。

部分摘录

基于重建的方法

基于重建的异常检测方法通常使用编码器提取时间序列数据的潜在表示,然后使用解码器从这些潜在空间表示中重建输入数据。随后通过将重建数据与原始观测值进行比较来计算异常分数。异常分数超过预定阈值的数据实例被识别为异常。
对于MTSAD,基于自动编码器的模型逐渐取得了

方法

MTS中普遍存在的噪声和非平稳性对异常检测性能构成了关键挑战。为了解决这些挑战,我们提出了NORDA,这是一种结合了多阶差分机制和混合可逆归一化的新型MTSAD框架。本节首先阐述了时间滑动窗口机制,然后详细介绍了NORDA的架构。组成部分的实现和异常检测

设置

在我们的实验实现中,NORDA使用PyTorch 1.13.1(Paszke等人, 2019)和Python 3.8.19进行开发。所有实验评估都在配备NVIDIA GeForce RTX 2080Ti GPU的Linux服务器上进行。对于超参数配置,我们在训练和测试阶段保持一致的批量大小为64。模型权重使用AdamW优化器进行优化,初始学习率为0.001。为了确保模型的鲁棒训练和可靠的泛化

结论

在本文中,我们提出了NORDA,这是一种新型的MTSAD框架,它结合了多阶差分机制和混合可逆归一化,以解决MTS中的噪声和非平稳性问题,实现鲁棒的异常检测。多阶差分机制指导模型学习正常模式,同时增强噪声鲁棒性,而混合可逆归一化提取丰富的非平稳信息,并通过对称方式适应性地处理MTS的非平稳性

写作过程中生成式AI和AI辅助技术的声明

在准备这项工作时,作者使用了DeepSeek来提高语言表达和可读性。使用该工具后,作者根据需要审查和编辑了内容,并对出版物的内容负全责。

CRediT作者贡献声明

杜彦玲:撰写——原始草稿,监督,资金获取。杨子良:撰写——审阅与编辑,撰写——原始草稿,可视化,方法论。常宝增:可视化,方法论。高静霞:监督。鲍晓佳:可视化。宋伟:监督,方法论。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

致谢

本工作得到了科技部关键研究与发展项目[项目编号2021YFC3101602]和中国国家自然科学基金[项目编号42376194]的支持。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号