时间序列异常检测是数据分析中的一个关键方面,旨在识别偏离预期正常行为的时间序列中的异常点。这一研究领域自20世纪50年代以来一直受到学术界的持续关注(Page, 1957)。在金融监管(Golmohammadi和Zaiane, 2015)、工业生产(Choi等人, 2020)和医疗诊断(Hussein等人, 2021)等关键领域,异常检测系统需要及时识别由设备故障、操作错误或环境扰动引起的异常波动。异常检测的准确性直接影响系统安全和经济利益。随着物联网技术的普及,多变量时间序列(MTS)因其耦合的多维特征而成为感知复杂系统状态的主要手段,同时也为时间序列异常检测带来了新的挑战。
由于异常数据的稀有性,获取大规模标记数据集非常困难,这使得对未标记MTS进行高效异常检测成为一个重要问题(Wen等人, 2021)。因此,当前的研究主要集中在多变量时间序列异常检测(MTSAD)的无监督方法上。这些无监督方法大致可以分为基于预测的方法和基于重建的方法。目前,基于重建的方法(Xu, Wu, Wang, Long, 2022; Yao, Ma, Feng, Ye, 2024; Zhang, Bai, Xie, Chen, Dong, 2023)表现出了良好的性能。这些方法利用模型学习时间序列数据中的正常模式,然后利用训练好的模型重建测试数据。重建数据与输入数据之间的差异(称为重建误差)被用作评估指标。如果该误差超过预定义的阈值,则将该数据点分类为异常。
然而,现有的基于重建的方法仍然面临两个主要挑战。首先,这些方法本质上假设训练数据能够准确反映系统的正常状态。实际上,收集的数据经常包含大量的噪声干扰,这可能会干扰正常模式的学习。如图1(a)和图1(b)所示,在PSM基准数据集中观察到了普遍存在的高频噪声(Qiu等人, 2022)。此外,训练数据中还包含与正常上下文显著偏离的潜在异常,如图1(c)所示。在无监督设置下,训练数据中缺乏标签,人们无法准确识别真正的异常。因此,我们遵循之前的研究(Yu等人, 2024),将这些噪声和潜在异常统称为噪声污染。这种污染包括传感器抖动以及在数据传输过程中产生的异常脉冲或信号段,可能导致模型错误地将噪声模式视为正常操作特征的组成部分。实证研究(Gao等人, 2022)表明,基于重建的模型对噪声污染非常敏感,可能会在训练阶段错误地学习到虚假的正常特征,从而影响其异常检测能力。其次,传统的深度学习实现通常在模型训练和测试之前对数据使用独立的归一化程序,以增强模型的收敛性和性能。传统的归一化技术假设数据是平稳的。然而,在现实世界中,系统动态性会导致MTS的波动,表现为非平稳性(Liu等人, 2022),这是由于设备老化导致的基线漂移和环境变化引起的数据变化等因素。这种非平稳性会导致数据分布的偏移。在分布偏移的情况下,这种现象会导致学习偏差,而传统的归一化方法难以动态适应非平稳的MTS,从而限制了MTSAD的性能。此外,现有的启发式特征提取方法(Passalis等人, 2019)在确定复杂时间模式的最佳归一化方案方面也存在局限性。
总之,现有的MTSAD方法往往容易受到噪声干扰的影响,这阻碍了它们从MTS中准确学习正常模式的能力,从而限制了它们在现实世界中的应用。此外,这些方法经常忽视非平稳性问题,分布偏移会显著阻碍特征提取和学习,从而限制了它们的异常检测性能。在本文中,我们提出了一种名为NORDA的抗噪声和分布自适应的MTSAD框架。该方法有效减轻了噪声数据的影响,同时适应性地处理非平稳变化。我们使用基于Transformer的多层编码器(ALIAS PARTH GOYAL等人, 2017)来捕获MTS中的通道间依赖关系,进一步增强了鲁棒的潜在表示学习能力。本工作的主要贡献总结如下:
(1) 我们提出了NORDA,这是一种新型的抗噪声和分布自适应的MTSAD框架。它采用了一种具有多阶差分机制的鲁棒特征提取架构,有效抑制了数据中的噪声表达。此外,它还采用了一个可学习的归一化模块,以便适应性地处理MTS的非平稳性。通过将这些组件与基于Transformer的多层编码器协同集成,NORDA实现了一种端到端的异常检测方法。
(2) 提出了一种混合可逆归一化模块,称为MixReVIN。MixReVIN全面考虑了MTS中的非平稳变化,并与其他模型组件共同训练可逆归一化参数。具体来说,MixReVIN对z-score和min-max的归一化结果进行加权,同时引入了两个可学习的矩阵以实现自适应调整。在重建之前,数据通过逆变换重新映射到原始表示空间,使模型能够克服MTS中的非平稳性。
(3) 在七个基准数据集上的广泛实验表明,NORDA的性能显著优于十六种典型的基线方法。与最优基线相比,NORDA的平均F1分数、R-AUC-PR和R-AUC-ROC分别提高了20.14%、43.07%和17.11%。此外,NORDA还表现出出色的可扩展性和计算效率。