多变量时间序列数据以其复杂的交互和高维度为特征,在现代数字环境中无处不在[1]、[2]、[3]。它在网络安全等领域中至关重要,因为监控网络流量以检测恶意活动对于维护系统完整性至关重要[4]。挑战在于检测利用此类数据中先前未识别漏洞的未知威胁的零日攻击[5]。这些零日攻击构成了重大的安全风险,因为它们可以绕过传统的异常检测方法[6]、[7],而这些方法受限于对预定义模式和历史特征的依赖[8]、[9]。这些限制使得关键系统容易受到旨在逃避检测的新颖和适应性威胁的攻击。
虽然联邦自动编码器-区块链模型[10]在心电图数据异常检测方面显示出潜力,但它们的领域特异性和资源开销凸显了需要像ZAD-ML这样的轻量级、适应性方法,以便在实时网络环境中通用。
本文介绍了ZAD-ML,这是一种专为检测多变量时间序列数据中的零日攻击而设计的新型机器学习框架。尽管最近取得了进展,现有模型在动态适应复杂和未知模式方面仍存在困难,尤其是在不断变化的环境中。ZAD-ML通过结合自适应学习和行为分析来实时应对零日攻击,减少了对攻击特征事先知识的依赖[11]。最近的研究(如Xu等人[12])强调了训练数据集中异常污染的持续问题,其中潜在的异常可能会严重偏置无监督设置中正常性模型的学习[13]。
他们提出的方法COUTA[12]通过创新的校准技术有效缓解了这一挑战,这些技术调整了学习过程以适应受污染的训练数据。受这些发现的启发,ZAD-ML整合了校准策略,以增强对受污染数据的鲁棒性,确保在不断变化的网络环境中更准确地检测异常。这种方法通过解决基于特征的系统的局限性并适应现代高维网络数据的复杂性,提供了关键优势。
ZAD-ML的核心创新在于其独特的两层神经网络架构,该架构无缝集成了深度自动编码器[14]和循环神经网络(RNN)[15],并增强了注意力机制。这种架构专门设计用于将正常行为模式学习并压缩为密集表示,从而显著促进了微妙和先前未见异常的高效检测。通过不断更新其对正常行为的基线,系统可以适应新出现的威胁,确保安全措施始终是最新的和可靠的。
本工作的重大贡献总结如下:
1. 我们提出了ZAD-ML,这是一个专门用于检测多变量时间序列数据中零日攻击的机器学习框架。通过利用先进的行为分析,ZAD-ML有效地从传统的基于特征的方法转向实时检测新颖和不断演变的威胁。
2. ZAD-ML结合了通过深度自动编码器进行正常行为编码和带有注意力机制的循环神经网络的双层神经网络。这种独特的架构使ZAD-ML能够捕捉复杂的行为模式并检测指示零日攻击的微妙异常,提供动态和适应性的异常检测。
3. 通过增量学习和概念漂移检测,ZAD-ML动态更新其对“正常”行为的理解。这种适应性使ZAD-ML能够根据实时数据流不断优化模型参数,从而在没有预先知道威胁特征的情况下实现可靠的检测。
4. ZAD-ML的有效性在多个公共数据集上进行了严格测试,证明了其在零日攻击检测方面的高准确性,并显著降低了误报率,相比传统方法有显著改善。
为了解决这些贡献,我们提出了以下研究问题(RQ)来指导我们的研究:
RQ1:与传统方法相比,ZAD-ML框架在检测零日攻击方面的有效性如何?这是通过一系列对照实验来评估的,比较了ZAD-ML的检测率和误报率与各种数据集上传统异常检测系统所达到的检测率和误报率。
RQ2:ZAD-ML的适应性如何影响其在操作环境中的有效性?这个问题将通过模拟数据流随时间演变的真实世界场景来探讨,测试ZAD-ML适应新类型零日攻击的检测机制的能力。
RQ3:ZAD-ML的独特双层架构在其检测能力中扮演了什么角色?这是通过分析每一层对整个系统性能的单独贡献来实现的,使用消融研究来突出深度自动编码器和带有注意力机制的循环神经网络的影响。
ZAD-ML的有效性在多个公共数据集上进行了严格测试,证明了其在检测零日攻击方面的高准确性,同时保持了较低的误报率。这种强大且可适应的异常检测解决方案的引入为增强各种领域的实时安全措施带来了重大希望,相比现有方法有显著改进。
本文的结构如下:第2节回顾了时间序列异常检测的相关工作,第3节定义了问题并概述了提出的ZAD-ML框架,第4节详细介绍了实验设置,第5节讨论了结果,第6节总结了我们的发现和未来研究的潜在方向。