雅伊梅·费尔南德斯(Yaime Fernández)|哈维尔·E·索托(Javier E. Soto)|卡罗莱纳·加利亚多-帕维斯(Carolina Gallardo-Pavesi)|亚斯曼尼·普里托(Yasmany Prieto)|塞西莉亚·埃尔南德斯(Cecilia Hernández)|米格尔·菲格罗亚(Miguel Figueroa)
智利圣地亚哥天主教大学(Universidad Católica de la Santísima Concepción)计算机科学系
摘要
香农经验熵(Shannon’s empirical entropy)在网络监控中广泛用于异常检测和资源管理。由于近期流量对预测网络行为最为关键,因此通常在滑动时间窗口上进行熵估计。在现代网络链接中,这一任务涉及高速数据流,其中吞吐量和内存效率都至关重要。硬件加速器能够在网络内部提供低延迟、高能效的处理能力,但面临严格的片上内存限制。我们提出了一种适用于滑动时间窗口的流式算法,采用离散步骤来估计熵,以适应这些硬件约束。该算法结合了频率和基数 sketch(frequency and cardinality sketches)技术,存储最频繁的流量数据,并根据排序后的对数-对数缩放直方图(sorted log–log scaled histogram)来估计其余流量。对于一个大小为的窗口,通过合并十个非滑动频率 sketch(non-sliding frequency sketches)来重建流量频率,每个 sketch 覆盖的时间间隔为
引言
网络测量对于流量监控应用至关重要,例如异常检测[1]、流量分类[2]、拥塞控制[3]和负载均衡[4]。这些应用依赖于流量的统计特性,包括基数、流量大小和熵[5]。特别是香农熵可以量化概率分布的不确定性。在网络流量中,高熵反映了多样化的活动,例如当许多 IP 地址、端口或协议同时使用时。这种多样性可能对应于分布式通信或扫描攻击。低熵则表明流量集中,主要由少数流量主导,这是分布式拒绝服务(DDoS)攻击等异常行为的特征。因此,随时间监测熵是检测流量分布异常的有效工具[1]、[6]、[7]、[8]。经验香农熵直接从数据集中的元素频率计算得出,需要知道不同元素的数量及其相应的频率。在网络流量中,这些元素通常对应于流量,而流量通常由一组数据包属性(如源地址、目的地址、端口和协议)定义。因此,现代网络中的不同流量数量可能非常大。此外,数据包序列以连续的高速流形式生成,且每个流的数据包分布会随时间变化。