GranulNet:一种基于多粒度特征融合的统一交通识别框架
《Computer Networks》:GranulNet: A Unified Framework for Traffic Identification Using Multi-Grained Feature Fusion
【字体:
大
中
小
】
时间:2026年02月23日
来源:Computer Networks 4.6
编辑推荐:
网络流量识别中传统单粒度方法存在场景依赖性强、鲁棒性不足和泛化能力差等问题。本文提出GranulNet框架,通过整合字节级、统计级和结构级多粒度特征,采用会话聚合机制平衡长短会话信息差异,结合注意力机制动态融合多维度特征,有效提升复杂网络流量场景下的识别准确率(平均F1提升10.99%)、抗混淆能力(提升39.16%)和未知流量泛化效果。首次在统一框架中实现三层次特征融合。
Jian Qin|Xueying Han|Yunpeng Li|Ding Wang|Susu Cui|Bo Jiang|Zhigang Lu|Baoxu Liu
中国科学院信息工程研究所,北京,中国
摘要
[摘要] 随着网络技术的快速发展以及各种应用的普及,网络流量变得越来越复杂和异构,其特征包括多种类型的流量、加密数据和明文数据的共存,以及恶意活动的隐蔽性增强。传统的单一粒度流量识别方法——从基于数据包的方法到基于会话和基于信道的方法——在应对这些挑战时常常存在场景依赖性、鲁棒性有限和泛化能力不足的问题。为了克服这些限制,我们提出了GranulNet,这是一个具有立体行为表示的统一流量识别框架,它首次整合了多级流量粒度,以挖掘统计特征、结构特征和通信行为特征,从而实现对复杂网络流量的场景自适应分类。GranulNet包含三个关键模块:流量处理模块采用基于信道的会话聚合机制,以平衡不同长度会话之间的信息差异,从而增强短会话的行为表示并减少长会话中的冗余;多粒度特征提取模块分层捕获字节级、统计特征和结构特征,以确保流量的立体行为特征描述;融合特征识别模块利用注意力机制动态加权特征,以实现场景自适应分类。在八个数据集上的广泛实验表明,GranulNet在流量识别任务中实现了更高的泛化能力,平均F1分数比基线模型提高了10.99%,同时在混淆场景下的鲁棒性提高了39.16%,并且能够有效泛化到未知流量。据我们所知,这是第一个在单一框架内统一三种粒度级别的工作,为现代网络流量分析提供了更高的鲁棒性和跨场景适应性。
引言
近年来,随着网络技术的快速发展和新兴应用(如云计算、物联网、实时流媒体等)的广泛采用,网络流量的组成和特性发生了显著变化,表现出前所未有的复杂性和多样性。这种复杂性主要体现在以下三个方面:(i) 流量类型的多样化 [1]、[2]、[3]:各种应用协议、服务模型和传输模式在网络中紧密交织,不同类型的流量具有不同的数据格式、行为模式和传输特性;(ii) 加密流量和明文流量的共存 [4]、[5]:TLS/SSL等加密技术的广泛部署使得加密流量成为主导,但其与传统明文协议的并行传输导致流量特征模糊,使得基于明文的传统识别方法失效;(iii> 恶意流量的隐蔽性增强 [7]、[8]:攻击者利用加密机制掩盖恶意活动,导致加密流量中的正常行为特征和恶意行为特征高度重叠,从而大大增加了检测难度。这种多维混合特性给网络流量识别带来了前所未有的技术挑战。
当前的网络流量识别方法可以根据其检测粒度分为三种类型:基于数据包的方法、基于会话的方法和基于信道的方法。基于数据包的方法传统上依赖于指纹识别或模式匹配技术,这些方法对明文流量的有效载荷分析非常有效。然而,在加密流量占主导的情况下,它们的识别效果显著下降。最近的研究[9]、[10]、[11]、[12]探索了深度学习甚至预训练策略,以从原始字节序列中学习潜在表示,旨在提高对加密流量的识别准确性;基于会话的方法[13]、[14]、[15]、[16]关注会话级别的统计特征、时间模式或图结构特征,以建模端到端通信行为;基于信道的方法[17]、[18]、[19]聚合宏观流量特征以识别网络级别的行为模式,通常应用于在会话级别难以描述流量行为的场景。
尽管现有方法在不同应用场景中表现出一定的识别能力,但它们的性能往往存在显著的场景依赖性。具体来说,基于数据包的方法在解析流量有效载荷的字节级特征(这对明文流量识别特别有用)时效果很好,但在处理加密流量时存在明显局限性——尤其是在检测恶意流量中的高度隐蔽的通信模式(例如,高级持续性威胁中的C2通信)时。这是因为这些行为特征通常分布在多个数据包中,需要在会话或信道级别进行整体分析;基于会话的方法虽然能够捕获端到端通信行为模式,但模型设计往往仅关注单一视角的特征——例如,仅关注统计特征、序列特征或图特征,而未能有效建模多视角特征之间的协同作用,这大大降低了模型的鲁棒性和跨场景泛化性能;基于信道的方法虽然适合于宏观行为分析(例如,扫描行为检测),但在复杂的加密流量分类任务中由于特征提取和识别的粗粒度而产生较高的误报率。
为了解决当前方法在场景适应方面的局限性,我们提出了GranulNet,这是一个统一的多粒度行为表示框架,用于流量识别。它首次整合了多级流量粒度,以挖掘统计特征、结构特征和通信行为,实现复杂网络流量的场景自适应分类。具体来说,GranulNet由三个关键模块组成:(i) 流量处理模块:为了解决长会话中的信息冗余和短会话中信息不足的问题,该模块采用差异化的处理方式来处理不同持续时间的会话。首先,根据数据包数量对会话进行分类,超过预定义阈值的会话被标记为长会话并截断。对于信息不足的短会话,应用基于信道的会话聚合机制来整合相关会话,从而增强其表示能力;(ii) 多粒度特征提取模块:该模块采用分层特征提取策略,包括训练字节编码器、提取会话统计特征和构建客户端-服务器交互图(CSIG),以全面捕获来自三个维度(字节级、会话级和信道级)的流量特征,从而实现多维度流量特征描述和行为模式分析;(iii) 融合特征识别模块:鉴于不同流量类型优先考虑不同的特征,我们采用带有注意力机制的编码器模型来动态融合这些特征,从而实现不同场景下的差异化流量识别。
总之,本文的贡献有四点:
•我们提出了GranulNet,这是一个统一的流量识别框架,它整合了多粒度特征,以解决现有流量识别模型在适应不同场景方面的挑战。据我们所知,之前没有研究在统一的流量识别框架内使用三种不同的粒度级别。
•我们提出了一种针对不同长度会话的差异化处理方案,该方案采用基于信道的会话聚合机制来平衡不同流量类型之间的信息差异。这种设计有效地规范了不同流量类别的会话表示,从而增强了GranulNet对各种网络场景的适应性。
•我们改进并提出了几种新的多粒度特征提取方法,包括训练一个双字节编码器来捕获数据包的结构和上下文信息,以及引入基于数据包长度和到达时间的CSIG(客户端-服务器交互图)方法,该方法保留了序列信息并增强了对数据包交互的理解。
•我们在八个数据集上进行了全面实验,以评估模型的识别性能、鲁棒性和泛化能力。实验结果表明,与基线模型相比,GranulNet在流量识别任务中的平均F1分数提高了10.99%,在混淆场景下的鲁棒性提高了39.16%,并且对未知流量模式具有有效的泛化能力。
相关研究
相关工作
在本节中,我们通过分类和总结相关研究,根据三个不同的粒度级别来回顾现有的流量识别工作。
初步介绍
在本节中,我们介绍了一些背景知识和关键概念,特别是本研究的动机以及流量识别中的粒度分类。
方法论
在本节中,我们详细介绍了GranulNet,如图2所示。它由三个模块组成:
流量处理模块。考虑到不同流量场景下会话长度不同导致的信息冗余和不足问题,该模块首先通过区分长会话(LSs)和短会话(SSs)来处理流量数据,基于每个会话的数据包数量,从而建立统一的流量识别
实验
在本节中,我们对GranulNet进行了系统的实验验证和性能评估。首先,我们详细介绍了实验配置,包括使用的数据集、用于比较的基线模型和评估指标。随后,我们分别对应用流量识别和恶意流量识别进行了性能分析。为了验证模型关键组件的有效性,我们进一步设计了消融研究:
结论
本文提出了GranulNet,这是一个具有立体行为表示的统一流量识别框架。通过整合三级特征——数据包级、会话级和信道级——该框架有效解决了现有模型在性能、鲁棒性和泛化能力方面的不足。主要创新包括:针对会话长度变化的差异化处理策略;从数据包字节序列中挖掘字节间相关性
CRediT作者贡献声明
Jian Qin:撰写——原始草稿、可视化、验证、软件、资源、方法论、调查、形式分析、数据管理。Xueying Han:撰写——审阅与编辑、监督、概念化。Yunpeng Li:撰写——审阅与编辑、监督、方法论、概念化。Ding Wang:验证、调查、数据管理。Susu Cui:撰写——审阅与编辑、监督、概念化。Bo Jiang:撰写——审阅与编辑、监督。Zhigang Lu:撰写——
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
Jian Qin于2022年获得北京交通大学信息安全学士学位。他目前在中国科学院信息工程研究所攻读网络空间安全博士学位。他的研究兴趣包括深度学习和网络态势感知。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号