FSWF-APMA:利用自动编码器和原型匹配对齐技术进行少样本网站指纹识别

《Pattern Recognition Letters》:FSWF-APMA: Few-Shot Website Fingerprinting with Autoencoder and Prototype Matching Alignment

【字体: 时间:2026年05月11日 来源:Pattern Recognition Letters 3.3

编辑推荐:

  王玉飞|张伟珍|刘强|姚欣|李佳文国防科技大学计算机科学与技术学院,中国湖南省长沙市德雅街109号,410000摘要网站指纹识别(WF)是一种主要威胁,它通过从加密流量追踪中识别用户访问的网站来破坏加密通信的匿名性。传统的WF方法,尤其是基于深度学习的方法,需要大量的带注释的训练

  
王玉飞|张伟珍|刘强|姚欣|李佳文
国防科技大学计算机科学与技术学院,中国湖南省长沙市德雅街109号,410000

摘要

网站指纹识别(WF)是一种主要威胁,它通过从加密流量追踪中识别用户访问的网站来破坏加密通信的匿名性。传统的WF方法,尤其是基于深度学习的方法,需要大量的带注释的训练数据,这在现实中是不切实际的,因为从目标域名网站收集足够的标记数据非常困难。因此,基于少量目标流量追踪来推断访问网站的非样本WF(FSWF)技术应运而生。然而,现有的FSWF方法在新任务场景中的性能仍然较弱。因此,我们提出了一种结合自动编码器和原型匹配对齐的少样本网站指纹识别方法,称为FSWF-APMA。具体来说,FSWF-APMA引入了自动编码器机制来提取潜在特征表示和行为模式,从而提高了其在面对新任务时的适应性。此外,它还设计了一种通过原型匹配进行模型调优的机制以及通过参数对齐进行任务适应性偏差微调的机制,以进一步克服模型过拟合和由噪声引起的性能偏差。在三个基准数据集上的比较结果表明,所提出的FSWF-APMA方法在封闭世界和开放世界场景中的性能均显著优于TF和MBL方法。

引言

随着在线隐私保护的日益受到关注,像洋葱路由器(Tor)这样的匿名通信系统已被广泛认为是提供强网络流量加密和用户身份匿名的强大平台[1], [2], [3]。Tor通过多跳代理和嵌套加密实现了强大的隐私保护通信。尽管Tor具有强大的匿名特性,但它仍然容易受到网站指纹识别(WF)攻击者的攻击,这些攻击者通过分析用户与Tor入口节点之间的通信来推断具体的网站访问信息[4]。
传统的网站指纹识别(WF)方法最初依赖于手工制作的特征,训练经典的机器学习分类器,如k-最近邻(k-NN)[5]、支持向量机(SVM)[6]和随机森林(RF)[7],这些分类器基于手动提取的流量特征。最近,基于深度学习的方法出现了,使用神经网络自动提取特征以实现端到端分类[8]。例如AFW[9]和DF[10]仅使用数据包方向序列就实现了高准确率,在封闭世界场景中DF的准确率达到了98%。后续的工作还结合了额外的输入,如时间戳,以进一步提高模型性能[11]。深度学习方法通常优于传统方法,并消除了手动特征工程的需求。然而,它们需要大量的标记训练数据,并且容易受到概念漂移的影响,即随着浏览器更新等因素的影响,模型性能会下降。
为了解决传统方法对大量标记数据的依赖[12], [13],研究人员提出了各种少样本学习(FSL)[14], [15]方法来应对WF问题。基础方法包括度量学习,例如三元组指纹识别(TF)[16],该方法使用三元组损失创建一个判别性嵌入空间。其他策略涉及迁移学习,通过在目标域上微调预训练模型[17],以及元学习,例如MBL方法,该方法可以纠正基类偏差[18]。现有的方法主要关注流量方向,而忽略了其他潜在特征。因此,王等人提出了WF3A框架,该框架结合了数据包长度属性来构建更强大的表示并提高攻击效果[19]。然而,FSL中的一个关键挑战是由于不同领域而导致特征分布的变化。为了缓解这一问题,罗等人提出了DCWF[20],该方法使用源数据重建目标领域的分布,生成合成样本以适应模型,并使用类似的数据增强方法进行模型训练。虽然现有的FSWF方法在一定程度上缓解了标记训练数据稀缺的问题,但它们仍然存在某些限制。例如,少样本模型的泛化能力通常不尽如人意,且它们的性能可能会受到训练过程中来自不同任务的噪声的负面影响。
因此,我们提出了一种使用自动编码器和原型匹配对齐的少样本网站指纹识别方法(FSWF-APMA)。该方法包括两个阶段。首先,在未标记数据上预训练自动编码器,以学习强大的特征表示,从而提高泛化能力和加速收敛速度。其次,使用原型匹配对齐和任务适应性参数调优来优化元学习框架,以提高在少样本任务上的识别能力。虽然自动编码器已被用于WF中的降维[9]和数据受限场景[21],但FSWF-APMA通过引入分层对称监督策略来确保层间的语义对齐,这对于捕捉Tor流量中的细粒度行为模式至关重要。
我们的主要贡献如下:
  • 1.
    我们将自动编码器引入FSWF,提高了少样本模型的泛化和鲁棒性。自动编码器机制从大量未标记样本中自我学习,提取潜在特征表示和行为模式,使模型在面对新任务时能够更快地适应。
  • 2.
    我们设计了一种基于原型匹配对齐的少样本指纹识别模型调优机制。该机制通过原型匹配纠正分类器训练过程,减轻了少样本任务中的模型过拟合问题,并进一步提高了Tor网站指纹识别能力。
  • 3.
    我们设计了一种任务适应性偏差参数微调机制,以减轻模型训练过程中来自不同任务的噪声引起的性能偏差。该机制使用支持集样本的质心向量作为输入到参数生成器中,该生成器在元训练过程中产生特定于任务的适应性偏差参数。
  • 章节摘录

    FSWF-APMA概述

    在FSWF-APMA中,我们将网站指纹识别任务定义为C路K样本Q查询的 episodic 问题。具体来说,每个任务(episode)包括一个支持集S和一个查询集Q。支持集包含C个监控网站类别中的每个类别的K个标记流量追踪,为模型适应提供了参考模式。查询集Q包含每个类别的Q个未标记追踪,用于评估模型的适应性能并计算参数更新的元损失。
    图1

    实验设置

    我们使用了三个标准的Tor网站指纹识别数据集,包括AFW、DF-95和DS-19。特征提取器在AFW900数据集的一个子集上进行了预训练。对于元训练和评估,我们使用了AFW200,将其类别分为训练集(128)、验证集(36)和测试集(36)。根据2.1节中的任务表述,少样本任务被配置为30路、N样本、Q查询,其中N∈{1, 5, 10, 15, 20}。每个任务都是通过随机抽样类别和追踪来构建的。

    结论

    我们提出了FSWF-APMA方法,该方法利用基于自动编码器的结构作为特征提取器,在预训练阶段自主学习内在数据特征和行为模式。随后,它采用了元学习范式,结合原型匹配对齐和任务适应性参数优化。实验结果表明,FSWF-APMA的性能优于大多数基线方法。

    CRediT作者贡献声明

    王玉飞:写作 – 审稿与编辑,写作 – 原始草稿,可视化,验证,软件,方法论,数据策划,概念化。张伟珍:写作 – 审稿与编辑,可视化,软件,概念化。刘强:写作 – 审稿与编辑,写作 – 原始草稿,监督,项目管理,资金获取,概念化。姚欣:写作 – 审稿与编辑,可视化,验证,数据策划。李佳文:写作 –

    利益冲突声明

    作者声明以下可能的财务利益/个人关系,这些可能被视为潜在的利益冲突:
    刘强报告称得到了国家关键研发计划的财政支持。如果有其他作者,他们声明没有已知的财务利益或个人关系可能影响本文所报告的工作。

    资助

    该工作得到了脑科学与类脑智能技术国家重点科技项目(编号2022ZD0209100)的支持
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号