《Computer Networks》:APTREC: APT Tactic/Technique Recognition Based on Large Language Model
编辑推荐:
APT战术识别框架基于大语言模型,通过构建对齐MITRE ATT&CK框架的战术子图数据集和两阶段推理架构,提升威胁识别精度(F1+13%)与可解释性,解决传统方法规则依赖性强、模型泛化能力差的问题。
杨龙静|叶爱勇|刘元煌|卢文婷|黄创
福建师范大学计算机与网络安全学院,福州,350000,中国
摘要
高级持续性威胁(APT)的快速演变对网络安全构成了严重挑战。与大多数当前专注于检测单一攻击事件的研究不同,理解攻击者在组织内部实施APT活动时使用的战术和技术(例如MITRE ATT&CK框架)对于提高安全操作至关重要。在现有的APT战术/技术映射方法中,基于规则的方法严重依赖专家知识,导致战术分类粒度粗泛且规则具有很强的主观性,难以有效识别细粒度技术;另一方面,传统的机器学习方法由于上下文表示能力有限,导致识别率低且可解释性不足。为了解决上述问题,我们提出了APTREC,这是首次尝试利用大型语言模型(LLM)从子图中识别APT战术/技术的方法。为了解决数据稀疏问题,APTREC构建了一个与MITRE ATT&CK框架对齐的战术对齐子图数据集。为了提高精度,APTREC采用了两阶段推理架构。技术识别模块解析攻击上下文的语义特征,而战术推理模块过滤最优战术。实验结果表明,与现有的代表性方法相比,APTREC在APT战术识别方面实现了13%的F1分数提升和9%的召回率增加,并且还提供了强大的可解释性。
引言
高级持续性威胁(APT)攻击已成为最复杂的网络安全挑战之一,通常由资源丰富的国家行为体或有组织的网络犯罪集团发起,旨在窃取敏感数据、破坏关键基础设施或实现战略目标。APT攻击的特点是隐蔽性、针对性和持久性,它们通过多阶段渗透、社会工程学和零日漏洞维持长期网络访问——往往在数月或数年内未被发现——同时逐步提升权限并提取有价值的信息。
有效的APT检测不仅需要识别异常行为模式,更重要的是,还需要精确地归因于战术、技术和程序(TTP)[1]。这种TTP级别的归因分析是威胁狩猎的关键基础,有助于安全团队进行系统调查和相关性分析。尽管MITRE ATT&CK框架为网络攻击行为提供了标准化的知识库[2],但由于网络安全从业者之间的专业知识和分析方法存在差异,仍存在不一致性。不同的组织、研究机构和政府机构往往根据独立分析为同一APT团体或活动分配不同的标签或名称。这种缺乏标准化命名法的现象阻碍了威胁情报的整合和相关性分析,最终延迟了事件响应工作。因此,迫切需要建立一个基于框架的统一分类法,以系统地增强对APT威胁的理解、分析和缓解。
现有的战术映射方法主要分为两类:(1)基于规则的方法,如AptShield [3],利用ATT&CK框架构建规则引擎,通过标签传播和聚合实现战术识别。虽然在这些特定场景中有效,但这些方法存在固有的局限性:规则设计严重依赖专家知识,引入了可能导致战略偏见的主体性模糊性。此外,APT攻击的动态演变需要不断更新规则,导致泛化能力较差。(2)基于机器学习的方法,如TREC [4],依靠数据特征进行自学,这减少了人工干预,但也面临局限性:APT样本的稀缺导致训练数据不足,传统模型难以完全捕捉复杂的攻击特征且缺乏可解释性。
随着由LLM驱动的识别智能的突破,开发自动化和智能的网络安全工具变得可行,从而增强了应对复杂网络威胁的能力。目前,多项研究发现展示了LLM在网络威胁分析中的实际应用。例如,LLM可以从与网络安全相关的文本信息中提取有效的威胁情报[5],并自动将非结构化日志映射到结构化的攻击链[6]。此外,当与网络安全知识图结合使用时,LLM可以生成具有战术意图推断能力的威胁情报[7]。Moskal等人[8]探索了ChatGPT在协助或自动化威胁行为响应决策方面的潜力。SHIELD [9]可以从实时日志流中检测APT攻击,并根据系统来源图和LLM上下文分析生成可解释的警报,而本文提出的APTREC框架则专注于在战术和技术层面细粒度地映射已识别的恶意行为,强调标准化和结构化的攻击归因分析。尽管取得了这些进展,但在APT战术/技术识别中应用LLM仍面临以下关键挑战:
•挑战1:缺乏可靠且语义丰富的战术子图数据集。APT攻击具有低频率、高隐蔽性和复杂的多阶段渗透等特点[10]、[11]、[12],导致可收集样本的规模有限。现有的公开数据集通常无法充分覆盖APT攻击实例[13],并且不提供APT战术/技术标签。相反,它们只提供图级二进制标签(例如StreamSpot [14])或节点级二进制标签(例如DARPA TC [15]、ATLAS [16]),以指示源图或系统实体是否恶意,这使得支持针对APT战术/技术识别模型的训练和评估需求变得困难。因此,LLM在训练阶段难以接触到多样化的攻击场景和演变模式,从而削弱了它们泛化和分析新攻击技术和战术意图的能力。构建具有多维特征覆盖的高质量数据集至关重要,以确保LLM能够充分学习新兴的攻击模式和APT的演变规律,从而增强其对复杂APT攻击战术/技术的归因能力。
•挑战2:LLM的幻觉。它们的训练数据通常缺乏深入的网络安全知识,影响其对安全相关问题(例如本工作中的APT战术/技术识别)的响应准确性。我们的经验表明,当LLM(如GPT-4)被提示直接从战术攻击图中提取相应战术/技术时,经常返回错误的类别。精确区分战术和技术取决于领域知识的深度整合和明确的决策边界。领域知识注入不足或决策边界模糊会导致特征漂移[17]。有效的提示需要在保持明确意图的同时,深度整合领域知识以构建结构化上下文[18]、[19]。
为了解决上述挑战并充分利用大型语言模型的强大能力,本文提出了APTREC,这是一个高精度且可解释的APT战术子图识别框架,旨在为APT攻击提供统一的映射方案。为了解决挑战1,我们利用LLM丰富的先验知识和语义分析能力从技术脚本中提取关键信息,并通过虚拟化攻击路径推导构建具有战术/技术映射关系的战术子图数据库,从而克服实际攻击场景中数据稀缺的局限性。为了解决挑战2,通过对开源LLM进行微调以适应特定领域,并增强了其领域特定知识的理解能力,并设计了基于LLM的两阶段推理架构,依靠技术识别和战术类别的层次决策机制来实现准确的威胁判断。总之,本研究的主要贡献如下:
•本文提出了一种基于大型语言模型的APT战术/技术识别方法,旨在将恶意子图映射到MITRE ATT&CK框架,实现与攻击模式的关联,并提供可解释的TTP归因分析。
•我们基于Atomic Red Team技术脚本构建了一个结构化的提示模板,使用LLM生成与MITRE ATT&CK框架严格对齐的APT战术子图数据集,解决了数据集稀缺的问题。
•我们设计了基于LLM的双阶段推理架构,通过层次决策机制实现技术识别和战术分类的精确威胁判定。
•我们进行了广泛的实验。实验结果表明,APTREC优于现有的APT战术/技术识别方法,生成的数据集具有语义多样性和类别完整性,可以支持APT检测领域的研究和应用。
本文的结构如下:第2节介绍了研究中涉及的基本知识;第3节回顾了与本文相关的研究工作;第4节阐述了本研究的主要动机和问题意识;第5节详细介绍了研究方法和技术路线;第6节详细介绍了实验设计和实施过程;第7节总结了全文的研究结果,并展望了未来的研究方向。
部分摘录
初步
在本研究中,我们根据MITRE ATT&CK框架将APT子图映射到相应的攻击战术。为了后续讨论,以下是对MITRE ATT&CK框架中基本术语的解释,因为不同作者对这些术语的定义可能有所不同。
攻击战术:攻击战术代表攻击者在执行攻击过程中的高级目标或意图。它表示攻击者旨在实现的具体目标。每个战术对应于一个特定的
相关工作
本节回顾了关于APT攻击检测的先前研究,强调了将攻击行为映射到战术/技术的重要性。然后我们分析了现有映射方法的局限性,并将其与我们的方法进行对比,以展示我们研究的新颖性。
APT攻击检测。现有的APT攻击检测方法大致分为基于节点级别和图级别的检测。
动机
图3展示了一个典型的多阶段APT攻击案例。在APT防御领域,战术级别技术识别的准确性决定了防御系统的有效性。然而,当前安全实践中普遍存在的战术误分类和威胁情报异质性问题实质上暴露了传统防御机制的不足。
从战术误分类的角度来看,T1543(创建或
概述
在本节中,我们提出了基于LLM的APT战术/技术识别方法APTREC。APTREC包括三个阶段,如图5所示:战术子图构建、模型微调和两阶段推理识别。首先,我们根据Atomic Red Team技术脚本的特征设计提示构建,旨在指导LLM生成与MITRE ATT&CK战术技术矩阵一致的战术子图。然后对微调后的LLM进行
评估
在本节中,我们通过解决以下研究问题来评估APTREC:
•RQ1:APTREC生成的战术子图数据集的质量如何?
•RQ2:当使用不同的LLM作为基础模型时,APTREC的表现如何?
•RQ3:APTREC与基于规则和传统基于模型的方法在性能上相比如何?
•RQ4:提示构建和模型微调是否会影响APTREC的性能?
•RQ5:APTREC的泛化能力如何?
结论
在本文中,我们提出了一种基于大型语言模型的APT战术/技术识别方法。通过将LLM中固有的丰富知识库与其深度语义解析能力相结合,并结合Atomic Red Team攻击技术脚本,我们构建了一个具有高语义密度的战术子图数据集,构成了本研究的实验基础。基于此基础,我们为不同的功能设计了层次结构化的提示模板
局限性和未来工作
尽管与现有方法相比,这种方法取得了显著改进,但实验分析仍揭示了一些需要进一步优化的局限性。
在推理架构方面,系统的自我纠正能力存在局限性。为了评估第二阶段纠正实质性幻觉的有效性,我们对触发“跨类别重新分类”机制的样本进行了手动审查。结果显示,在
杨龙静:撰写——原始草稿。叶爱勇:撰写——审阅与编辑,概念化。刘元煌:方法论。卢文婷:可视化。黄创:监督。
作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。