随着计算机和网络的迅速普及,恶意软件的数量和种类不断增加。每天都有新的零日恶意软件对用户的财产、个人信息和设备安全构成严重威胁。根据AV-TEST的最新数据(2023年),仅2023年就记录了104,857,417个新的恶意软件样本,每周的数量达到了数百万。因此,及时检测恶意软件及其新变种对于维护系统和网络安全至关重要(Tizio, Armellini, & Massacci, 2023)。
研究人员提出了各种静态和动态分析方法(Singh & Singh, 2021)来检测呈指数级增长的恶意软件。静态分析不需要执行恶意软件,它涉及研究源代码或二进制文件(Molloy et al., 2025),以提取字符串、函数调用和API调用等静态特征进行分析。这样可以避免运行恶意软件时感染终端的风险,并且消耗更少的资源。然而,恶意软件开发者采用了各种混淆技术,如代码加密、程序指令重排序和死代码插入(Sibi Chakkaravarthy, Sangeetha, & Vaidehi, 2019; Ling et al., 2023; Muthalagu, Malik, & Pawar, 2025),这些技术要求静态分析方法花费更多时间解析可执行文件结构,从而降低了分析的效率和准确性。此外,静态分析通常依赖于已知的特征或签名,这限制了其对未知或新型恶意软件的有效性。为了克服这些限制,动态分析涉及将可执行程序加载到主内存中以监控其实际运行时行为。通过分析它们的行为,可以检测到零日恶意软件(Elhadi, Maarof, Barry, & Hamza, 2014; Koppanati, Santra, & Peddoju, 2025)。
另一方面,动态分析在可执行程序执行期间监控注册表键变化、URL访问和API调用等行为,并分析它们的行为模式。先前的研究表明,恶意软件家族往往表现出相同或高度相似的行为(Chen et al., 2022a)。例如,像Zeus这样的木马经常调用InternetOpen和HttpSendRequest等API与远程服务器通信,并使用RegCreateKeyEx和RegSetValueEx修改注册表以实现持久性。相比之下,像WannaCry这样的勒索软件通常调用CreateFile和WriteFile等API来加密文件,并通过套接字与命令和控制服务器建立通信以传输勒索要求。
因此,分析和研究运行时API调用序列以揭示可执行行为模式已成为动态恶意软件识别和检测领域的研究重点。Zhang et al.(2020b)使用Gated-CNNs转换API及其参数,并构建了一个基于LSTM网络模型的分类系统。在Zhang et al.(2020b)的方法基础上,Li et al.(2022b)应用嵌入层和卷积层来提取API序列及其内在特征。然后,他们进一步利用Bi-LSTM模块来探索多维特征之间的关系信息。Chen et al.(2022a)利用聚类根据API参数对API进行标记,并使用TextCNN来探索API调用序列的上下文关联。Li et al.(2022a)构建了API调用图,并应用图神经网络(GNNs)根据API调用序列和参数的分析对恶意软件进行分类。Cui et al.(2023)设计了时间过程图(TPGs)和时间API图(TAGs)来模拟基于API和进程间调用关系的进程间和进程内行为。随后,他们基于行为图构建了一个分类系统。因此,通过分析API调用序列来提取行为模式的方法已被证明在检测和分类恶意软件方面是有效的(Zhang et al., 2020b; Li et al., 2022b; Chen et al., 2022a; Li et al., 2022a; Cui et al., 2023)。然而,许多现有方法依赖于API调用过程中的参数信息来构建检测和分类系统,从而导致了几个问题:(1)过度依赖先验知识;(2)模型参数量庞大;(3)计算复杂性高;(4)由于忽略了API调用在上下文中的动态顺序,无法完全捕捉复杂的语义。
动机。为了解决现有研究中API序列语义挖掘不足的问题以及API调用参数的高复杂性问题,这些问题使得恶意软件识别和检测在实践中难以实施,本文提出了一种基于预训练模型和增强型语义API序列特征的恶意软件检测和分类方案。该方案通过门控机制动态调整API序列的语义和全局维度之间的特征权重,旨在深入挖掘多维特征,从而提高检测可执行程序中恶意行为的效率。
目前,基于Transformer的大型预训练语言模型(PLMs),如BERT(Devlin, Chang, Lee, & Toutanova, 2019)、RoBERTa(Liu et al., 2019)等,在关系分类(Paolini et al., 2021)和情感分析(Yan, Dai, Ji, Qiu, & Zhang, 2021)等自然语言处理任务中,以及在计算机视觉(Bao, Dong, Piao, & Wei, 2022)等领域表现出良好的性能。Transformer的多头自注意力机制允许每个词关注所有前面的词或除了目标词之外的每个词,使模型能够高效地捕获长距离依赖关系,而无需LSTM中的昂贵循环计算(Min et al., 2023)。由于API调用中的潜在特征也描述了序列逻辑关系中的行为或事件,Xu et al.(2021)和Demirk?ran et al.(2022)等人已成功将BERT模型应用于恶意软件检测和分类任务,从API序列中提取语义特征。尽管基于Transformer的模型可以同时考虑输入序列中每个位置的上下文信息,但上述研究仍存在一些局限性:(1)它们仅对预训练模型进行简单微调,而没有深入探索不同恶意软件API调用序列的结构信息,这可能限制了方法的泛化能力;(2)它们使用预训练模型中的自然语言词汇来分割API名称,可能导致关键API名称的意外分割(例如,“NtCreateFile”被分割为["Nt", "Create", "File"]),从而损害API调用信息的完整性并影响模型性能。
贡献。为了减轻直接将PLMs应用于恶意软件检测领域时导致的API序列碎片化问题,本文构建了一个API调用字典,并首次使用RoBERTa模型来整体处理API序列,捕获整个可执行文件的动态行为。此外,为了弥补未利用API调用参数导致的信息损失,本文结合API序列的全局信息采用了门控机制来构建增强型语义API序列特征,从而提高了该方案在恶意软件检测和分类方面的能力。
- •
我们提出了一种利用RoBERTa模型从API调用序列中提取语义信息的方法,从而增强了模型捕捉API调用之间潜在关系的能力。
- •
我们提出了一种门控机制,动态调整可执行程序API序列中全局特征和上下文语义信息的相对权重,从而构建了能够提高对不同恶意软件样本检测敏感性的增强型语义表示。
- •
通过跨多个数据集和检测场景的全面评估,结果表明,所提出的语义建模和特征调节机制能够有效适应不同的数据分布,表现出强大的可转移性和泛化潜力,因此适用于跨场景恶意软件检测。
在本文的其余部分,我们按以下方式组织内容。我们在第2节回顾相关工作,为研究现状提供背景。第3节讨论了我们的核心贡献,并详细介绍了我们提出的方案。第4.1节评估了其性能,并讨论了该领域的局限性和未来方向。最后,在第6节中得出结论。