近年来,像GPT-4、Gemini和DeepSeek这样的大型语言模型(LLMs)在自然语言处理(NLP)领域取得了突破性进展(Kaddour, Harris, Mozes, Bradley, Raileanu, & McHardy, Zhao, Zhou, Li, Tang, Wang, Hou, Min, Zhang, Zhang, Dong等),并深入应用于金融(Lee等,2025年)、医疗保健(Hsu等,2024年)和法律(Cheong等,2024年)等多个领域。实际上,LLMs的多功能性任务处理能力源于大规模的训练语料库,高质量的数据集提供了丰富的语言模式和多样的上下文知识,使模型能够泛化到各种任务中。然而,地区性数据稀缺对LLMs的有效训练构成了重大挑战。为了解决这个问题,开发者经常采用包含未经验证的第三方数据集的训练策略。矛盾的是,虽然这种做法缓解了数据不足的问题,但可能会无意中加剧安全和隐私风险(Kurita, Michel, & Neubig, Li, Jiang, Li, Xia, 2022年;Saha, Subramanya, Pirsiavash, 2020年),包括有害输出、隐私泄露和潜在的模型滥用。
最近,提出了一种名为模型劫持攻击的新攻击方法(Si等,2023年),该攻击针对NLP模型。攻击者通过将精心伪装的污染样本偷偷注入模型的训练数据集中来劫持目标模型。一旦模型被成功劫持,被破坏的模型将继续执行其预定任务,同时被秘密利用来执行攻击者指定的操作,从而破坏其完整性。例如,在以机器翻译为主要任务的系统中,攻击者可以非法嵌入额外的目标,如情感分类或句子匹配等隐蔽的劫持任务。当一个良性模型被攻击者成功劫持后,模型所有者不仅在训练阶段浪费了大量计算资源,还面临重大的法律风险和道德谴责。例如,攻击者可以利用被劫持的模型:1)将其作为基于公共API的命令与控制(C&C)通道,使受感染的机器人能够解析攻击者从被破坏模型输出中发布的最新攻击命令;或者2)将其变成数据泄露通道,以看似合法的方式泄露从企业、军事机构或政府部门窃取的机密信息等。在这些情况下,被劫持模型的输出在表面上与原始任务的格式保持一致,从而高度隐藏了其恶意行为。因此,依赖行为异常检测的传统安全机制变得几乎无效。更严重的是,由于模型服务通常通过可信的公共API或开源平台部署,产生的网络流量与正常的业务通信无法区分,使其能够轻松绕过防火墙和风险监控系统等常见的防御措施。
关于NLP模型防御机制的研究(Chen, Salem, Chen, Backes, Ma, Shen, Wu, Zhang, 2021年;Formento, Foo, Tuan, Ng, 2023年;Pan, Zhang, Sheng, Zhu, Yang, 2022年;Zhang, Sheng, Alhazmi, Li, 2020年;Zhou, Yan, Han, Liu, Zhang, 2024年)仍然有限,现有的方法在对抗劫持攻击方面效果不佳。现有的在线防御算法主要集中在识别污染样本上(Zhao等,2024年)。虽然这些方法对传统的基于触发器的攻击(如后门攻击)显示出合理的有效性,但它们仍然容易受到更为隐蔽、无触发器且与良性输入保持表面语法和语义一致性的劫持攻击的攻击。主要原因在于,当前的防御策略仅能检测到输入中的恶意模式,无法应对那些看起来正常的输入的攻击。因此,主动防御对于应对此类隐蔽威胁至关重要。
在本文中,我们提出了一种针对NLP系统的主动在线防御算法,名为SEEK(Simple dEffense to modEl hijacKing)。具体来说,当SEEK部署在被劫持的模型上时,它将持续监控模型的输出,并通过识别和移除隐性的提示词——这些词汇模式允许攻击者推断劫持任务的结果——来破坏攻击者的推理过程,从而实现精确防御。我们进行了全面的实验来展示SEEK的有效性。实验结果表明,SEEK将攻击成功率降低了高达75.32%,同时保持了被劫持模型在执行所有者分配的原始任务时的性能。
本研究的主要贡献有三点:
- •
我们提出了SEEK,这是一种新型的主动在线防御算法,对模型劫持攻击表现出卓越的防御效果。据我们所知,在SEEK提出之前,还没有专门针对模型劫持攻击的有效防御算法。
- •
为了减轻移除输出中嵌入的提示词导致的语义退化,我们创新地将填充掩码模型集成到防御过程中。这种架构改进在执行安全干预时保持了语言的连贯性。
- •
实验结果表明,SEEK算法实现了双重优化目标:显著降低攻击成功率,并几乎完全保持了被劫持模型在主要任务上的性能。此外,与大多数传统防御机制相比,SEEK显著减少了计算和时间开销。