寻找：一种针对模型劫持攻击的简单防御方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：SEEK: A Simple Defense to Model Hijacking Attack

【字体：大中小】 时间：2026年03月15日 来源：Neural Networks 6.3

编辑推荐：

　　模型劫持攻击的主动防御机制研究提出SEEK算法，通过精准识别并移除恶意提示词结合预训练填空模型实现语义修复，有效降低攻击成功率75%同时保持原任务性能。

作者：Yi Zhong, Zhenzhu Chen, Rui Zhang, Lei Zhou, Anmin Fu

西南财经大学计算机与人工智能学院，中国成都 611130

摘要

模型劫持攻击是一种针对自然语言处理系统的新兴训练时威胁。它们破坏了模型的训练过程，使得被劫持的模型能够在执行攻击者指定的任务的同时，仍然保持与其未受影响版本相当的性能，从而实现寄生计算。这种在执行恶意任务的同时仍能保持合法性能的能力，使得模型劫持能够严重威胁公共安全，并规避传统的防御机制。鉴于这些威胁的严重性以及目前缺乏专门的应对措施，本文提出了一种简单而有效的算法SEEK，用于防御模型劫持攻击。通过主动防御机制，SEEK能够精确识别并消除被劫持模型输出中的攻击者嵌入的提示词，这些提示词被用来指示劫持任务的结果，从而通过破坏攻击者的推理过程来中和攻击。然而，由于直接删除提示词可能导致语义退化，SEEK结合了一个预训练的填充掩码模型，用上下文合适的同义词替换被删除的术语。因此，这种精确删除和语义恢复的两阶段过程协同工作，提供了强大的安全性，同时保持了功能的完整性。实验结果表明，SEEK将攻击成功率降低了多达75%，同时在各种模型架构上保持了原有的任务性能，相比ONION和RAP等传统方法，其防御效果提高了三倍。

引言

近年来，像GPT-4、Gemini和DeepSeek这样的大型语言模型（LLMs）在自然语言处理（NLP）领域取得了突破性进展（Kaddour, Harris, Mozes, Bradley, Raileanu, & McHardy, Zhao, Zhou, Li, Tang, Wang, Hou, Min, Zhang, Zhang, Dong等），并深入应用于金融（Lee等，2025年）、医疗保健（Hsu等，2024年）和法律（Cheong等，2024年）等多个领域。实际上，LLMs的多功能性任务处理能力源于大规模的训练语料库，高质量的数据集提供了丰富的语言模式和多样的上下文知识，使模型能够泛化到各种任务中。然而，地区性数据稀缺对LLMs的有效训练构成了重大挑战。为了解决这个问题，开发者经常采用包含未经验证的第三方数据集的训练策略。矛盾的是，虽然这种做法缓解了数据不足的问题，但可能会无意中加剧安全和隐私风险（Kurita, Michel, & Neubig, Li, Jiang, Li, Xia, 2022年；Saha, Subramanya, Pirsiavash, 2020年），包括有害输出、隐私泄露和潜在的模型滥用。

最近，提出了一种名为模型劫持攻击的新攻击方法（Si等，2023年），该攻击针对NLP模型。攻击者通过将精心伪装的污染样本偷偷注入模型的训练数据集中来劫持目标模型。一旦模型被成功劫持，被破坏的模型将继续执行其预定任务，同时被秘密利用来执行攻击者指定的操作，从而破坏其完整性。例如，在以机器翻译为主要任务的系统中，攻击者可以非法嵌入额外的目标，如情感分类或句子匹配等隐蔽的劫持任务。当一个良性模型被攻击者成功劫持后，模型所有者不仅在训练阶段浪费了大量计算资源，还面临重大的法律风险和道德谴责。例如，攻击者可以利用被劫持的模型：1）将其作为基于公共API的命令与控制（C&C）通道，使受感染的机器人能够解析攻击者从被破坏模型输出中发布的最新攻击命令；或者2）将其变成数据泄露通道，以看似合法的方式泄露从企业、军事机构或政府部门窃取的机密信息等。在这些情况下，被劫持模型的输出在表面上与原始任务的格式保持一致，从而高度隐藏了其恶意行为。因此，依赖行为异常检测的传统安全机制变得几乎无效。更严重的是，由于模型服务通常通过可信的公共API或开源平台部署，产生的网络流量与正常的业务通信无法区分，使其能够轻松绕过防火墙和风险监控系统等常见的防御措施。

关于NLP模型防御机制的研究（Chen, Salem, Chen, Backes, Ma, Shen, Wu, Zhang, 2021年；Formento, Foo, Tuan, Ng, 2023年；Pan, Zhang, Sheng, Zhu, Yang, 2022年；Zhang, Sheng, Alhazmi, Li, 2020年；Zhou, Yan, Han, Liu, Zhang, 2024年）仍然有限，现有的方法在对抗劫持攻击方面效果不佳。现有的在线防御算法主要集中在识别污染样本上（Zhao等，2024年）。虽然这些方法对传统的基于触发器的攻击（如后门攻击）显示出合理的有效性，但它们仍然容易受到更为隐蔽、无触发器且与良性输入保持表面语法和语义一致性的劫持攻击的攻击。主要原因在于，当前的防御策略仅能检测到输入中的恶意模式，无法应对那些看起来正常的输入的攻击。因此，主动防御对于应对此类隐蔽威胁至关重要。

在本文中，我们提出了一种针对NLP系统的主动在线防御算法，名为SEEK（Simple dEffense to modEl hijacKing）。具体来说，当SEEK部署在被劫持的模型上时，它将持续监控模型的输出，并通过识别和移除隐性的提示词——这些词汇模式允许攻击者推断劫持任务的结果——来破坏攻击者的推理过程，从而实现精确防御。我们进行了全面的实验来展示SEEK的有效性。实验结果表明，SEEK将攻击成功率降低了高达75.32%，同时保持了被劫持模型在执行所有者分配的原始任务时的性能。

本研究的主要贡献有三点：

•
我们提出了SEEK，这是一种新型的主动在线防御算法，对模型劫持攻击表现出卓越的防御效果。据我们所知，在SEEK提出之前，还没有专门针对模型劫持攻击的有效防御算法。
•
为了减轻移除输出中嵌入的提示词导致的语义退化，我们创新地将填充掩码模型集成到防御过程中。这种架构改进在执行安全干预时保持了语言的连贯性。
•
实验结果表明，SEEK算法实现了双重优化目标：显著降低攻击成功率，并几乎完全保持了被劫持模型在主要任务上的性能。此外，与大多数传统防御机制相比，SEEK显著减少了计算和时间开销。

模型劫持攻击

模型劫持是一种新的攻击范式，通过污染目标模型的训练数据集来实现隐蔽的模型控制。它的核心机制是实现寄生计算。为此，攻击者需要制作包含保留合法表面特征的同时嵌入语义级操纵线索的污染数据集。

SEEK

基于上述防御原理，我们提出了SEEK算法，如图2所示。SEEK通过两个顺序阶段运行：搜索阶段和优化阶段。以被劫持用于情感分类的中文-英文机器翻译模型为例，算法的工作原理如下。此外，为了便于说明，我们在表1中总结了相关符号。

实验

在实验评估中，我们将中文-英文机器翻译和情感分类分别作为目标模型的原始任务和假设的劫持任务。通过评估应用SEEK后被劫持模型的三个关键指标（防御成功率、模型效用和模型鲁棒性），全面评估了SEEK算法的性能。

结论

在本文中，我们提出了一种名为SEEK的新型在线防御算法，用于对抗模型劫持攻击。SEEK采用主动防御机制，首先通过对辅助数据集进行频率分析来识别攻击者指定的提示词，然后在推理过程中动态移除这些提示词，并使用填充掩码模型生成上下文感知的替换内容，从而在不影响模型主要任务性能的情况下中和劫持攻击。

CRediT作者贡献声明

Yi Zhong：撰写——原始草稿、软件、方法论。Zhenzhu Chen：撰写——原始草稿、数据整理、概念化。Rui Zhang：撰写——审阅与编辑、项目管理。Lei Zhou：撰写——审阅与编辑、数据整理。Anmin Fu：撰写——审阅与编辑、监督、资源协调。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

致谢

本工作得到了中国国家自然科学基金（62372236, 62302330, 62402397）、江苏省自然科学基金（BK20230727）、苏倩市科技计划（K202229）以及江苏省高等教育机构自然科学研究项目（23KJD520013）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究

相关工作