《Neural Networks》:CoT Defender: Preemptive Chain-of-Thought Occupation for Jailbreak Attack Mitigation
编辑推荐:
对抗生成式语言模型(LLMs)的 jailbreak 攻击,提出 CoT Defender 方法通过预占初始生成令牌实现主动防御。两阶段训练框架结合监督微调与强化学习,开发轻量级评估器 PSOE 实现双重级评估(句子意图与令牌格式)。实验证明在四类模型上可将攻击成功率降至 8% 以下,同时仅损失 7% 的正常响应效率。
李晓康|刘金|唐永强|谢志文|王一赫|于晓|赵龙|黄波
中国湖北省武汉市武汉大学网络科学与工程学院,教育部航空航天信息安全与可信计算重点实验室
摘要
随着大型语言模型(LLMs)的发展,众多研究证明了它们容易受到精心设计的“越狱攻击”的影响。然而,现有的缓解措施很少能够在模型可用性和显著的保护效果之间取得平衡,这引发了人们对模型被滥用的担忧。为了解决这个问题,我们提出了CoT Defender。它通过一种思维链分析,预先占用模型生成的第一个几个令牌,从而阻止攻击者将输出导向有害内容。我们设计了一个两阶段训练框架,在增强安全性的同时保持模型的可用性。第一阶段对模型进行微调,使其在回答问题时遵循结构化的思维链格式;第二阶段利用强化学习来完善这种推理能力。一个辅助的攻击模型不断生成新的“越狱提示”,而一个轻量级的评估工具——概率结构化输出评估(PSOE)通过句子级别的意图捕捉和令牌级别的格式保真度来提供细粒度的奖励。我们在四个模型和六种攻击方法上进行了系列实验。在所有模型中,我们成功将平均攻击成功率降低到8.0%以下,对良性请求的响应率影响不超过7.0%。代码可在
此处获取。警告:本文包含可能具有攻击性的红队数据!
引言
大型语言模型(LLMs)在文本生成方面的最新成就,如ChatGPT(OpenAI,2023年)和LLAMA(Touvron等人,2023年),是前所未有的。然而,这种繁荣的背后隐藏着安全威胁,包括逐步指导暴力行为的教程、大规模的隐私泄露以及可能破坏在线生态系统的误导性信息(Weidinger等人,2021年)。最近的网络安全预测(Ali和Ghanem,2025年)进一步警告称,由LLMs生成的恶意指令可能成为下一代攻击手段,这突显了缓解此类风险的紧迫性。为了解决这一挑战,研究人员Bai等人(2022年)、Ouyang等人(2022年)和Rafailov等人(2023年)开发了多种对齐算法,使模型能够最初拒绝生成有害内容。然而,最近的研究表明,这些对齐能力可能会通过精心设计的“越狱攻击”(Wei等人,2023年)而被破坏,这表明仅依赖对齐算法不足以防范恶意内容。
一些现有的防御策略在提高模型安全性方面效果有限(Xu等人,2024b)。尽管某些方法可以显著提高模型对恶意内容的抵抗能力,但它们往往以降低可用性和响应速度为代价(Zhao等人,2025年)。此外,一些基于检测的防御措施仅适用于少数特定类型的攻击,但在面对多样化和复杂的攻击场景时难以保持有效性。这一局限性在更广泛的安全领域也有体现,例如在云计算中,主动防御机制已被证明在应对多租户漏洞方面优于被动方法(Hashim和Hussein,2024年)。为了弥合这一差距,我们提出了CoT Defender——一种从检测转向预先占用模型输出的方法,符合这种主动安全原则。
CoT Defender的灵感来源于白盒越狱攻击的优化目标,这些攻击旨在操纵模型输出的初始N个令牌。这些攻击通过修改模型响应序列的早期部分来利用特定漏洞。例如,如附录C中详细说明的,攻击者可以优化一个对抗性后缀,迫使模型以特定的有害短语开始响应(例如,同意提供危险指令)。一旦模型输出了这些初始目标内容,其自回归特性使其很可能继续生成更多有害信息。CoT Defender通过在攻击者之前预先占用模型的初始输出令牌来应对这一点,同时保持性能和用户体验。现有研究(Feng等人,2023年;Wei等人,2022年)表明,结合“思维链”范式通常不会影响模型的可用性,并显示出强大的泛化能力。利用这一见解,CoT Defender旨在用思维链格式预先占用模型的初始输出令牌。这种方法指导模型对传入请求的判断,确保响应保持理性和适当。这种方法带来了一个主要挑战:如何确保模型分析过程的合理性。
为了解决这一挑战,我们提出了一个两阶段训练框架。第一阶段使用结构化数据进行监督微调(SFT),其中“CoT”组件是通过人类引导的推理过程构建的。这种设置鼓励模型在生成最终响应之前更彻底地分析请求。第二阶段利用强化学习(RL)来完善模型的输出。我们使用概率结构化输出评估(PSOE)来评估响应,这是一个在句子和令牌级别上操作的轻量级评分器。对于句子级别的评估,PSOE使用TF-IDF分析来评估推理阶段的意图一致性。在令牌级别,PSOE评估第一阶段中预定义的“锚定令牌”的概率,并根据这些令牌的可能性提供奖励分数。这种双级评分机制增强了模型的分析能力,使其在面对复杂输入时能够做出更明智的决策。
本工作的贡献可以总结如下:1)我们提出了在最终响应之前强制执行CoT输出的概念,提高了模型的安全性;2)我们提出了PSOE,一种高效的结构化输出质量评估方法,并在此基础上构建了一个两阶段训练架构,最大限度地提高了模型的抗攻击能力,同时最小化了对其原始性能的影响;3)我们通过一系列实验对所提出方法的有效性进行了实证验证。
相关研究
在现实世界应用中部署大型语言模型(LLMs)需要在对齐(确保模型遵守安全和伦理准则)和可用性(保持响应性、帮助性和表达力)之间取得微妙的平衡。随着对抗性策略的日益复杂,纯粹被动的防御措施往往要么过度阻止良性交互,要么无法泛化到已知的攻击模式之外。这种紧张关系促使人们转向主动防御。
初步介绍
在本节中,我们介绍了自回归语言模型中“被劫持令牌”的定义,并讨论了思维链技术。
CoT Defender
本节描述了CoT Defender的核心概念及其实现方式。
实验
在本节中,我们评估了CoT Defender的有效性。我们在四个模型上使用了六种攻击方法和五个基线进行了评估。此外,我们还评估了CoT Defender对实用性的影响,并对该方法进行了消融分析。
结论与未来工作
在这项研究中,我们提出了CoT Defender,该方法通过预先占用模型的初始输出令牌和结构化的思维链推理来防止有害内容的直接生成。我们进行了全面的实验,以验证CoT Defender在提高LLMs对各种攻击方法的安全性和鲁棒性方面的有效性。实验结果表明,仅仅保留模型的前N个令牌作为输出就可以提高其安全性。
局限性
虽然我们的研究证明了CoT Defender在提高LLMs的安全性和鲁棒性方面的有效性,但仍有一些局限性需要考虑:
测试范围有限:由于资源限制,我们的实验仅在有限的模型集上进行。虽然这些模型涵盖了不同的规模和架构,但它们可能无法完全代表所有LLMs的多样性。我们针对六种特定的攻击方法测试了CoT Defender。尽管这些方法具有代表性,
伦理考虑
本文的主要目标是利用思维链来预先占用大型LLMs的初始输出,从而提高其安全性。我们展示了这种方法在防范“越狱攻击”方面的有效性。需要注意的是,这项研究尚未考虑未来可能针对思维链的特定攻击。我们已经发布了本文的代码以及部署的CoT Defender的模型参数。
利益冲突声明
李晓康报告称,他得到了教育部计算能力网络与信息安全重点实验室(山东科技大学,山东科学院)的财政支持。刘金报告称,他也得到了教育部计算能力网络与信息安全重点实验室(山东科技大学,山东科学院)的财政支持。如果还有其他作者,他们声明没有已知的利益冲突。
致谢
本项工作得到了教育部计算能力网络与信息安全重点实验室(山东科技大学,山东科学院)的资助,以及基于中文语料库的大型语言模型提示攻击与防御技术研究项目(项目编号2023ZD025)的资助。