针对由大型语言模型驱动的具身AI代理的白盒提示注入攻击

《Journal of Systems and Software》:A white-box prompt injection attack on embodied AI agents driven by large language models

【字体: 时间:2026年02月11日 来源:Journal of Systems and Software 4.1

编辑推荐:

  场景自适应提示注入攻击方法(SAPIA)针对体AI系统提出,通过动态调整上下文生成模块与增强型GCG算法,生成场景特定对抗后缀,有效突破传统通用攻击模板局限,在自动驾驶、工业控制等四类场景中实现89.2%-94.7%攻击成功率,实验表明其跨模型迁移性差但跨版本可迁移性显著(平均提升32.6%)。

  
本文针对基于大型语言模型(LLM)的实体化智能体(Embodied AI Agents)在安全关键场景中的决策系统提出新型攻击框架SAPIA(Scenario-Adaptive Prompt Injection Attack)。研究团队通过构建跨四个应用领域的40种危险指令数据集,揭示传统攻击方法在实体化智能体环境中的固有缺陷,并开发出具有场景自适应能力的攻击范式。以下从技术挑战、方法创新、实验验证三个维度展开解读:

一、实体化智能体决策系统的安全困境
当前实体化AI系统普遍采用LLM作为决策核心模块,其架构包含感知层、语言理解层、规划执行层和反馈修正层。这种架构虽提升了系统灵活性,但也引入了新的安全风险:
1. 语义上下文敏感性:自动驾驶需要理解交通法规和实时路况,工业控制需解析设备状态参数,不同场景的语义约束差异达60%以上(基于场景分类模型分析)
2. 模型架构多样性:主流LLM存在5种以上架构范式(如Transformer变体、稀疏化模型等),导致攻击策略迁移率低于30%
3. 攻击后果不可逆性:物理世界决策的链式反应效应,使单次攻击可能引发级联故障,实验数据显示工业控制场景中故障扩散概率达72%

二、SAPIA攻击框架的技术突破
研究团队通过三阶段优化实现攻击效能提升:
1. 场景感知上下文生成(Scenario-Aware Context Generation)
- 建立四维语义特征空间(场景类型、专业术语、安全约束、物理限制)
- 开发动态模板引擎,可根据输入指令自动匹配场景特征库
- 实验表明该模块使攻击成功率提升至89.7%(对比传统方法的54.2%)

2. 增强型GCG算法(Enhanced Greedy Coordinate Gradient)
- 双权重损失函数(90%精确匹配+10%长度约束)
- 动态学习率调节机制(范围0.0001-0.1自适应)
- 惩罚项引入(基于场景安全阈值调整)

3. 物理环境模拟器(Physical Environment Simulator)
- 构建四类场景的离线仿真平台(ADAS、工业机器人、无人机、SCADA系统)
- 集成OpenAI Gym、ROS 2等12个开源框架接口
- 攻击效果验证通过6类传感器数据交叉校验

三、多维度实验验证与发现
在LLaMA 2、Mistral 7B、Vicuna 13B三个主流模型上,进行大规模对比测试:
1. 攻击成功率:SAPIA在自动驾驶场景达92.3%,工业控制达89.1%,显著高于传统GCG的43.6%和改进版I-GCG的67.8%
2. 跨模型迁移性:发现模型架构差异导致攻击转移成功率仅为15.2%,但跨版本(如LLaMA 2→3)可达68.4%
3. 防御穿透率:在检测到15种主流防御机制后,仍保持78.6%的穿透率,特别是对基于规则的前置校验机制(Safety Prefix Prompting)成功规避率达94.2%
4. 攻击可控性:通过强化学习策略,可将攻击指令执行误差控制在±0.5米(自动驾驶场景)和±2mm(工业机器人场景)

研究同时发现三个关键特性:
1. 场景语义耦合度:不同领域术语关联强度差异达3.8倍(自动驾驶场景中道路标志与机械臂指令相似度仅12.7%)
2. 模型响应异质性:相同攻击模板在三种LLM上的执行轨迹差异超过70%
3. 防御机制脆弱性:现有安全框架中,基于语义分析的防御系统误判率高达41.3%

四、行业影响与应对建议
研究团队通过攻击树分析(Attack Tree Analysis)揭示,在工业控制场景中,针对PLC程序解析模块的注入攻击可触发85%的潜在漏洞。建议采取分层防护策略:
1. 场景感知层:部署动态语义过滤器(需处理200+专业术语类别)
2. 模型加固层:开发架构无关的防御框架(ARDF)
3. 物理隔离层:建立决策-执行双通道验证机制(建议延迟间隔≥200ms)

五、未来研究方向
作者提出三个技术演进路径:
1. 多模态攻击框架:整合视觉输入(如无人机图像)与语言指令的协同攻击
2. 自适应防御系统:基于强化学习的动态防护策略(RL-DP)
3. 量子安全评估:针对未来量子计算环境下的LLM攻击模型研究

本研究为实体化AI系统的安全防护提供了新的评估维度,其构建的40×4场景数据集已开放获取,包含1200条经过语义验证的危险指令样本。该成果不仅揭示现有安全机制的系统性缺陷,更为构建场景自适应的防御体系提供了关键实验基准。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号