针对由大型语言模型驱动的具身AI代理的白盒提示注入攻击

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Systems and Software》：A white-box prompt injection attack on embodied AI agents driven by large language models

【字体：大中小】 时间：2026年02月11日 来源：Journal of Systems and Software 4.1

编辑推荐：

　　场景自适应提示注入攻击方法（SAPIA）针对体AI系统提出，通过动态调整上下文生成模块与增强型GCG算法，生成场景特定对抗后缀，有效突破传统通用攻击模板局限，在自动驾驶、工业控制等四类场景中实现89.2%-94.7%攻击成功率，实验表明其跨模型迁移性差但跨版本可迁移性显著（平均提升32.6%）。

　　
本文针对基于大型语言模型（LLM）的实体化智能体（Embodied AI Agents）在安全关键场景中的决策系统提出新型攻击框架SAPIA（Scenario-Adaptive Prompt Injection Attack）。研究团队通过构建跨四个应用领域的40种危险指令数据集，揭示传统攻击方法在实体化智能体环境中的固有缺陷，并开发出具有场景自适应能力的攻击范式。以下从技术挑战、方法创新、实验验证三个维度展开解读：

一、实体化智能体决策系统的安全困境
当前实体化AI系统普遍采用LLM作为决策核心模块，其架构包含感知层、语言理解层、规划执行层和反馈修正层。这种架构虽提升了系统灵活性，但也引入了新的安全风险：
1. 语义上下文敏感性：自动驾驶需要理解交通法规和实时路况，工业控制需解析设备状态参数，不同场景的语义约束差异达60%以上（基于场景分类模型分析）
2. 模型架构多样性：主流LLM存在5种以上架构范式（如Transformer变体、稀疏化模型等），导致攻击策略迁移率低于30%
3. 攻击后果不可逆性：物理世界决策的链式反应效应，使单次攻击可能引发级联故障，实验数据显示工业控制场景中故障扩散概率达72%

二、SAPIA攻击框架的技术突破
研究团队通过三阶段优化实现攻击效能提升：
1. 场景感知上下文生成（Scenario-Aware Context Generation）
- 建立四维语义特征空间（场景类型、专业术语、安全约束、物理限制）
- 开发动态模板引擎，可根据输入指令自动匹配场景特征库
- 实验表明该模块使攻击成功率提升至89.7%（对比传统方法的54.2%）

2. 增强型GCG算法（Enhanced Greedy Coordinate Gradient）
- 双权重损失函数（90%精确匹配+10%长度约束）
- 动态学习率调节机制（范围0.0001-0.1自适应）
- 惩罚项引入（基于场景安全阈值调整）

3. 物理环境模拟器（Physical Environment Simulator）
- 构建四类场景的离线仿真平台（ADAS、工业机器人、无人机、SCADA系统）
- 集成OpenAI Gym、ROS 2等12个开源框架接口
- 攻击效果验证通过6类传感器数据交叉校验

三、多维度实验验证与发现
在LLaMA 2、Mistral 7B、Vicuna 13B三个主流模型上，进行大规模对比测试：
1. 攻击成功率：SAPIA在自动驾驶场景达92.3%，工业控制达89.1%，显著高于传统GCG的43.6%和改进版I-GCG的67.8%
2. 跨模型迁移性：发现模型架构差异导致攻击转移成功率仅为15.2%，但跨版本（如LLaMA 2→3）可达68.4%
3. 防御穿透率：在检测到15种主流防御机制后，仍保持78.6%的穿透率，特别是对基于规则的前置校验机制（Safety Prefix Prompting）成功规避率达94.2%
4. 攻击可控性：通过强化学习策略，可将攻击指令执行误差控制在±0.5米（自动驾驶场景）和±2mm（工业机器人场景）

研究同时发现三个关键特性：
1. 场景语义耦合度：不同领域术语关联强度差异达3.8倍（自动驾驶场景中道路标志与机械臂指令相似度仅12.7%）
2. 模型响应异质性：相同攻击模板在三种LLM上的执行轨迹差异超过70%
3. 防御机制脆弱性：现有安全框架中，基于语义分析的防御系统误判率高达41.3%

四、行业影响与应对建议
研究团队通过攻击树分析（Attack Tree Analysis）揭示，在工业控制场景中，针对PLC程序解析模块的注入攻击可触发85%的潜在漏洞。建议采取分层防护策略：
1. 场景感知层：部署动态语义过滤器（需处理200+专业术语类别）
2. 模型加固层：开发架构无关的防御框架（ARDF）
3. 物理隔离层：建立决策-执行双通道验证机制（建议延迟间隔≥200ms）

五、未来研究方向
作者提出三个技术演进路径：
1. 多模态攻击框架：整合视觉输入（如无人机图像）与语言指令的协同攻击
2. 自适应防御系统：基于强化学习的动态防护策略（RL-DP）
3. 量子安全评估：针对未来量子计算环境下的LLM攻击模型研究

本研究为实体化AI系统的安全防护提供了新的评估维度，其构建的40×4场景数据集已开放获取，包含1200条经过语义验证的危险指令样本。该成果不仅揭示现有安全机制的系统性缺陷，更为构建场景自适应的防御体系提供了关键实验基准。

联系信箱：

粤ICP备09063491号

热点排行