HPA：通过对抗性交互来操控深度强化学习

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Systems Architecture》：HPA: Manipulating deep reinforcement learning via adversarial interaction

【字体：大中小】 时间：2026年02月11日 来源：Journal of Systems Architecture 4.1

编辑推荐：

　　针对物联网智能社会中AI驱动的多智能体强化学习系统，提出无需修改内部组件的蜜罐策略攻击（HPA），通过诱导攻击者主动牺牲部分奖励来操纵受害者策略，验证其在三个代表性零和博弈中的有效性，揭示DRL系统新漏洞。

Kanghua Mo|Zhengxin Zhang|Yuanzhi Zhang|Yucheng Long|Zhengdao Li

广州大学人工智能研究所，中国广东省广州市510006

摘要

近期研究表明，针对深度强化学习（DRL）系统的策略操纵攻击可能导致受害代理学习到异常策略。然而，现有研究通常假设攻击者可以操纵训练过程的多个组成部分，如奖励函数、环境动态或状态信息。在物联网（IoT）支持的智能社会中，AI驱动的系统在相互连接且数据敏感的环境中运行，这些假设引发了关于安全和隐私的严重担忧。本文研究了一种新的策略操纵攻击方法，该方法在较弱的假设条件下实施：攻击者只需访问受害者的训练设置，在某些情况下，还需要访问训练期间学习到的策略输出。我们提出了“蜜罐策略攻击”（HPA），在这种攻击中，敌对代理通过故意采取次优行动来诱导受害者学习攻击者指定的目标策略。为此，我们引入了一种蜜罐奖励估计机制，该机制量化了敌对代理影响受害者学习过程所需的奖励牺牲量，并根据策略操纵的程度进行调整。在三个具有代表性的竞争游戏中进行的广泛实验表明，HPA既有效又隐蔽，揭示了部署在IoT驱动的智能环境中的基于DRL的系统中的先前未发现的漏洞。据我们所知，这项工作提出了第一种不依赖于明确篡改DRL系统内部组件的策略操纵攻击方法，而是仅通过允许的对抗性交互来操作，为新兴的AIoT生态系统面临的安全挑战提供了新的见解。

引言

深度强化学习（DRL）在包括游戏[1]、[2]、机器人技术[3]、[4]、自动驾驶[5]、[6]和对话系统[7]、[8]在内的广泛应用领域展示了显著的有效性。随着DRL驱动的决策模块越来越多地部署在安全关键基础设施中——特别是在AIoT支持的智能社会中——理解其安全漏洞变得至关重要。在这样的环境中，大规模的IoT设备在与云/边缘智能交互时不断生成敏感数据，从而放大了对抗性操纵对系统整体可靠性、隐私和安全性的潜在影响[9]、[10]。最近关于IoT网络中的入侵检测和异常分析的研究进一步强调了随着AI驱动的自动化深入集成到智能医疗保健、工业控制和智能交通系统中的情况下，需要强大的防御机制[11]、[12]。

在多代理竞争环境中，包括双人零和游戏[13]、[14]，基于DRL的代理特别容易受到策略操纵攻击，其中敌对者策略性地影响受害者学习到退化或恶意的策略。现有研究大多假设攻击者可以直接干预训练流程的多个组成部分，包括观察结果、奖励函数或转移动态。例如，Wang等人[15]在受害者的策略中注入后门，而Pham等人[16]设计了对抗性行为来抑制受害者的累积奖励。Lin等人[17]操纵受害者的状态表示，Rakhsha等人[18]秘密修改奖励信号。其他方法动态扰动转移模型以引导受害者采取敌对者选择的行为[18]、[19]。

然而，这些假设在实际的AIoT环境中往往不现实，因为保护隐私的机制（例如边缘隔离、加密通信或联邦学习）限制了攻击者访问或篡改DRL内部组件的能力。此外，智能基础设施中通常部署的系统级约束和强大的完整性保护使得修改奖励函数或操纵环境变得极不可能。这激发了需要一类在较弱假设条件下运行的新攻击方法的需求。

在这项工作中，我们介绍了蜜罐策略攻击（HPA），这是一种新的策略操纵策略，不需要修改受害者的观察结果、奖励或环境动态。相反，HPA利用了竞争性DRL的两个基本特征：（i）受害者最大化累积奖励的驱动力；（ii）双人零和游戏中严格的对抗性收益耦合属性。如图1所示，敌对代理可能通过采取特定行动来影响受害者的策略，从而微妙地改变受害者感知的奖励格局。然而，在复杂游戏中天真地应用这一想法面临两个关键挑战：（1）剧烈的行为偏差可能会破坏训练的稳定性，影响两个代理；（2）攻击者通常无法访问准确的奖励函数或转移模型。

为了解决这些限制，我们提出了HPA，它控制敌对代理执行故意的次优行动——牺牲部分自己的奖励——以诱使受害者朝向目标策略。HPA结合了一个预训练的敌对策略和一个蜜罐奖励估计机制。首先，敌对代理被训练为具有竞争力，以确保与多样化的受害者行为进行稳定交互。其次，基于这个核心策略，我们构建了一个蜜罐策略，诱导受害者朝着敌对者选择的目标收敛。蜜罐机制依赖于一个量化策略操纵效果的指标，以及一个自适应的奖励估计过程，该过程确定攻击者在每一步必须放弃多少奖励以保持影响力而不破坏训练。

据我们所知，HPA是第一个不依赖于明确篡改DRL系统内部组件的双人竞争游戏中的策略操纵攻击方法。这为AI驱动的IoT环境建立了一个新的、实际相关的威胁模型，在这种环境中，对手可能能够通过标准接口与系统交互，但被阻止访问或修改其特权内部配置。

本工作的主要贡献总结如下：

•
一种新的非篡改策略操纵攻击。我们提出了蜜罐策略攻击（HPA），这是一种新的攻击策略，能够在不篡改受害者训练流程的任何组件的情况下操纵DRL代理的策略，包括观察结果、奖励或环境动态。
•
用定量指标对策略操纵进行形式化。我们提供了策略操纵问题的正式定义，并引入了一个原则性的指标，用于衡量受害者的策略向敌对者选择的目标策略偏离的程度。
•
用于适应性诱导的蜜罐奖励估计。我们设计了一种蜜罐奖励估计机制，该机制自适应地确定敌对代理影响受害者学习过程所需的奖励牺牲量，并将其纳入蜜罐策略的训练中。
•
全面的实证评估。
我们在多个竞争环境中评估了HPA。实验结果表明，HPA有效、稳定且具有通用性，揭示了基于DRL的系统中之前未发现的漏洞。

深度强化学习（DRL）中的策略操纵已成为一个重要的研究课题，因为DRL系统越来越多地部署在安全和隐私敏感的环境中，如IoT、移动边缘计算和多领域AI生态系统。最近关于DRL安全和后门威胁的调查显示[20]、[21]，策略级操纵代表了一个可能削弱自主系统可靠性的关键漏洞。

大量研究正在调查

双人零和游戏

双人零和游戏是一种竞争性设置，其中一个代理的收益正好等于另一个代理的损失。在强化学习中，此类交互通常被建模为双人马尔可夫决策过程（MDP），由元组

(S, (A_{1}, A_{2}), P, (R_{1}, R_{2}), (γ_{1} < /> γ_{2})) .

这里，

S

表示状态空间，

A_{1}

和

A_{2}

表示两个代理的动作空间。转移函数

P : S \times A_{1} \times A_{2} \to Δ (S)

将状态-动作对映射到后继状态的概率分布。

蜜罐策略攻击

本节介绍了提出的蜜罐策略攻击（HPA）。我们首先概述了攻击流程，然后介绍了一个用于评估策略操纵的定量指标。接下来，我们描述了蜜罐策略机制和蜜罐奖励估计过程。最后，我们讨论了HPA对未见过的受害者代理的泛化能力。

讨论

策略操纵在竞争性多代理环境中代表了一种新兴且具有影响力的威胁，在这些环境中，代理不断根据与其他代理的交互更新其行为。我们的研究表明，即使在严格的非篡改设置下，广泛部署的深度强化学习（DRL）算法仍然容易受到这种操纵，其中对手无法访问环境、奖励函数或受害者的内部学习流程。这些发现

结论

本研究系统地调查了双人零和DRL环境中的策略操纵，并提出了一个反映AIoT支持智能环境中现实对抗能力的非篡改威胁模型。我们提出了蜜罐策略攻击，该攻击仅通过策略性地选择的内部环境动作来操纵受害者的学习过程，而不改变观察结果、奖励或环境动态。

CRediT作者贡献声明

Kanghua Mo：形式分析。Zhengxin Zhang：数据整理。Yuanzhi Zhang：可视化、软件。Yucheng Long：撰写——原始草稿、数据整理。Zhengdao Li：撰写——审阅与编辑。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

致谢

本工作得到了广东省科技计划关键领域研究计划（授权号：2025B0101120008）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作