在MEC（移动边缘计算）中，基于DRL（深度强化学习）的隐私保护视频流任务卸载技术：同时考虑能量限制

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computer Networks》：DRL-based Privacy-Preserving Video Streaming Task Offloading under Energy Constraints in MEC

【字体：大中小】 时间：2026年03月01日 来源：Computer Networks 4.6

编辑推荐：

　　隐私保护与资源约束协同优化的移动边缘计算视频任务卸载模型提出基于约束马尔可夫博弈的CPO-MADDPG算法，通过双通道策略梯度分离奖励与约束成本，结合双头critic和约束感知优先经验回放优化，有效降低延迟、能耗并保护隐私，提升用户体验。

陈鸿毅|彭云|陈伟|孟涛|艾伟|何志雄|李克勤

中南林业科技大学计算机与数学学院，长沙，410004

摘要

随着视频监控、自动驾驶和智能家居应用的迅速普及，移动边缘计算（MEC）中的视频任务卸载研究日益受到关注。与传统云计算相比，MEC通过将计算资源部署得更靠近终端设备来降低延迟和能耗。然而，这也带来了两个根本性挑战：来自不受信任的边缘服务器的隐私泄露问题，以及导致延迟、能耗和服务质量（QoS）动态波动的资源限制。现有的优化和基于学习的方法往往无法在能耗限制内确保隐私，或在动态MEC条件下平衡多个相互冲突的目标。为了解决这些挑战，本文探讨了在MEC基础上的视频任务卸载中联合建模和优化多目标（准确性、延迟、能耗）和多约束（隐私、能耗上限）问题的核心难点，其中隐私保护和资源限制共存。我们将这一问题表述为一个受限马尔可夫博弈（CMG），并提出了一种新颖的受限策略优化多智能体深度确定性策略梯度（CPO-MADDPG）算法。广泛的仿真表明，CPO-MADDPG有效减轻了隐私泄露，保持了能耗限制，并在最大化视频分析准确性的同时最小化了延迟。所提出的框架为动态MEC环境中长期存在的隐私保护与资源效率之间的权衡提供了一个统一且可扩展的解决方案。

引言

视频监控、自动驾驶和智能家居的最新进展显著提升了视频数据的采集、处理和传输技术。然而，这些发展也带来了与计算能力、能源效率和终端设备实时响应性相关的挑战[1]、[2]。传统云计算模型由于需要传输大量视频数据而存在局限性，导致高延迟和带宽问题[3]、[4]，这阻碍了实时视频处理。边缘计算通过将计算资源放置在更接近终端用户的位置来解决这些挑战，使得任务可以卸载到边缘服务器[5]、[6]、[7]。这减轻了移动设备的计算负担，提高了响应时间、处理性能和能源效率，从而延长了电池寿命。然而，在移动边缘计算（MEC）中越来越多地使用任务卸载也带来了复杂的技术挑战[8]、[9]、[10]。

在MEC环境中，将视频数据卸载到可能不受信任的边缘服务器会带来显著的隐私风险。服务器可能会从帧率和分辨率等任务特征中推断出敏感信息，如设备的位置和使用模式[11]。为了解决这个问题，已经提出了多种保护隐私的方案。Wang等人[12]引入了一种基于差分隐私的机制来保护车辆的速度和位置信息。Xu等人[13]提出了一种利用隐私熵来保护数据的隐私感知卸载方案。然而，这些解决方案在隐私和性能之间存在权衡——过多的噪声会降低准确性，而过于宽松的约束则可能暴露用户数据。因此，在不牺牲实时性能的情况下实现自适应隐私保护仍然是MEC基础视频任务卸载中的一个未解决挑战。

MEC基础视频卸载的另一个主要挑战是环境的资源受限性。多种异构设备竞争有限的计算、通信和频谱资源[14]，导致延迟、传输可靠性和能耗的波动，从而降低了用户体验质量。研究人员提出了几种解决方案来应对这些问题。Zhao等人[15]引入了一种联邦深度强化学习方法，可以在多个边缘节点之间优化资源，实现安全视频卸载。在[16]中，Zhao等人结合了物理层安全和深度强化学习，以确保卸载过程中的通信安全并提高服务质量。然而，这些方法通常只关注单一目标（例如延迟或能耗），缺乏一种综合方法来处理多目标、多约束优化问题，即在资源限制下平衡延迟、能耗和隐私。

为了解决上述隐私泄露和资源限制的挑战，我们将传统的多智能体马尔可夫博弈框架扩展为受限马尔可夫博弈（CMG）模型，以描述MEC基础视频任务卸载的多目标和多约束特性。在这个框架内，我们提出了一种受限策略优化多智能体深度确定性策略梯度（CPO-MADDPG）算法，该算法联合优化了延迟、能耗和隐私目标。具体来说，我们设计了一种双通道策略梯度机制，将任务奖励和约束成本的学习分为两个交互通道。通过拉格朗日乘数动态平衡这两个通道，实现了无投影的受限学习和能耗的自适应控制。基于这一机制，CPO-MADDPG保持了MADDPG的去中心化智能体结构，但其原始的批评者被替换为一个双头批评者，该批评者同时估计准确性奖励和能耗成本。硬性的能耗上限被重新表述为一个软约束，其惩罚权重通过相同的拉格朗日乘数自动调整。此外，我们开发了一种考虑约束的优先体验回放（CA-PER）缓冲区，将能耗纳入TD误差中，并优先考虑接近约束边界的样本。这种设计提高了探索效率，并加速了受限领域的收敛速度。通过这种统一的方法，所提出的框架在动态MEC环境中有效最大化了视频分析准确性，同时最小化了延迟和能耗，确保了系统性能和隐私保护。

总体而言，本文的主要贡献可以总结如下：

•

我们将MEC视频任务卸载问题表述为一个多智能体受限马尔可夫博弈，以联合捕捉动态网络条件下的延迟、能耗和隐私权衡。

•

我们提出了一种配备双通道策略梯度、双头批评者和CA-PER的CPO-MADDPG算法，用于自适应和高效的受限优化。

•

广泛的实验表明，我们的方法通过减少延迟和能耗违规行为显著提高了视频任务卸载的性能，同时提升了整体用户服务质量。

本文的其余部分组织如下。第2节总结了边缘计算和雾计算环境中的相关方法。第3节介绍了系统模型和问题表述。第4节详细描述了我们的基于DRL的算法模型。第5节从不同维度评估了我们选择的基准算法的性能。最后，第6节总结了全文并展望了未来的工作。

章节摘录

MEC系统模型在任务卸载中的应用

在本节中，我们构建了一个用于视频任务卸载的MEC系统模型。首先介绍系统模型和任务模型，然后构建延迟模型、能耗模型和安全模型，最后阐述问题。本工作中使用的主要符号在表1中进行了总结。

马尔可夫决策与算法

在本节中，我们将介绍基于上述MEC系统和我们设计的DRL算法的马尔可夫决策。

实施

我们进行了广泛的仿真实验，以评估我们在MEC环境中提出的CPO-MADDPG算法，其中单个基站服务于多个用户。用户随机分布在基站周围，每个移动设备都被建模为一个独立智能体，在其自身特定的约束下做出卸载决策。仿真中使用的关键参数在表2中进行了总结。具体来说，用户数量表示为N，设置为20，

结论

在本文中，我们解决了MEC环境中安全且节能的视频任务卸载问题，在这种环境中，多个设备在严格的能源和延迟限制下竞争有限的通信和计算资源。为了克服传统基于DRL的方法的局限性，这些方法仅依赖于奖励 shaping，并难以平衡能源效率、安全性和任务性能，我们提出了一种新颖的CPO-MADDPG算法。

CRediT作者贡献声明

陈鸿毅：撰写——原始草稿、软件、方法论、调查、数据整理、概念化。彭云：撰写——审阅与编辑、可视化、验证、软件、方法论。陈伟：撰写——审阅与编辑、验证、调查。孟涛：撰写——审阅与编辑、可视化、软件、资源、项目管理。艾伟：撰写——审阅与编辑、可视化、验证、监督、软件、资源、项目管理。何志雄：

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

联系信箱：

粤ICP备09063491号

摘要

引言

章节摘录

相关工作

MEC系统模型在任务卸载中的应用

马尔可夫决策与算法

实施

结论

CRediT作者贡献声明

利益冲突声明

热点排行