结合深度强化学习和两阶段随机优化的动态无人机任务卸载

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Future Generation Computer Systems》：Dynamic UAV Task Offloading Combining Deep Reinforcement Learning and Two-Stage Stochastic Optimization

【字体：大中小】 时间：2026年02月28日 来源：Future Generation Computer Systems 6.2

编辑推荐：

　　无人机动态任务卸载优化方法研究摘要：提出融合数字孪生、深度强化学习和两阶段随机优化的分层卸载框架，解决动态网络环境下无人机轨迹规划与任务卸载的协同优化难题。通过数字孪生技术实现任务分类与动态环境映射，DRL负责轨迹规划，TSO结合CVaR准则优化卸载决策，显著提升能效比和任务完成率。

宣亚玲|范金龙|张继福|杨海峰|蔡江辉|王兴

太原科技大学，中国山西省太原市，030024

摘要

在无人机（UAV）边缘计算场景中的任务卸载问题上，现有研究广泛探讨了UAV的移动性和动态任务卸载策略。然而，在高度动态的网络环境和不确定性条件下，有效协调UAV轨迹规划与任务卸载决策仍然是一个挑战。为了解决传统卸载策略中UAV位置动态和网络环境变化考虑不足的问题，本研究提出了一种优化的UAV任务卸载方法，该方法结合了数字孪生（DT）技术、深度强化学习（DRL）和两阶段随机优化（TSO）。首先，利用DT技术提供细粒度的任务和设备描述，并根据任务特性和系统要求进行灵活的任务分类，将任务分为计算密集型和延迟敏感型，从而为卸载决策提供更精细的依据。随后，UAV的轨迹优化和任务卸载决策被分离处理：UAV的路径规划由DRL算法负责，而卸载策略则通过两阶段随机规划模型生成。这种分层设计能够在不确定环境中实现长期系统性能与实时决策鲁棒性的平衡。此外，引入条件风险价值（CVaR）准则来模拟卸载过程中的潜在传输延迟风险，增强了系统在极端网络条件下的鲁棒性和稳定性。实验结果表明，所提出的方法在能量-延迟权衡和任务完成率等关键指标上优于现有的传统算法，并在复杂的动态场景中表现出较强的适应性，显示出良好的实际应用潜力。

引言

随着物联网（IoT）设备的快速发展，IoT应用已广泛应用于交通、环境监测、智能农业和现代智慧城市等领域[1]、[2]、[3]。这些地面部署的IoT设备能够实时感知和收集环境数据，并被广泛应用于各种任务中。然而，由于计算和存储资源有限，IoT设备通常需要通过无线网络将数据传输到附近的基站或云数据中心进行处理。传统的终端本地处理方式由于计算能力受限而面临性能瓶颈，而纯集中式的云处理往往难以满足毫秒级低延迟的要求。作为创新的解决方案，移动边缘计算（MEC）通过将计算能力下沉到网络边缘，构建边缘服务器集群，形成了高效且分布式的计算网络架构[4]、[5]、[6]、[7]。

尽管MEC具有许多优势，但它仍受限于固定的地面基站，难以实现随时随地灵活部署。例如，在易受自然灾害影响的地区，地面基础设施容易受损；而在偏远村庄或临时场景中部署固定的MEC节点往往不切实际。在这种背景下，无人机成为支持计算密集型和低延迟IoT任务的研究热点，利用其广泛的覆盖范围和可靠的通信能力。配备MEC服务器的无人机（UAV-MEC）可以充当移动边缘服务器，提供灵活的计算和通信服务，从而显著提升系统的操作灵活性和部署弹性[8]、[9]、[10]、[11]。此外，无人机可以自主调整悬停位置和飞行高度，摆脱了传统固定基站的地理限制，从而优化通信链路质量和网络覆盖范围。同时，携带轻型边缘服务器的无人机不仅为终端设备提供计算和存储资源，还能自主感知周围的网络环境（如链路带宽、信道条件和空中拥堵程度），实现计算资源的分布式管理和调度。与基于地面的MEC系统相比，UAV-MEC具有快速部署、广域覆盖和可控延迟等显著优势，展现了巨大的应用潜力[12]、[13]、[14]、[15]。

近年来，关于UAV-MEC的研究众多，主要集中在飞行轨迹优化、任务卸载决策以及能耗与延迟之间的权衡[16]、[17]上。例如，一些研究联合优化无人机悬停位置和计算资源分配以降低系统能耗[18]，而另一些研究则采用博弈论[19]或启发式算法来提高卸载策略的灵活性。然而，这些方法往往依赖于理想化的网络假设，未能充分考虑信道状态和任务到达的不确定性，导致在动态复杂环境中的鲁棒性较差。同时，一些研究依赖于集中式优化框架[20]、[21]，这些框架难以处理高维状态空间和大规模用户场景。随着系统规模的扩大，计算复杂性迅速增加，限制了其实用性。

因此，UAV-MEC系统仍面临多个挑战。首先，UAV的能源有限，飞行路径与计算负载之间存在复杂的权衡。具体来说，UAV自身的飞行能耗与边缘计算任务之间存在权衡：过度的计算卸载会显著缩短UAV的飞行时间，限制其连续运行能力。其次，在单UAV系统中，任务卸载仍面临资源限制和链路波动等不确定性挑战，需要平衡服务质量（QoS）保证与能耗和风险控制。总之，动态网络环境和不确定的信道条件对卸载策略的鲁棒性提出了更高要求。因此，迫切需要一种能够处理高维动态状态、具备风险意识能力并实现全局最优性能的任务卸载策略。

随着DT技术的成熟，将其集成到UAV-MEC系统中已成为提升边缘智能的重要方向[22]、[23]、[24]。DT技术可以在云中构建物理实体（如UAV、边缘节点、IoT终端）的高保真虚拟副本，支持实时镜像和信息物理同步。通过仿真、预测和优化现实世界动态，DT可以帮助进行轨迹规划、任务分配、信道评估和风险预警，为无人系统提供智能决策支持。

我们将DT引入UAV任务卸载过程，并提出了一种UAV-MEC卸载优化方法，该方法结合了DRL[25]、[26]、[27]、[28]、[29]和两阶段随机规划（TSO），以解决传统方法在建模系统动态和运营风险方面的困难。与直接联合优化方法不同，我们的方法将轨迹规划和卸载决策分离为模块化组件。具体而言，UAV的飞行轨迹由基于实时环境状态的DRL网络动态生成。对于任务卸载，DT技术用于根据任务特性进行分类，将其分为适合本地执行或卸载的类型。然后应用TSO模型来优化对任务到达和信道条件不确定性的响应。这种结构不仅增强了全局优化能力和适应性，还提高了动态环境中卸载决策的准确性和鲁棒性。为了进一步强化系统在极端场景下的稳定性，引入了条件风险价值（CVaR）[30]、[31]准则来模拟和控制卸载过程中的潜在传输延迟风险。CVaR有效捕捉了尾部风险，特别是关注低概率但高影响事件，从而显著提高了算法在复杂和动态环境中的可靠性和鲁棒性。

主要贡献如下：

•

我们提出了一种基于DT的任务分类方案，区分了长期（服务导向）任务和快速响应（延迟敏感）任务，实现了差异化的卸载处理。

•

我们提出了一种分层的“DRL+TSO”卸载框架，将UAV轨迹规划与卸载/资源决策分离。这种分解提高了计算效率和系统适应性，同时保持了端到端优化性能。

•

我们在多个代表性任务场景中对该方法进行了评估，仿真结果表明，所提出的方法在任务完成率、能耗和平均延迟等关键指标上优于传统的基线算法。

系统模型

系统环境如图1所示。我们考虑一个具有多个时间槽的时间槽系统：

T = {1, 2, 3, ?, T}

. 一个基于UAV的边缘计算系统由UAV、基站和移动用户组成：M={1,2,3,?,M}. 每架UAV具有一定的覆盖范围，UAV之间通过无线链路进行通信。

UAV最初部署在基站，我们将UAV在时间槽τ的位置表示为

Q_{uav} (τ) = {x(τ),y(τ),h}

，移动用户m∈M在时间槽τ的位置表示为

Q

算法设计

在本节中，我们将详细介绍分层卸载优化框架“DDPG+TSO”的设计，并说明如何将其结合以实现UAV轨迹优化和任务卸载。DRL利用深度神经网络捕捉UAV辅助MEC的复杂状态，同时借助强化学习框架实现自适应决策。

实验

在本节中，我们通过仿真实验评估了所提出的DDPG+TSO算法在各种场景下的性能。首先，我们列出了仿真实验环境的参数。然后，我们将提出的算法与其他启发式算法和强化学习方法进行比较，以评估其性能。

结论与讨论

在本文中，我们提出了一种新颖的UAV辅助任务卸载框架，该框架结合了DT技术、DRL和TSO以及条件风险价值（CVaR）风险控制。通过引入DT，系统能够将任务分为长期DT任务和延迟敏感任务，从而实现差异化的优化策略。UAV轨迹通过基于DDPG的强化学习算法进行优化，而任务卸载决策则由随机算法处理。

CRediT作者贡献声明

宣亚玲：撰写——原始草稿，概念化。范金龙：撰写——原始草稿。张继福：监督。杨海峰：监督。蔡江辉：监督。王兴：可视化。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作