基于多智能体强化学习（DRL）的任务卸载与轨迹优化技术，应用于低空无人机物联网（UAV IoT）系统

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Ad Hoc Networks》：Multi-agent DRL-based task offloading and trajectory optimization for low altitude UAV IoT systems

【字体：大中小】 时间：2026年02月04日 来源：Ad Hoc Networks 4.8

编辑推荐：

　　低空物联网中无人机协同优化三维轨迹与资源分配的研究，提出基于图卷积网络的多智能体深度强化学习框架，通过联合优化三维轨迹、计算卸载和资源分配，降低18.5%能耗与22.7%延迟，提升16.2%任务完成率

庞善晨|范淼淼|何晓|季文豪|乔思博|张晨浩

中国石油大学（华东）计算机科学与技术学院，青岛，266580，中国

摘要

在低空物联网（IoT）网络中，无人机（UAV）被用作移动边缘节点，为任务处理提供计算服务。然而，用户设备（UDs）的时空动态以及任务优先级的异构性加剧了任务处理过程中遇到的多维资源竞争。这显著影响了能源消耗、服务延迟和任务完成率，降低了用户服务质量（QoS）。为了解决这些挑战，我们提出了一种协作式多智能体深度强化学习（MADRL）算法，通过联合优化UAV的三维（3D）轨迹、资源分配和任务卸载策略来提高用户QoS。具体来说，我们设计了一个基于图卷积网络（GCN）的UAV智能体网络，以拓扑感知的方式对用户分布进行建模。此外，我们构建了一个基于多头注意力机制的集中式评论家网络，利用注意力缩放来量化任务需求的差异并指导资源决策。这两个组件通过“拓扑关联–需求差异”协作评估机制共同进行优化，实现了时空特征与任务需求决策的多维耦合。实验结果表明，所提出的算法将系统能源消耗和延迟分别降低了约18.5%和22.7%，同时将任务完成率提高了约16.2%。

引言

随着下一代网络中实时和能源敏感应用的快速增长，物联网（IoT）系统已成为减少任务处理延迟和能源消耗的有前景的范式[1]，[2]。在这样的系统中，配备有边缘服务器（ES）的UAV可以利用其高移动性和视距（LoS）通信能力，在偏远或基础设施有限的环境中快速部署临时网络，从而提高低空IoT系统的计算能力和服务效率[3]，[4]。这种空地协作架构为地面UDs提供了广域覆盖和按需任务卸载服务，有效解决了固定基站部署成本和覆盖范围的限制。它支持各种应用，包括智能农业[5]、应急通信[6]和车辆网络[7]，[8]。

尽管有这些优势，但UAV辅助的IoT系统仍面临一些根本性挑战，这些挑战使其不同于传统的地面移动边缘计算（MEC）。首先，与地面MEC中的固定基站不同，UAV在严格的能源和移动性约束下运行，效率低下的轨迹规划可能导致任务完成前过早耗尽能源[9]，[10]。其次，多层耦合效应加剧了系统复杂性：在空间层，3D资源调度的时空耦合效应难以处理[11]；在设备层，异构计算资源的不平衡分布带来了显著困难[12]；在任务层，QoS要求中的多目标冲突使系统优化变得复杂[13]。这些挑战共同加剧了资源竞争，导致能源消耗、服务延迟和任务完成率下降。具体来说，当前研究面临两个主要挑战：

•
3D轨迹的多维协同优化：在3D空间执行任务时，UAV必须同时考虑用户分布、LoS信道衰减和飞行能源约束。准确建模这些维度之间的耦合仍然是一个重大挑战。
•
异构任务优先级的动态评估：在具有不同QoS的混合任务场景中，时变信道环境和异构节点负载的波动性使得建模任务优先级与网络状态协变量之间的关联变得复杂。

解决这些挑战对于支持任务关键的6G IoT应用至关重要，因为可靠性、延迟和能源可持续性紧密相关。为了实现实时适应，现有研究已将深度强化学习（DRL）应用于UAV轨迹设计[14]和能源管理[15]。然而，这些方法在模拟3D移动性、LoS信道变化和能源消耗之间的非线性关系方面存在局限性。同样，现有的优先级方案，包括固定权重策略[16]和基于全连接（FC）的静态特征编码器[17]，难以捕捉异构QoS需求、信道波动和负载动态之间的时空交互。

这些局限性揭示了一个更广泛的研究空白：尽管UAV辅助的MEC已经得到了广泛探索，但现有框架缺乏一个能够联合建模3D空间相关性、动态任务优先级和多智能体交互的统一且可扩展的架构。大多数先前的工作将轨迹规划、卸载和资源分配视为孤立的子问题，导致在实际约束下决策次优。此外，当前的MADRL方法通常忽略了UDs之间的底层空间拓扑，未能将拓扑感知表示学习与自适应优先级机制结合起来。

为了克服这些限制，我们提出了一个混合MADRL框架，该框架结合了基于GCN的UAV智能体和基于集中式注意力的评论家。GCN智能体通过分层邻域聚合捕获UDs之间的空间相关性，实现拓扑感知的3D轨迹决策。同时，基于注意力的评论家动态地为UD状态分配基于兼容性的权重，实现异构任务流的自适应优先级。这种协作设计共同解决了空间拓扑建模、任务优先级和多维资源耦合问题，从而在动态UAV–IoT环境中提高了可扩展性和鲁棒性。本工作的主要贡献总结如下：

•
我们提出了一种协作式MADRL方法，将UAV和每个UD视为智能体，通过集中训练和分散执行（CTDE）范式联合优化3D轨迹、资源分配和任务卸载。该问题被建模为一个多目标部分可观测马尔可夫决策过程（POMDP），旨在最小化系统延迟并减少总能源消耗，同时确保高优先级任务的端到端QoS。
•
我们构建了一个基于GCN的智能体网络架构，以提高对UD移动性和需求波动的适应性。通过分层聚合相邻节点状态，网络捕获全局分布模式。这使得UAV能够在密集集群中优先考虑覆盖范围，并在稀疏区域识别中继节点，以优化通信链接并改进拓扑感知决策。
•
我们提出了一个基于集中式注意力的评论家网络架构，以解决忽略关键节点导致的延迟瓶颈。它通过兼容性分数为UD状态分配注意力权重，重点关注高负载节点和弱链接等关键因素。与智能体网络的双向反馈机制实现了延迟敏感调度和3D轨迹控制的联合优化。

本文的其余部分组织如下。第2节概述了相关工作。第3节描述了系统模型并制定了优化问题。第4节设计了协作式MADRL方法。第5节讨论了实验评估和结果。最后，第6节总结了关键发现。

部分摘录

UAV轨迹的协同优化

早期关于低空UAV支持的IoT系统的研究主要集中在2D轨迹优化和静态任务卸载上。例如，Wang等人[18]通过联合优化飞行角度、速度和卸载比例来减少处理延迟，而Wei等人[19]考虑了基于有向无环图（DAG）的调度和具有障碍物感知的轨迹。基于DRL的方法也被应用于2D UAV控制以提高能源效率[20]，[21]。然而，这些研究通常假设

系统模型

如图1所示，我们考虑了一个低空UAV辅助的IoT系统，其中一架装有ES的旋翼UAV为多个移动UDs提供服务，这些UDs由

N = {1, 2, \dots, N}

。任务被划分为

T

个时间槽，每个时间槽由

t \in (1, 2, …, T)

。假设UAV在每个时间槽内几乎是静态的，而其在时间槽之间的移动形成3D轨迹。

在操作过程中，UAV根据用户移动性、信道变化和任务

用于任务卸载和轨迹优化的MADRL算法

为了解决卸载-轨迹优化问题，我们将系统建模为一个协作式POMDP，并采用MADRL框架。这种形式允许异构智能体之间的分布式决策，同时利用集中式训练进行协调优化。

仿真实验和结果分析

本节通过全面仿真评估了所提出框架的性能。我们考虑了一个低空UAV辅助的IoT环境，其中

N

个UDs均匀部署在

100 m \times 100 m

区域内，UAV在50–100米的高度运行以提供计算卸载服务。UAV从位置

(50, 50, 50)

开始，充电站位于其正下方。每个UD根据泊松过程生成任务，平均到达率为每

结论

本文提出了一种协作式MADRL框架，称为

C^{3}

-MADDPG，用于解决低空UAV辅助IoT系统中的多维资源竞争问题。通过结合基于GCN的UAV智能体和多头注意力评论家，所提出的方法联合优化了3D UAV轨迹、计算卸载和资源分配，以适应动态用户移动性和异构任务优先级。GCN模块能够高效提取时空用户分布

CRediT作者贡献声明

庞善晨：撰写 – 审稿与编辑、监督、方法论、资金获取。范淼淼：撰写 – 原始草案、可视化、方法论、调查、概念化。何晓：撰写 – 审稿与编辑、监督、方法论。季文豪：撰写 – 审稿与编辑、监督、调查。乔思博：监督、资金获取。张晨浩：监督、形式分析。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

致谢

本工作得到了国家关键研发计划（项目编号2021YFA1000102）、国家自然科学基金青年基金（项目编号62402338）和山东省自然科学基金（项目编号ZR2024MF129）的资助。

联系信箱：

粤ICP备09063491号

摘要

引言