利用多智能体图强化学习进行无人机辅助通信恢复的能效轨迹规划

《Ad Hoc Networks》:Energy-efficient trajectory planning for UAV-assisted communication recovery using multi-agent graph reinforcement learning

【字体: 时间:2026年01月27日 来源:Ad Hoc Networks 4.8

编辑推荐:

  无人机基站在动态、部分可观测环境中需优化轨迹规划以提升系统吞吐量和能效,本文提出基于多智能体异构图强化学习(MA-GAR)的框架,结合数字孪生与集中训练机制,实现高效学习与低能耗通信。

  
Cong Wang | Menglong Dong | Ying Yuan | Guorui Li
东北大学秦皇岛分校计算机科学与通信工程学院,中国河北省秦皇岛市泰山路143号,066004

摘要

由于无人驾驶飞行器基站(UAV-BS)具有机动性,它们在灾害发生后能够有效且快速地恢复紧急通信。然而,移动终端(MT)的吞吐量容易受到UAV-BS的轨迹和能量限制的影响。为了在保证UAV-BS能源效率的同时提高MT的吞吐量,我们提出了一种基于多智能体异构图强化学习的能源高效轨迹规划框架。我们将联合优化问题表述为一个部分可观测的马尔可夫决策过程。然后,我们提出了一种基于异构图的方法来表示UAV-BS与网络实体之间的关系。接下来,我们设计了一个多智能体图注意力循环演员-评论家框架(MA-GAR)来高效地在异构图上进行学习。最后,我们在MA-GAR中引入了数字孪生技术支持的集中训练和分散执行机制,以降低UAV-BS的能耗。实验结果表明,所提出的MA-GAR在收敛速度、系统吞吐量、能耗和服务公平性方面均优于基准算法。

引言

随着无线通信技术的进步,5G网络已得到广泛部署,下一代网络(6G)也即将问世[1]。这些网络必须实现无缝连接、更高的通信速率和绿色通信[2]。无人驾驶飞行器(UAV)凭借其出色的灵活性和快速部署能力,被广泛应用于物联网(IoT)场景中,如灾害救援[3]、数据收集[4]和任务卸载[5]。
将UAV部署为无线通信网络中的空中基站是一个值得注意的进步[6]。特别是在通信资源短缺的灾区,UAV-BS可以临时部署在空中提供快速援助[7]。当地面设施受损或严重拥堵时,它们可以调整飞行轨迹,为地面终端提供大面积、低成本的无线通信覆盖[8]。
尽管UAV-BS在通信领域具有多种优势,但它们仍然面临挑战。由于UAV机载电池容量的限制,它们的服务时间有限,因此必须高度重视能源效率[9][10]。此外,深度强化学习方法在控制UAV以提高无线通信网络性能方面表现出色。多智能体深度强化学习(MADRL)允许每个UAV-BS成为决策者,通过从环境中生成的训练数据不断优化其策略。然而,由于UAV-BS的计算资源有限,传统的分散独立训练机制并不实用。因为这种机制需要额外的能量消耗来获得最优策略,从而可能进一步降低能源效率。因此,设计一种更高效、更合理的轨迹规划机制至关重要。
大多数现有的关于UAV辅助通信服务的研究主要集中在服务静态地面终端[11],这些终端不需要UAV-BS频繁调整位置。然而,移动终端(MT)需要UAV-BS实时调整轨迹,以保证其移动过程中的高质量和稳定通信服务。UAV-BS和MT的移动会改变网络拓扑结构,导致间歇性连接甚至传输失败[12]。通过优化UAV-BS的三维(3D)空间布局可以缓解这些问题,这无疑是一个极其复杂的问题[13]。UAV-BS的飞行高度直接决定了它们的覆盖范围。不同的地理环境和MT分布需要不同的飞行高度来优化覆盖效果。
在现有的UAV-BS轨迹规划研究中,通常假设所有地面终端的位置都是预先已知的,这在实际情况下并不现实,尤其是在灾害救援场景中[14]。由于无线传输信号的衰减,UAV-BS的感知范围有限,只能观察到附近的MT或其他UAV-BS。因此,无法实时获取所有MT的精确位置。因此,根据通信覆盖要求准确部署UAV-BS变得困难。实际上,UAV-BS必须利用本地观测数据,自主搜索MT,并以最小的能耗提供高质量、稳定的通信链接覆盖。此外,UAV-BS和MT的移动使得网络高度动态。而且,随着时间变化的部分观测信息会导致输入维度不一致。这些问题对传统的凸优化技术和MADRL提出了难以克服的挑战[9]。
考虑到UAV-BS的高动态性、部分观测限制和能耗限制,我们将研究重点放在能源高效的轨迹规划上。因此,我们设计了一个多智能体图注意力循环演员-评论家框架(MA-GAR),并引入了图神经网络(GNNs)[15][16]。我们使用图结构来模拟网络实体之间的关系,并利用GNNs捕捉它们的空间依赖性,以解决由动态和部分可观测环境引起的维度波动问题。鉴于UAV-BS的有限机载计算能力和能源,我们在MA-GAR中引入了集中训练和分散执行(CTDE)机制[17][18]。该机制使UAV-BS能够实现远程集中训练和分散参数分配,从而提高其能源效率。然而,在CTDE的集中训练阶段,UAV-BS必须与中央服务器持续通信以获取状态信息,这将产生较高的通信成本[19]。为了解决这个问题,我们在MA-GAR中引入了数字孪生技术(DT)。DT技术保持了物理世界的高保真度实时虚拟表示,实现了对实际网络状态的持续监控[20]。作为广泛采用的工业解决方案,DT利用其强大的计算资源和全局视角,为UAV代理提供了高度真实和高效的训练模拟环境。通过将DT支持的CTDE机制集成到MA-GAR中,我们有效地降低了通信能耗。主要贡献总结如下:
  • 1.
    我们提出了一个具有部分可观测性约束的动态和不确定的空中-地面集成网络,并制定了一个联合优化问题,以最大化MT的吞吐量和UAV-BS的能源效率。
  • 2.
    我们将问题表述为一个部分可观测的马尔可夫决策过程(POMDP),并使用异构图来表示UAV-BS与网络实体之间的关系,以更好地描述环境。
  • 3.
    我们设计了具有多智能体图注意力循环演员-评论家结构的MA-GAR,以灵活处理维度波动的本地观测,并在异构图上高效学习。
  • 4.
    我们在MA-GAR中引入了DT支持的CTDE机制,使智能体能够更容易地收集大量及时的交互数据,从而进行更高效的集中训练,进一步降低能源成本。
本文的其余部分组织如下:第2节回顾相关文献。第3节描述系统模型和问题表述。第4节介绍解决方案。第5节分析数值结果。第6节总结本文并讨论未来研究方向。

相关研究

相关工作

本文概述了2.2节至2.4节中通信网络优化领域的相关研究工作。在2.5节中,通过与现有研究的比较,阐明了所提出的MA-GAR框架的独特优势。

系统模型和问题表述

本节首先介绍系统模型,然后提出优化问题。表2总结了本文中使用的主要符号。

基于能源高效轨迹规划的多智能体图强化学习

在本节中,我们首先给出POMDP的表述,然后介绍所提出的MA-GAR框架的详细信息。

数值结果与分析

在本节中,我们通过广泛的数值模拟全面验证了所提出的MA-GAR的性能。比较的基准算法如下:
  • 1
    GVis&Comm [26]:这是一种基于GNN的MARL方法。它使用基于Q学习的算法,并利用GNN处理异构图,不限制通信距离。
  • 2
    MADDPG [34]:这是一种使用确定性策略梯度的离策略算法

结论

在本文中,我们探讨了UAV辅助的空中-地面集成网络中的能源高效通信问题。我们在MA-GAR中设计的基于图的信息表示方法和注意力机制可以灵活高效地学习POMDP中维度波动的特性。此外,引入的CTDE机制可以避免UAV因直接训练而产生的额外能耗。我们进行了仿真实验,结果

CRediT作者贡献声明

Cong Wang:撰写 – 审稿与编辑,验证。Menglong Dong:撰写 – 原稿。Ying Yuan:可视化。Guorui Li:资源支持。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。

致谢

本工作得到了河北省重大科技支撑计划(242Q1602Z)、国家铁路智能运输系统工程技术中心的开放项目基金(RITS2023KF04)以及中国铁路科学院有限公司的关键项目基金(2023YJ363)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号