利用强化学习，在5G毫米波UDN中通过跳过机制优化切换决策

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computer Networks》：Optimizing handover decisions with skipping mechanisms in 5G mmWave UDNs using reinforcement learning

【字体：大中小】 时间：2026年02月11日 来源：Computer Networks 4.6

编辑推荐：

　　5G毫米波超密集网络中基于深度强化学习的动态切换决策机制研究，提出A2C算法结合切换跳过策略，有效降低高速移动场景下的切换率（仅28.74%提升）和吞吐量下降（10%），较基线方法提升显著。

作者：Abate Selamawit Chane, Harun Ur Rashid, Kamrul Hasan, Awoke Loret Abiy, Seong Ho Jeong

所属机构：韩国汉城 Hankuk 外国大学（HUFS）信息与通信工程系

摘要

5G 和新兴技术的快速发展正在重塑蜂窝网络架构。为了满足对这些技术的日益增长的需求，许多网络设计现在采用了超密集网络（UDNs），尤其是在毫米波（mmWave）通信中，通过密集的基站布局来克服传播挑战并提高容量。然而，这种密集部署显著增加了移动性管理的复杂性，因为频繁的手机切换会导致信令开销增加和服务中断，而许多切换实际上是多余的或几乎没有实际收益。为了最小化频繁切换造成的中断，有效的切换决策策略至关重要。已经开发了几种适用于低到中等移动性场景的方案，但这些方案通常依赖于静态决策策略，无法考虑到网络的动态特性。其他一些方案应用了强化学习技术，但其评估往往仅限于有限的移动性环境，缺乏在高速条件下的验证。为了解决这些限制，我们提出了一个基于深度强化学习（DRL）的切换决策框架，以智能地抑制毫米波 UDN 中的不必要切换。该框架利用了优势演员-评论家（A2C）算法，该算法非常适合在动态网络环境中学习最优策略。此外，还引入了一种跳过切换的策略来提高移动性鲁棒性。性能评估使用切换率和吞吐量作为关键指标。实验结果表明，所提出的方案通过广泛训练有效学习了最优切换行为，并且优于先前研究中的几种基准方法。随着用户速度的增加，所提出的方法表现出最稳定的切换性能，切换率仅增加了 28.74%，而基准方法的增加范围为 60.7% 至 91.6%。它还表现出对移动性引起的退化的强大抵抗力，吞吐量仅下降了 10%，远低于基准方案中的 21.3% 至 57.1%。在高速场景中，动态跳过切换的集成进一步提高了算法的性能，累计奖励增加了 82.1%，吞吐量提高了 39%。

引言

毫米波通信和 UDN 是 5G 及未来无线网络的两个关键推动因素。毫米波提供了 24 - 100 GHz 范围内的大块连续频谱，以支持极高的数据速率和容量 [1]。然而，毫米波信号受到高路径损耗和强阻挡敏感性的影响，这使得在非视距（NLOS）场景中实现可靠覆盖变得具有挑战性。为了克服这些限制，网络架构越来越多地采用 UDN [2]，其中部署了大量小型基站以减少传输距离并保持一致连接，典型的城市密度为 50 至 200 个 gNB/km2。毫米波和 UDN 的结合支持了 5G 及未来应用（如扩展现实、自主系统和工业自动化）所需的高吞吐量、超低延迟和大规模连接性。

尽管毫米波技术具有诸多优势，但它也给移动性管理带来了重大挑战。其中一个核心问题源于毫米波信号的固有特性，例如其有限的传播范围、较差的穿透障碍物的能力以及对大气颗粒、建筑物甚至人体的高吸收损耗敏感性 [3]。这些限制导致链接质量极不稳定，特别是在高移动性场景中。为了在这种动态条件下保持连接，网络必须频繁触发切换过程，将用户的连接从一个基站切换到另一个基站 [4]。然而，许多切换是反应性的且不必要的，几乎没有或根本没有实际的吞吐量或信号强度提升。这导致资源利用效率低下、信令开销增加，最终用户体验下降，因为用户可能会遇到频繁的服务中断。此外，传统的切换决策机制是为低频段和更稳定的链接设计的，通常不适用于毫米波 UDN。在 [5] 中进一步研究了毫米波 UDN 中冗余切换问题的严重性，研究表明切换率受到障碍物类型和网络密度的强烈影响。例如，在城市环境中以 25 km/h 移动的用户可能会每秒经历多达五次切换。同样，在大型移动物体（如卡车）存在的情况下，切换率可能达到每秒两次。因此，主要挑战在于开发一种机制，以最小化冗余切换，从而提高网络效率和用户体验。

因此，本研究旨在开发一种智能的切换决策框架，以解决当前毫米波 UDN 方法的局限性。大多数现有的切换决策方法通常适用于低到中等移动性场景，通常依赖于静态决策策略或预定义的移动性模型。这些方法缺乏灵活性，无法应对毫米波环境的动态和复杂性，特别是在高速条件下。例如，在 [6] 中探索了一种基于移动性趋势的实证算法，但它忽略了动态环境的影响。此外，一些基于强化学习（RL）的技术在 [[7], [8], [9], [10]] 中展示了潜力。然而，它们的评估通常仅限于受限环境，不适用于高移动性。此外，在 [11] 中使用的统计学习方法由于使用固定阈值而在波动的无线电条件下难以适应，导致性能不佳。作为回应，本研究探索了一种针对毫米波 UDN 动态特性的学习方法。所提出的解决方案采用深度强化学习架构，能够持续适应不同的用户速度和环境条件。通过利用 A2C 算法，该框架能够学习超越静态阈值或基于规则的启发式的切换决策。主要目标是开发一种灵活、智能的切换策略，以适应多种移动性场景，并提高连接的稳定性和网络性能。本研究扩展了我们之前的工作 [12]，该工作提出了一种主要针对低移动性场景设计的基于 A2C 的切换决策方案。相比之下，当前工作引入了一种跳过切换的机制，动态调整切换决策频率，以提高在高移动性场景下的稳定性和性能效率。此外，我们在多种移动性设置下进行了广泛的实验，并进行了比较评估。因此，这些改进使当前工作成为我们之前工作的重大进展，因为它整合了跳过机制、全面的高移动性性能分析，并针对最先进算法进行了更广泛的验证。

本文重点探讨了在动态和高移动性条件下改进毫米波 UDN 中的切换决策策略，利用了深度强化学习的潜力。本研究的主要贡献如下：

我们提出了一个基于 DRL 的切换决策框架，利用 A2C 算法在动态网络条件下学习最优切换策略。

我们将跳过切换的机制集成到决策过程中，以抑制不必要的切换并提高移动性鲁棒性。

我们开发了一个全面且真实的仿真环境，模拟了密集的毫米波网络条件，包括用户移动性、信号阻挡和环境变化。

我们使用切换率和吞吐量评估所提出的方案，并将其与基准算法进行比较，以证明其稳定性和适应性。在两种极端移动性场景下的实验显示了一致的收敛性和性能提升。

本文的其余部分组织如下。第 2 节回顾了相关工作和毫米波 UDN 中的现有切换决策方法，指出了当前文献中的关键局限性，并解释了我们的方法如何解决这些差距。第 3 节描述了系统模型和仿真环境，介绍了 UDN 部署场景、信道特性、移动性模型和切换触发条件。第 4 节详细介绍了基于 A2C 算法的深度强化学习框架，包括 RL 环境、状态和动作表示、奖励函数的设计以及训练过程。此外，还描述了仿真设置和算法。第 5 节展示了仿真结果，提供了各种实验的分析和解释，并将所提出的方法与基准算法进行了比较。最后，第 6 节总结了主要发现并提出了未来的研究方向。

系统模型

本节概述了所提出方法中使用的整体系统模型，包括网络场景、用户移动模式和切换配置。目的是提供对实现所提出框架的仿真环境的清晰理解。

提出的框架

为了解决动态毫米波 UDN 环境中现有切换策略的局限性，我们提出了一个基于学习的框架，该框架利用了 A2C 算法。核心目标是实现智能和自适应的切换决策，以响应信号质量和用户移动性的实时变化。本节介绍了架构、状态和动作定义，以及指导代理学习过程的奖励函数设计。

实验结果

本节基于一系列大规模仿真实验，对所提出的切换决策框架进行了性能评估。所有仿真都在配备 Intel? Core? i7-12700 CPU @ 2.10GHz、16 GB RAM 和集成 Intel? UHD Graphics 770 的工作站上执行。实现是在 Python 3.11 环境中进行的，使用 TensorFlow 2.15.0 进行训练和推理。用于运行仿真的代码以及参数

结论

在这项研究中，我们提出了一种针对毫米波频谱中 UDN 环境设计的新颖切换决策框架。主要目标是减少密集网络部署中固有的频繁切换频率，同时确保移动用户的可靠吞吐量性能。为此，我们基于 A2C 算法开发了一种自适应切换方案，这是最著名的在线策略 RL 技术之一。评估结果揭示了几个关键发现：

作者贡献声明 Abate Selamawit Chane：撰写——原始草稿、可视化、验证、软件、方法论、形式分析、数据整理、概念化。Harun Ur Rashid：撰写——审阅与编辑、验证、方法论、形式分析、概念化。Kamrul Hasan：撰写——审阅与编辑、验证、概念化。Awoke Loret Abiy：撰写——审阅与编辑、验证、概念化。Seong Ho Jeong：撰写——审阅与编辑、验证、监督、资源、项目

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关文献

相关研究

系统模型

提出的框架

实验结果

结论

热点排行

新闻专题