基于深度强化学习的能量管理技术，应用于全双工超密集网络中，该网络支持小区切换和无线资源分配

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computer Communications》：Deep reinforcement learning based energy management in full-duplex ultra dense networks with cell switching and radio resource allocation

【字体：大中小】 时间：2026年02月09日 来源：Computer Communications 4.3

编辑推荐：

　　本文提出基于深度强化学习的全双工超密集网络（FD-UDNs）中联合基站睡眠管理和资源分配方案，以最大化能效并满足服务质量要求。通过分解问题为集中式/分布式基站睡眠管理和资源分配两个子问题，并设计双智能体强化学习架构（CSDRA和DSDRA），结合联邦学习优化动态网络环境下的性能。仿真表明新方法在能效和用户满意度上显著优于传统 centralized-DRL 和 HD-DRL 方法，且分布式方案接近集中式优化效果。

Tahere Rahmati|Behrouz Shahgholi Ghahfarokhi

伊斯法罕大学计算机工程系，伊朗伊斯法罕

摘要

随着流量负载的指数级增长和连接设备数量的增加，蜂窝网络需要提供更高的容量并支持大规模接入。全双工超密集网络（FD-UDNs）是一种有前景的技术，可以满足这些需求。然而，这些网络面临严重的能源消耗和干扰问题，如果管理不当，可能会对整体网络性能产生不利影响。本文提出了一种基于深度强化学习的解决方案，用于解决小型基站（SBS）的开关控制与资源分配问题，旨在最大化能源效率并满足服务质量（QoS）要求。为了降低复杂性，我们将问题分解为两个子问题：1）基站睡眠管理；2）功率和无线资源分配。对于基站睡眠管理，提出了两种方法：集中式和分布式。在集中式方法中，网络决定SBS的睡眠状态；在分布式方法中，每个SBS独立决定其睡眠状态。随后，通过将用户分配到活跃基站，每个基站为其用户分配传输功率和无线资源。仿真结果展示了所提出方法在能源效率和用户满意度方面的优越性，与之前的方法相比有所提升。此外，结果表明我们的分布式睡眠管理方法优于集中式方法。

引言

移动设备和物联网的前所未有的增长推动了蜂窝网络为用户提供大规模的接入能力和宽带。通过在目标区域部署大量低功耗的小型基站（SBSs），全双工（FD）超密集网络（UDNs）被广泛认为是实现更高频谱效率和支持大规模接入的关键技术之一[1,2]。由于UDNs中SBS的发射功率较低，它们为实施FD通信提供了理想的平台。然而，SBS的密集部署伴随着严重的干扰和能耗增加。因此，有效的干扰和能源管理对于促进FD-UDNs的部署至关重要。

由于对高频谱效率（SE）的需求，许多研究关注通过资源分配（RA）技术在FD-UDNs中优化吞吐量和SE[[3], [4], [5], [6], [7], [8], [9], [10]]。这些研究忽略了能源效率和功耗问题，这可能导致更高的能源成本和可持续性的降低。其他研究则将方向转向了FD蜂窝网络中的能源效率（EE）优化[[11], [12], [13], [14], [15]]。然而，这些研究忽略了超密集部署的特点，即SBS的数量通常超过活跃用户数量，导致许多SBS未得到充分利用。减少能耗和干扰的一个关键策略是关闭这些闲置的SBS，仅保持必要的基站处于活跃状态。

基站睡眠作为一种有效的方法被广泛采用，以减少超密集网络中的能耗[[16], [17], [18], [19], [20], [21], [22], [23]]。然而，其在FD-UDNs中的应用受到的关注较少。现有的FD研究要么专注于自回传[24,25]，要么依赖于集中式的传统优化[26]。方法[26]在网络不断变化的情况下存在较高的信号开销和计算负担，这突显了需要可扩展、自适应的解决方案。

简而言之，将资源分配和基站睡眠技术相结合在解决FD-UDNs中的干扰和能耗问题方面非常有效。据我们所知，针对动态特性和无线网络持续变化的自适应联合资源分配和基站睡眠问题在FD-UDNs中尚未得到充分探索。为了填补这一空白，我们提出了基于强化学习（RL）的算法，以实时自适应地优化资源分配和基站睡眠，从而提升整体网络管理。本文的主要贡献如下：

•

开发了一个混合框架，用于在服务质量（QoS）约束下联合优化FD-UDNs中的基站睡眠和资源管理，以最大化能源效率。该框架采用混合整数非线性规划（MINLP）进行优化，并将其分解为两个子问题：（1）基站睡眠管理（SM）和（2）资源分配。首先优化基站的开关状态，然后进行资源分配优化，这个过程会迭代进行，直到收敛。

•

我们引入了新的性能指标，包括空闲子信道速率（FSR）、全双工速率（FDR）、满意度（SR）和不满惩罚（DP），这些指标量化了各种网络特性。这些指标被整合到基于RL的解决方案中，以指导优化过程。

•

我们设计了两种用于FD-UDNs联合优化的新型DRL架构：CSDRA框架采用集中式睡眠调度和分布式资源分配的混合控制方案；DSDRA框架则完全分布式，每个SBS自主管理其睡眠状态和用户资源。

•

与大多数仅通过资源分配来最大化网络能源效率的FD研究不同，我们的工作结合了基站睡眠和资源分配，以实现更大的节能效果和更好的干扰管理。虽然参考文献[26]探索了类似的策略，但其传统优化方法在动态网络环境中会产生较高的计算和信号开销。参考文献[17]也同时应用了这两种策略，但仅关注下行用户（DL），不适合FD-UDNs。我们的框架同时考虑了下行和上行用户。我们还纳入了更广泛的网络参数，并利用联邦学习（FL）来提高基于双重代理的RL框架的性能。表1展示了我们方法与相关顶级研究的比较。

我们还提供了证据，证明我们提出的方法在可扩展性方面优于[26]的方法，并且在性能上超过了[17]的基于HD的DRL方法（在FD环境中实现了更高的EE和满意度）。此外，我们的DSDRA方法在性能上接近[26]的方法的结果。

本文的其余部分结构如下：第2节介绍系统模型和问题表述；第3节描述了基于RL的解决方案；第4节提供了计算和信号分析；第5节展示了仿真场景和评估结果；第6节总结了本文。

系统模型和问题表述

在本节中，我们首先讨论系统模型，然后将所提出的问题表述为一个MINLP优化问题。

提出的基于DRL的解决方案

所提出的方法旨在确定SBS的睡眠状态、子信道分配和功率调整，以最大化能源效率。为此，引入了新的性能指标，包括空闲子信道速率、全双工速率、满意度和不满惩罚，以量化各种网络特性并指导优化过程（第3.1节）。然后，问题被分为两部分：1）SBS睡眠管理；2）无线资源分配。

复杂性和开销分析

本节全面分析了所提出方法的计算复杂性和信号开销，考虑了训练和推理阶段。在计算复杂性方面，我们关注影响SBS和MBS训练和决策过程效率的主要计算操作。训练D3QN的计算成本取决于多个因素，包括网络架构和交互次数

性能评估

在本节中，对所提出的方法进行了评估，并与以往的工作进行了比较。参考文献[4,17,26]中的方法被用作基准，以评估所提出的基于RL的算法的性能。接下来介绍了仿真设置，并通过改变最小所需数据速率、SBS数量和用户数量，比较了这些方法在能源效率和用户满意度方面的表现。

结论

本文通过提出基于DRL的解决方案，解决了FD-UDNs中的资源和能源管理问题，实现了SBS睡眠和资源管理的联合优化。所提出的方法旨在在确保用户最低需求速率的同时优化能源效率。在基站睡眠管理方面，提出了集中式和分布式方案。在集中式方法中，MBS决定SBS的睡眠状态；在分布式方法中，每个SBS独立决定其睡眠状态。

CRediT作者贡献声明

Tahere Rahmati：撰写——原始草稿、可视化、验证、软件开发、方法论、形式分析、数据整理、概念化。Behrouz Shahgholi Ghahfarokhi：撰写——审阅与编辑、验证、监督、资源协调、项目管理、方法论、研究调查、资金获取、形式分析、概念化。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

致谢

本工作部分得到了伊朗国家科学基金会的支持，资助编号为98000254。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号