异构网络中改进的PCI分配：一种具有动态调整功能的深度强化学习方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computer Communications》：Enhanced PCI allocation in heterogeneous networks: A deep reinforcement learning approach with dynamic adjustments

【字体：大中小】 时间：2026年03月16日 来源：Computer Communications 4.3

编辑推荐：

　　基于深度Q网络的异构网络PCI分配优化方法，提出动态调整机制（R-DAM/E-DAM/A-DAM）和EMA算法优化目标值计算，有效降低PCI冲突与混淆，仿真显示EMA损失值稳定低于0.5并趋近10^-4。

Jiani Li|Heng Yang|Zhenyu Liu|Yibo Ming|Xia Ren

沈阳工业大学信息科学与工程学院，中国辽宁省沈阳市110870

摘要

随着5G网络的普及，管理网络复杂性和解决物理小区标识（PCI）冲突变得越来越具有挑战性。本研究介绍了一种基于DQN（深度Q网络）的方法，该方法针对异构网络进行了优化，有效解决了PCI冲突和混淆问题。通过将强化学习与神经网络相结合，该模型引入了动态调整机制——R-DAM、E-DAM和A-DAM——以提高适应性和效率。此外，指导策略和EMA（指数移动平均）算法能够动态调整预期奖励，快速反映状态变化，优先处理需要PCI调整的节点，从而加速收敛。仿真结果证实了该模型在显著减少PCI冲突和混淆方面的有效性，损失值（

{\overset{?}{L}}_{EMA}

）始终低于0.5，并降至

1 0^{? 4}

的水平，进一步展示了其鲁棒性和适应性。尽管取得了这些进展，但在将解决方案扩展到更大、更复杂的网络方面仍存在挑战。本文不仅为未来的网络管理技术进步奠定了基础，还强调了持续创新以跟上全球通信网络发展步伐的必要性。

引言

过去二十年互联网用户数量的指数级增长引发了基站和用户设备（UE）数量的激增，显著提高了对无线通信网络性能的要求。网络的密集化带来了巨大的管理和维护挑战。应对这些挑战不仅需要周密的网络布局规划，还需要有效分配和优化关键控制参数，如物理小区标识（PCIs）。正确的PCI规划对于准确的小区识别和最小化小区间干扰至关重要。此外，异构网络的引入通过将4G宏基站与5G基站集成，增强了覆盖范围和容量，为全面的5G部署奠定了基础。这一演变突显了需要先进的网络管理工具和策略，以适应不断变化的技术环境和不断增长的用户需求。

鉴于网络管理面临的日益严峻的挑战，关于PCI分配和优化的研究尤为广泛和关键。Abdulkareem等人提出了对传统图着色算法的改进，简化了PCI分配过程并更高效地利用了PCI资源[1]。在分布式PCI分配领域，Pratap等人开发了一种基于聚类的算法，减少了飞蜂窝中多次PCI重新配置的需求，从而提高了执行速度和收敛速度[2]。此外，Wu等人提出了一种用于LTE网络中家庭eNodeB的自主配置的自组织解决方案，替代了成本高昂且耗时的优化操作[3]。这些贡献展示了PCI分配领域的多种策略，强调了需要适应现代无线网络快速变化需求的可适应和高效解决方案的迫切性。这种持续的改进对于跟上技术和运营的变化至关重要，以确保网络管理的稳定性和响应性。

然而，在更大、更复杂的网络环境中进行PCI分配仍然存在挑战，因此需要开发创新的算法。例如，Liu等人提出了一种基于协作感知的资源分配和预编码算法，被广泛应用于新的双模网络[4]。此外，Krishnaswamy等人引入了一种用于5G网络的准量子随机图着色技术，利用虚拟小区标识符来促进接入节点之间的协调[5]。这些创新方法凸显了不断推进PCI分配策略的决心，以应对现代网络架构的复杂性和扩展性。通过整合先进的计算方法和突破性的理论模型，这些策略显著增强了网络管理系统的能力，为更复杂和更具弹性的无线通信基础设施铺平了道路。

本研究通过动态感知环境状态、奖励各种行为并识别能最大化这些奖励的策略，将强化学习集成到PCI分配中。进一步在该框架中结合了神经网络，根据当前状态精确估计每个行为的预期回报。这些方法共同构成了深度Q网络（DQN），有助于训练代理识别最优策略，从而有效解决PCI冲突和混淆问题。本研究为异构网络开发的DQN模型显著减轻了网络运营商的运营负担，减少了小区间的干扰，同时提高了小区边缘的通信质量，确保了最佳的用户体验。当前的研究在PCI分配和网络优化领域做出了几项关键贡献：

•
通过强化学习和神经网络形成DQN： 传统Q学习在处理高维状态和动作空间时面临挑战，因为Q表的局限性。通过集成处理状态和动作的神经网络来计算预期回报，有效地管理了这种复杂性，无需大型Q表，节省了大量存储空间。
•
使用EMA动态计算预期回报： 指数移动平均（EMA）对当前状态的数据应用不同的权重，强调最近的变化，以便快速适应新信息。该机制动态计算预期回报， $Q_{预测}$
，通过将上一周期的数据与需要进行PCI更改的节点的最新奖励相结合，使用权重因子 $λ_{EMA}$ 。

•

针对需要PCI更改的节点确定目标值： 该方法通过专注于需要PCI更改的节点而不是所有节点来细化目标值的计算过程，从而优化计算资源并加速收敛。QNet用于预测所有可能未来行为的预期回报，为需要PCI调整的节点选择最高的回报。

•

提高学习效率的动态调整机制： 引入了三种动态调整机制——奖励动态调整机制（R-DAM）、Epsilon动态调整机制（E-DAM）和Alpha动态调整机制（A-DAM）——以增强学习过程。R-DAM通过引导代理采取减少PCI更改的行为来加速收敛。E-DAM根据网络需求的变化调整探索和利用率。最后，A-DAM根据训练进度和平均损失函数的变化调整学习率，

{\overset{?}{L}}_{EMA}

，从较高的速率开始，随着观察到的改进逐渐降低速率以优化性能。

本文的其余部分组织如下。第2节回顾了相关工作，并总结了激发我们设计的开放性问题。第3节描述了异构网络中的PCI冲突和混淆情况，并确定了解决优先级。第4节介绍了系统模型和方法——一个基于DQN的集中式框架，包括EMA平滑、指导目标和三种动态调整机制，以及复杂性分析。第5节详细介绍了仿真环境并报告了数值结果。第6节总结了主要发现、局限性和未来方向。实验结果可在GitHub上获取，以便进一步探索和验证。

PCI挑战和解决优先级

本节详细阐述了PCI规划原则，特别强调了常见冲突类型的分类和优先级——包括模3、模4、模6和模30，以及PCI混淆现象。讨论突出了这些问题对网络性能的影响，从而为后续的设计和调整策略奠定了理论基础。

系统模型

本节将PCI分配置于现有技术的背景下，并指出了尚未解决的问题。传统的解决方法分为两类：图着色作用于冲突图，其顶点是小区，边编码了重用约束（例如，PCI模30/6/4/3）和重用距离；可行的着色避免了相邻小区的重用，但一旦解决后基本上是静态的。SON启发式使用邻居列表和重用距离规则进行局部响应；它们轻量级但前瞻性有限，难以应对复杂情况

仿真与分析

在第4节介绍的理论基础和架构设计的基础上，本节研究了所提出框架的实验部署和实证性能。进行了针对性的仿真和分析评估，以评估模型的操作有效性，验证动态调整机制在假设但现实条件下的影响，并量化PCI优化的改进。讨论进一步详细说明了

结论

随着用户设备和基站数量的增加，移动无线网络变得越来越密集，对更高性能的需求也在增加，这带来了重大的管理挑战。有效的PCI规划对于准确的小区识别和减少小区间干扰至关重要。本研究提出了一种基于深度Q网络（DQN）的集中式PCI分配框架，结合了强化学习和神经函数近似，高效估计回报，而无需依赖

CRediT作者贡献声明

Jiani Li：概念化、研究、方法论、软件、验证、可视化、初稿撰写、审阅与编辑。Heng Yang：概念化、方法论、项目管理、软件、监督、验证、审阅与编辑。Zhenyu Liu：概念化、资金获取、方法论。Yibo Ming：研究、验证、可视化。Xia Ren：验证、可视化。

利益冲突声明

作者声明在本文的发表过程中不存在利益冲突。

致谢

这项研究得到了辽宁省自然科学基金（资助编号：20180520022）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究