深度强化学习与基于启发式的动态切换迁移技术在低地球轨道卫星网络中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Swarm and Evolutionary Computation》：Deep reinforcement learning and heuristic-based dynamic switch migration for Low Earth Orbit satellite networks

【字体：大中小】 时间：2026年02月03日 来源：Swarm and Evolutionary Computation 8.5

编辑推荐：

　　针对低地球轨道卫星网络动态拓扑和负载不均问题，提出基于深度强化学习和启发式方法的动态交换迁移算法DSM-DH，分阶段优化控制关系与恢复内部连接，实验证明其显著提升网络性能。

邓勇|姚峰|朱江汉

国防科技大学系统工程学院，中国湖南长沙410073

摘要

软件定义网络（SDN）的集中控制架构和可编程特性为优化低地球轨道（LEO）卫星网络性能提供了重要机会。然而，LEO卫星网络拓扑结构的变化和用户分布的不均匀性导致控制器负载不平衡，因此需要自适应的控制器-交换机映射机制来维持控制器之间的最佳负载分布。大多数现有的迁移策略忽视了整体网络性能，导致迁移质量不佳。此外，它们未能解决迁移过程中孤立节点的问题，这对网络可靠性和安全性产生了不利影响。为了解决这些问题，我们构建了一个数学优化模型，其目标是在控制器容量和域内交换机连接性等约束条件下，最小化延迟并实现控制器负载均衡。为了解决该模型，我们提出了一种基于深度强化学习和启发式方法的动态交换机迁移算法（DSM-DH），该算法包括两个阶段：控制关系优化和连接性恢复。在第一阶段，采用具有多神经网络架构的深度强化学习（DRL）框架，结合动态

?

-贪婪策略和优先级经验回放机制，以全面优化控制关系，同时满足控制器容量约束。在第二阶段，使用启发式方法处理迁移过程中出现的孤立节点。在不违反控制器容量约束的情况下，优先将孤立交换机迁移到负载最低的控制器上，从而最小化对第一阶段优化控制关系的干扰，实现每个域内交换机之间的完全连接。最后，通过仿真实验将DSM-DH算法与现有基准算法在包括延迟和负载均衡在内的几个关键性能指标上进行比较。结果表明，DSM-DH算法可以有效提高网络性能。

引言

作为地面网络的关键补充，LEO卫星网络越来越受到关注[1]、[2]、[3]、[4]、[5]。这些网络为陆地、海洋和空中用户提供了快速稳定的连接，并在地震和洪水等自然灾害期间提供紧急通信服务[6]。目前，如Starlink和OneWeb这样的巨型星座——由数万颗LEO卫星组成——正在积极部署中。它们的目标是建立一个覆盖范围广、高效且成本效益高的卫星互联网，整合语音、数据、视频等服务，这将在全球电信中发挥关键作用[7]。

然而，传统的卫星网络在可扩展性和网络管理与配置方面存在不足，阻碍了与地面网络的无缝集成，并阻碍了根据不同用户需求提供精细服务的实现[8]、[9]、[10]。相比之下，SDN是一种高度灵活且可扩展的网络架构，它将控制平面与数据平面分离，实现了网络资源的集中和灵活管理。在SDN架构中，控制平面通过控制器实现全网状态感知和策略制定，而数据平面负责通过交换机进行高速转发。这种架构支持全局网络行为管理，能够高效适应复杂和动态的用户需求。利用开放的可编程接口，管理员可以动态部署路由和安全等策略，而无需逐设备进行配置，提供了高灵活性。同时，它具有显著的可扩展性优势。控制层可以通过分布式集群架构进行扩展，数据层与标准化的转发设备兼容。此外，网络功能可以虚拟化为软件实例，用户可以集成第三方应用程序或弹性扩展服务能力。这种架构范式使网络能够适应动态变化的拓扑结构和服务需求，使得SDN特别适合具有时变拓扑和不均匀资源分布的LEO卫星环境。通过将LEO卫星网络与SDN技术相结合，通过SDN控制器的全局视角进行集中管理，可以提高网络管理效率并增强灵活性。如图1所示，基于SDN的LEO卫星网络架构包括由所有LEO卫星（每个卫星都充当一个交换机）组成的数据平面，以及部署在选定LEO卫星上的控制器实现的控制平面。地面基础设施包括网关和控制中心，而用户范围从飞机等空中设备到地面车辆。然而，LEO卫星网络的动态网络拓扑、有限的资源和不均匀的用户分布使得通过静态控制器-交换机关系确保稳定高效的数据传输变得具有挑战性。因此，根据网络状态动态调整控制关系对于优化网络性能至关重要。

一方面，LEO卫星的高速运动导致频繁的拓扑变化，需要控制器和交换机之间的控制关系适应这种动态变化。现有研究提出了两种迁移策略范式：控制器迁移和交换机迁移[11]、[12]。控制器迁移需要将控制器重新定位到其他卫星上，这涉及解散现有的控制关联并将控制器重新分配给交换机。由于其巨大的资源需求，这种方法对于资源受限的LEO卫星网络来说是不可行的[12]。相反，交换机迁移在保持控制器位置不变的情况下将交换机从原始控制器转移到新控制器上，提供了一种更节省资源的替代方案。交换机迁移的资源开销显著较低，特别适合资源有限的LEO卫星网络。

另一方面，用户需求的时空不均匀性可能导致某些区域的卫星资源闲置，而其他区域则过度负载。突发流量流进一步加剧了控制器负载不平衡，限制了现有SDN控制器的全局优化能力并降低了网络性能。因此，根据网络状态动态调整控制器-交换机映射对于实现控制器负载均衡至关重要。大多数现有的交换机迁移策略侧重于将负载最高的交换机从负担过重的控制器迁移到利用率较低的控制器上[13]、[14]、[15]。虽然这种方法可以平衡负载，但往往忽略了迁移引起的延迟成本，导致效率不佳[16]。尽管一些研究考虑了延迟因素，但它们主要针对高负载控制器，而没有全面优化控制器-交换机性能交互[17]、[18]、[19]。因此，交换机迁移策略必须整合负载平衡和延迟等多方面因素，以优化端到端的控制器-交换机性能。

此外，为了确保控制器能够高效可靠地管理域内交换机，必须保持每个控制域内交换机之间的完全连接，以防止同一控制域内的交换机之间的跨域通信。这种跨域通信可能会为域内交换机管理引入安全漏洞并使网络管理复杂化。然而，现有的交换机迁移策略研究对这些挑战关注有限。

因此，我们综合考虑了动态网络拓扑、控制器负载和域内交换机连接性等关键因素，建立了交换机迁移的数学模型。为了适应网络状态的实时变化并提高迁移质量，我们设计了结合DRL和启发式方法的动态交换机迁移算法，该算法能够在确保完全域内连接的同时实现高效的交换机迁移。本工作的主要贡献如下。

(1) 我们为基于SDN的LEO卫星网络中的交换机迁移开发了一个数学模型，考虑了动态拓扑、域内连接性约束和控制器容量限制，以共同最小化延迟和平衡控制器负载。

(2) 提出了DSM-DH算法，以优化网络延迟、负载均衡和域内连接性能。首先，将交换机迁移问题建模为马尔可夫决策过程（MDP），并设计了具有多神经网络架构的DRL框架来优化控制器和交换机之间的映射，从而在保持控制器负载均衡的同时实现接近最优的网络延迟。然后，开发了基于启发式的局部迁移算法来消除孤立节点，以确保每个控制域内交换机的完全连接。

(3) 我们设计了仿真实验，从平均延迟、控制器负载均衡、平均节点度和域内交换机连接性等方面将DSM-DH算法与基准算法进行比较。实验结果明确表明，所提出的算法在所有评估指标上均优于基准算法。

本文的其余部分结构如下：第2节回顾了当前的研究现状。第3节描述了系统模型并建立了交换机迁移的数学框架。第4节提出了结合深度强化学习和启发式方法的动态交换机迁移算法。第5节设计了仿真实验并验证了算法在多个维度上的性能。最后，第6节总结了本文的研究内容。

系统模型和问题描述

在本节中，我们介绍了LEO卫星网络中交换机迁移的系统模型和问题表述。为了更清楚地说明所研究的问题，首先介绍了一个卫星网络的交换机迁移场景。如图1所示，LEO卫星网络被逻辑划分为多个控制域，每个控制域都配备了一个控制器，负责管理和协调该域内所有交换机的通信行为。

交换机迁移算法

在本节中，我们提出了DSM-DH算法，结合了基于DRL的全局迁移（D-GM）机制来全面优化控制器和交换机之间的控制关系，以实现最小延迟和负载均衡的控制器，以及基于启发式的局部迁移（H-LM）模块来确保域内连接性。

实验评估

为了评估DSM-DH算法的性能，我们使用仿真软件构建了一个LEO卫星星座。设计了多种场景的实验，对多种算法进行比较评估，分析了每种方法的解决方案效果。仿真是在配备Intel Core i7处理器（2.3 GHz）和32 GB RAM的工作站上使用Python实现的。

结论

本文关注LEO卫星网络中的交换机迁移问题。首先，建立了一个动态交换机迁移问题的数学模型，考虑了多个因素，包括交换机之间的延迟、控制器之间的负载均衡以及每个域内控制器之间的完全连接性约束。其次，提出了结合DRL和启发式方法的DSM-DH算法，以优化控制延迟

CRediT作者贡献声明

邓勇：撰写——原始草稿、方法论、形式分析、概念化。姚峰：监督、概念化。朱江汉：监督。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了湖南省教育厅优秀青年研究项目（授权协议编号：24B1201）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作