Morpheus：一种轻量级的实时传输（RTT）预测算法，用于性能敏感的负载均衡系统

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Future Generation Computer Systems》：Morpheus: Lightweight RTT Prediction for Performance-Aware Load Balancing

【字体：大中小】 时间：2026年03月04日 来源：Future Generation Computer Systems 6.2

编辑推荐：

　　针对Kubernetes调度器缺乏GPU感知和优化的问题，本文提出基于深度强化学习的DRL-MLS调度器，通过MDP建模和改进DQN算法实现GPU资源高效分配，实验表明平均任务完成时间降低22.22%，批处理完成时间减少5.91%。

董书伟|郑冰冰|潘莉|刘世军

山东大学软件学院，中国济南顺华路1500号，250101

摘要

随着对机器学习（ML）训练需求的不断增长，Kubernetes被广泛用于管理训练工作负载，利用其弹性扩展和自动故障恢复等先进特性。然而，在有效调度ML训练任务方面仍存在挑战。Kubernetes的默认调度器Kube-scheduler缺乏对GPU的支持，这限制了GPU资源的有效分配，并阻碍了训练任务的及时完成。此外，它更注重负载均衡等通用目标，而这可能与ML训练任务的主要目标（最小化完成时间）相冲突。为了解决这些问题，我们提出了基于深度强化学习（DRL）的定制Kubernetes调度器DRL-MLS，专门针对ML训练任务设计。我们将调度问题表述为一个马尔可夫决策过程（MDP），并精心设计了状态、动作和奖励机制。为了解决这个MDP，我们采用改进的深度Q网络（DQN）算法来训练决策代理。目标是减少平均任务完成时间和一批训练任务的总体完成时间。我们在一个包含九个节点的异构Kubernetes集群中实现了DRL-MLS，并在三种不同类型的工作负载下评估了其性能，每种工作负载都有四种不同的任务到达频率。实验结果表明，DRL-MLS的表现优于基线调度策略，平均任务完成时间减少了22.22%，批量任务完成时间减少了5.91%。

引言

随着机器学习（ML）的快速发展[1]，对ML模型训练的需求显著增加[2]，同时也迫切需要加快这些通常运行时间较长的训练任务的执行速度。因此，ML服务器集群在研究机构和工业界得到了广泛应用。与此同时，云计算[3]和容器化技术[4]的出现促进了Kubernetes[5]等容器编排框架的发展。容器提供了轻量级的隔离和便携性，有助于在集群上高效部署和管理ML训练工作负载。作为广泛采用的编排平台，Kubernetes自动化了容器化应用的部署、扩展和管理。因此，利用Kubernetes来管理容器化的ML训练任务成为了一个有效选择。它实现了对分布式资源的集中控制，支持弹性扩展，确保了任务隔离和容错性，并提高了应用程序部署的整体效率和弹性。

然而，Kubernetes在管理ML训练任务时面临两个主要限制。首先，默认调度器Kube-scheduler[6]缺乏对GPU的支持，这意味着它在调度决策中不会考虑GPU的状态[7]。因此，它经常无法为GPU密集型训练任务做出最佳分配。这些任务特别容易受到GPU模型异构性、GPU内存分配差异以及来自其他任务的干扰等因素的影响，所有这些都会显著影响训练完成时间。要启用Kube-scheduler的GPU感知功能，需要通过GPU设备插件进行额外配置。其次，Kube-scheduler是为通用工作负载设计的，更强调负载均衡等目标。然而，对于ML训练任务——尤其是在我们的场景中——用户更重视最小化任务完成时间，而不是通用性能目标。因此，默认调度器无法完全满足ML工作负载的特定需求。为了解决这些不足，Kubernetes支持集成带有定制调度算法的定制调度器，如Best Fit[8]、Shortest Job First (SJF)[9]或负载均衡策略[10]。尽管这些定制算法改进了默认调度器的性能，但它们通常依赖于静态启发式规则或手工制定的规则，这可能导致次优的调度决策。对于资源异构和ML训练任务多样化的复杂动态环境来说，这样的方法往往不够适用。

近年来，深度强化学习（DRL）[11]受到了广泛关注，并已在多个领域得到成功应用。由于其强大的决策能力，DRL在解决资源调度问题方面取得了显著成果，特别是在云计算中的资源分配和任务管理[12]以及边缘环境中的资源调度[13]方面。这些应用凸显了DRL在解决调度挑战方面的潜力，使其成为本研究中考虑的优化问题的合适基础。因此，我们采用DRL作为我们方法的核心优化技术。

本研究专注于优化Kubernetes中ML训练任务的调度，高效的调度需要考虑CPU、内存，尤其是GPU资源，以最小化任务完成时间。如图1所示，我们提出了基于DRL的调度器DRL-MLS，专为Kubernetes中的ML工作负载设计。DRL-MLS通过利用GPU设备插件将GPU状态纳入调度过程，扩展了Kubernetes的资源感知能力。系统中的决策代理采用基于DRL的模型。在我们的框架中，DRL-MLS将ML训练任务封装为容器化工作负载，并根据资源监控器提供的实时资源信息将它们分配到最合适的节点上。在模型训练过程中，我们通过引入延迟奖励、动作掩码和创新的奖励设计来改进深度Q网络（DQN）算法，使模型能够做出更明智和有效的调度决策。因此，DRL-MLS实现了两个主要优化目标：减少平均任务完成时间和一批训练任务的总体完成时间。

我们的主要贡献总结如下：

•

我们通过集成GPU设备插件增强了Kubernetes的资源感知能力，实现了GPU的可见性。基于此，我们提出了一种针对ML训练任务的新型调度方法，该方法考虑了异构资源特性[14]——包括CPU、内存、可用GPU内存和GPU类型——有效解决了现有调度策略的局限性。

•

我们使用改进的DQN算法进行模型训练，引入了延迟奖励、动作掩码和创新的奖励设计，以专门提升DQN在优化训练任务调度方面的性能。

•

我们开发了一种名为DRL-MLS的基于DRL的调度器。它可以收集集群中剩余的CPU、内存和GPU资源信息，以及运行任务的详细信息。调度器分析这些信息，并使用训练有素的模型作为决策代理来做出更好的调度决策。我们在一个异构Kubernetes集群中评估了其性能，使用了三种类型的工作负载（均匀分布、泊松分布和Alibaba集群跟踪），每种工作负载有四种不同的到达率。实验结果表明，与表现最好的基线调度方法相比，DRL-MLS将平均任务完成时间减少了22.22%，批量任务完成时间减少了5.91%。此外，我们在模拟集群中进行了多轮评估，证明DRL-MLS在小规模到大规模集群中都能保持强大的调度性能，并且在多种常用的强化学习（RL）基线和几种代表性调度器上实现了不同程度的改进。我们还进行了一系列消融研究，以量化每种提出的设计和优化对DRL-MLS整体性能的贡献。

本文的其余部分组织如下：第2节介绍背景和动机。第3节提供概述。第4节描述我们的模型设计。第5节给出性能评估结果。第6节回顾相关工作。最后，第7节总结本文。

章节摘录

背景和动机

在本节中，我们介绍了与我们的研究相关的背景和动机。首先，我们讨论了容器和Kubernetes。接下来，我们介绍了我们旨在优化的ML训练任务的详细信息。最后，我们重点介绍了强化学习方法，特别是深度Q网络（DQN）。

系统概述

在我们的研究中，大规模集群使用Kubernetes进行管理，包括一个主节点和多个工作节点。主节点负责任务调度和集群管理，而工作节点执行实际的任务工作负载。Kubernetes集群是异构的，意味着节点在硬件或软件配置上存在差异。

模型设计

在本节中，我们介绍了模型的设计细节和相应的训练过程。我们将Kubernetes集群上ML训练任务的调度表述为一个马尔可夫决策过程（MDP），该过程假设系统的下一个状态仅取决于当前状态，而不依赖于之前的事件序列。基于这种表述，我们定义了强化学习框架的基本要素：状态、动作和奖励。

性能评估

在本节中，我们进行了各种实验，以在不同设置下评估DRL-MLS，并与一系列基线调度器进行了对比。这些结果有助于验证我们提出的优化的有效性，证明了调度器在改善目标调度方面的有效性，并展示了其在不同场景下的鲁棒性和适用性。

结论与未来工作

Kubernetes是一个流行的容器编排框架，已成为云原生应用的事实标准。然而，Kubernetes的默认调度器Kube-scheduler主要关注常规应用和负载均衡等通用目标，没有考虑ML训练任务的特定需求。因此，其调度策略无法实现最小化平均任务完成时间等目标。在本文中，我们提出了一种定制的

CRediT作者贡献声明

董书伟：撰写——审阅与编辑，撰写——初稿，可视化，验证，软件，方法论，调查，形式分析，数据整理。郑冰冰：撰写——审阅与编辑，方法论，调查，概念化。潘莉：撰写——审阅与编辑，监督，项目管理，调查，概念化。刘世军：撰写——审阅与编辑，软件，资源获取，资金筹集。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号