一种基于预测的感知层,用于在高性能计算集群上部署的LLM中的能源感知资源管理

【字体: 时间:2026年03月14日 来源:Sustainable Computing: Informatics and Systems 3.8

编辑推荐:

  针对多GPU环境LLM部署中的能耗与负载均衡挑战,本文提出基于实时GPU能耗遥测的模块化感知层,通过对比SNN、RNN、Transformer和SSSM等模型,发现GRU在30秒和1分钟窗口下MAE分别为7.97W和9.7W,为DRL或调度器提供可扩展的能效优化方案。

  
乔恩·阿吉雷-乌桑迪萨加(Jon Aguirre-Usandizaga)|安娜·I·托雷-巴斯蒂达(Ana I. Torre-Bastida)|米格尔·利纳雷斯·德拉普埃尔塔(Miguel Linares De la Puerta)|艾托尔·阿尔梅达(Aitor Almeida)
技术联盟(Tecnalia)、巴斯克研究与技术联盟(BRTA)、西班牙

摘要

在多图形处理单元(GPU)环境中部署大型语言模型(LLMs)面临能源消耗和负载分配方面的重大挑战。虽然大多数研究集中在优化推理吞吐量上,但缺乏将细粒度遥测数据与主动式、节能型负载平衡机制相结合的框架。本文提出了一种模块化的预测驱动感知层,该层利用近乎实时的GPU功耗遥测数据来实现优化的工作负载分配。通过使用来自高性能计算(HPC)集群的细粒度遥测数据,我们评估了包括脉冲神经网络(SNN)、循环神经网络(RNN)、Transformer和结构化状态空间模型(SSSM)在内的先进时间序列架构。这些模型分别在30秒和1分钟的时间范围内进行了评估,以实现近乎即时的负载平衡和系统的长期稳定性。研究结果表明,门控循环单元(GRU)在性能上表现优异,30秒时间窗口内的平均绝对误差(MAE)为7.97瓦,1分钟时间窗口内的MAE为9.7瓦。通过建立经过验证的预测框架,这种方法提供了一种即插即用的预测组件,可以集成到深度强化学习(DRL)或启发式调度器中,从而提高大规模LLM服务的可持续性和效率。

引言

自从OpenAI在2022年11月发布ChatGPT 3.5模型以来,大型语言模型(LLMs)的应用呈指数级增长,该模型基于人类反馈的强化学习概念设计,是一种免费可用的对话式AI工具[1]。此后,出现了许多新的LLMs,但它们都有一个共同的限制:它们优先考虑答案质量而非能源消耗,假设资源是无限的。通常,LLMs的部署包括多个强大的图形处理单元(GPUs)。正如[2]中所强调的,主要挑战之一在于如何在这些多个GPU之间分配任务以实现最佳并行化。传统的HPC能源管理侧重于批处理作业调度,但在针对LLM服务的实时、突发性需求进行能源感知分配方面存在特定的研究空白。当前的编排框架往往缺乏细粒度遥测数据与实时决策之间的必要集成,从而造成了“感知差距”,阻碍了主动节能策略的实施。这种方法很有前景,因为GPU的能耗与频率[3]和负载成线性关系。
在这项研究中,我们提出了一个专为LLM推理设计的预测驱动“感知层”。我们对各种用于高性能计算集群中功耗时间序列预测的AI技术进行了比较分析,选择了最具代表性的指标,并预测了每个GPU在两个不同时间窗口(30秒和1分钟)内的功耗。这些时间窗口的选择基于目标HPC环境中的实际调度时间尺度。这种选择满足了不同的运营目标:30秒的时间窗口旨在实现活跃请求的近乎即时负载平衡,而1分钟的时间窗口则提供了足够的预测范围以预测系统行为并保持稳定性。通过验证这些短期预测,我们为未来的动态能源-延迟权衡策略提供了必要的基础“框架”,而这些策略目前受到实时预测能力不足的制约。
为了解决这些差距,本研究的主要贡献包括:
  • 针对LLM服务量身定制的能源效率指标和技术的全面回顾,将其与通用HPC能源管理区分开来。
  • 设计了一种模块化的“感知层”架构,用于在多GPU环境中进行近乎实时的遥测数据收集和功耗预测,从而弥合原始数据收集与可操作负载平衡之间的差距。
  • 对先进AI模型进行比较基准测试,以确定能够为能源感知负载平衡决策提供最准确预测的模型。
本文的其余部分安排如下:第2节介绍了LLM服务的资源密集型特性及其在监控和预测能源及计算需求方面的挑战。第3节重点回顾了先进的AI驱动负载平衡方法。第4节详细介绍了用于监控高性能计算(HPC)集群中关键性能和能源指标的系统设计和实现。第5.1节概述了实验方法,并解释了在名为KATEA的实际HPC环境中的部署情况。第5.2节和第5.3节提供了所使用AI架构的详细信息。第6节评估并比较了各种AI技术的性能。最后,第7节讨论了研究结果和未来研究的潜在方向。

部分摘录

LLMs的能源监控与预测:背景与问题陈述

随着大型语言模型(LLMs)的迅速发展,科学界对其能源消耗的认识显著增加。由于这项技术的采用呈指数级增长,其能源足迹也随之扩大。然而,特定于技术的指标和能源缓解技术未能跟上步伐,导致部署与效率之间存在重大差距。一个明显的例子是与

相关工作

将人工智能集成到负载平衡系统中可以显著提高自动化程度和响应速度,从而减少用户不满和能源消耗。无效的负载平衡会导致拥堵、用户等待时间延长以及用户不满,同时由于节点饱和而消耗过多电力但性能不佳,进一步增加能源消耗。在负载平衡的背景下,AI可以分析实时遥测数据,

系统概述:面向LLM服务的智能能源感知负载平衡解决方案

所提出的系统是一种基于深度学习的解决方案,旨在支持LLM服务中的能源感知负载平衡。其主要目标是通过预测GPU能耗来实现工作负载的智能分配,从而在HPC环境中高效利用计算资源。
预测模型的选择和评估基于从KATEA集群收集的实际数据,该集群是一个GPU密集型基础设施,其中LLM推理活动频繁进行

面向能源感知负载平衡的预测模块实现

能源感知智能负载平衡系统的实现解决了在HPC环境中进行LLM推理时有效管理计算工作负载和能源消耗的关键问题。在本研究中,我们重点将“感知”组件作为架构基础进行操作化。该系统实现了基于AI的预测——作为架构的感知层——以预测GPU能源需求并提供负载分配的决策支持

实验与结果

系统的实验评估重点关注能源消耗预测模块,这是LLM服务中负载平衡的关键组成部分。主要目标是评估模型在30秒和1分钟时间间隔内的准确性和可靠性。

结论与挑战

所提出的系统展示了记录和分析高性能计算集群中LLM服务关键指标的显著能力,能够准确预测常见LLM服务器中每个GPU的功耗。通过确定GRU是短期预测中最高效和精确的架构,我们建立了一个经过验证的“感知层”,解决了硬件遥测数据与智能调度之间的现有差距。
本文提供了

CRediT作者贡献声明

乔恩·阿吉雷-乌桑迪萨加(Jon Aguirre-Usandizaga):撰写 – 审稿与编辑、撰写 – 原稿、可视化、验证、监督、软件、资源、方法论、调查、形式分析、数据管理。安娜·I·托雷-巴斯蒂达(Ana I. Torre-Bastida):撰写 – 审稿与编辑、撰写 – 原稿、监督、项目管理、方法论、调查、资金获取、形式分析、数据管理。米格尔·利纳雷斯·德拉普埃尔塔(Miguel Linares De la Puerta):方法论、数据管理、概念化。艾托尔·阿尔梅达(Aitor Almeida):撰写 –

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本项工作是在GRECO项目“通过绿色计算(GREen Computing)转变AI系统工程以提高效率和环境影响”框架下进行的,该项目由SPRI(巴斯克商业发展机构)在ELKARTEK计划下资助,授权编号为KK-2024/0090。作者衷心感谢TECNALIA提供的KATEA基础设施在计算实验和数据处理方面的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号