在具有交错并行性的分布式大型模型推理中实现动态延迟-吞吐量平衡

《ACM Transactions on Architecture and Code Optimization》:Dynamic Latency-Throughput Balancing in Distributed Large Model Inference with Interleaved Parallelism

【字体: 时间:2026年02月24日 来源:ACM Transactions on Architecture and Code Optimization

编辑推荐:

  针对分布式大型模型推理中延迟与吞吐量的平衡难题,提出Liger+系统,通过混合并行策略动态优化多GPU计算,结合任务感知批量管理和分布式运行时模块,实现计算与通信的交错调度,实验表明分类任务P90延迟降低43.8%,生成任务吞吐量提升1.53倍且延迟减少26.2%。

  
要查看此由 AI 生成的摘要,您必须具有高级访问权限。

摘要

摘要

分布式大型模型推理仍然面临着在成本和效果之间取得平衡的难题。在线场景需要张量并行性以实现低延迟,但由此产生的密集通信会增加成本。相比之下,流水线并行性能够实现高吞吐量并显著降低通信需求,但它无法提高每个请求的效率。一旦选择了并行策略,性能指标就固定下来了,这使得平衡相互竞争的目标变得具有挑战性。
在本文中,我们提出了 Liger+,这是一种分布式大型模型推理系统,能够在多 GPU 架构上动态平衡延迟和吞吐量。其核心思想是一种新颖的交错并行性,它将计算和通信交错进行。Liger+ 包括任务感知的批处理管理和分布式运行时模块。批处理管理模块根据判别性和生成性任务的特点组织批次,并将它们传递给运行时模块。分布式运行时模块策略性地调度多个请求的计算和通信内核到多个 GPU 的多个流上,从而实现这种新颖的交错并行性。首先,它通过结合 CPU-GPU 同步和流间同步,有效地精确控制内核执行顺序。其次,它引入了细粒度资源映射策略和竞争因子策略,以预测资源竞争可能带来的惩罚。第三,它在运行时将内核分解为更小、更易于管理的单元,从而实现更高的重叠程度。
广泛的评估表明,与固定并行策略相比,Liger+ 在大多数情况下能够动态满足更高的吞吐量需求,同时在不同模型和设备上实现更好的延迟。在 4 个设备的判别性任务中,Liger+ 将 P90 延迟降低了 43.8%,同时保持了与流水线并行性相同的吞吐量。与此同时,与张量并行性相比,它的吞吐量提高了 1.53 倍,P90 延迟也得到了改善。对于 4 个设备的生成性任务,Liger+ 的吞吐量平均提高了 1.15 倍,P90 延迟降低了 26.2%。

AI 摘要

要查看此由 AI 生成的通俗语言摘要,您必须具有高级访问权限。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号