MI-LLM:一种无需乘法运算的LLM推理技术,适用于内存处理型硬件设备

《IEEE Transactions on Computers》:MI-LLM: Multiplier-Free LLM Inference on Commodity Processing-in-Memory Hardware

【字体: 时间:2026年01月22日 来源:IEEE Transactions on Computers 3.8

编辑推荐:

  针对大语言模型(LLMs)内存瓶颈导致的计算资源利用率低问题,基于近内存PIM硬件提出MI-LLM系统。通过构建NBP感知的查找表(LUTs)替代乘法运算、优化缓存局部性、改进跨核心通信,实现9%吞吐量提升和11%能效增益,且困惑度仅增加0.24倍。

  

摘要:

大型语言模型(LLMs)在语言理解和生成方面表现出色。然而,LLM推理的一个突出问题是由于内存瓶颈导致计算利用率低,因为处理神经权重通常需要较大的内存容量和高带宽。通过将处理核心集成到内存中,处理内存(PIM)架构在缓解内存瓶颈方面表现出色;随着首款商用近内存银行PIM硬件(NBP)的发布,PIM已经可以现成使用,并在加速LLM推理方面显示出巨大潜力。然而,简单地将LLM推理移植到NBP上无法获得令人满意的性能,因为NBP存在一些固有限制:计算性能较弱、由于工作内存容量有限而频繁发生缓存未命中,以及PIM核心之间的通信带宽较差。为了解决这些限制,我们提出了MI-LLM,这是一种在NBP硬件上部署LLM推理的高效系统。其核心思想是构建基于NBP的查找表(LUTs),并完全用LUT上的查找操作替换乘法操作,从而减轻计算性能弱的限制。1)为了减少使用LUT导致的模型精度下降,MI-LLM采用了一种基于学习的LUT构建方法来保持模型精度。2)为了解决由于LUT大小远超过PIM工作内存容量而频繁发生的缓存未命中问题,MI-LLM引入了具有PIM感知能力的线性内核设计,并优化了行内和行间重排序,以提高LUT查找的局部性。3)MI-LLM进一步提出了一种模型分区方案,以最小化PIM核心之间的通信。内核级别的基准测试显示,与GPU实现相比,MI-LLM的吞吐量提高了9%,能效提高了11%。与FP8量化相比,MI-LLM的困惑度仅增加了0.24倍,证明了精度损失很小。此外,在我们的端到端评估中...

引言

大型语言模型彻底改变了自然语言处理领域,并在聊天机器人[1]、[2]、[3]、搜索[4]、虚拟助手[5]等领域得到了广泛应用。然而,在部署LLM时,一个主要挑战是内存瓶颈,这源于它们处理神经权重所需的大量内存容量和高带宽。目前,作为部署LLM的最常见选择,GPU由于内存瓶颈而存在计算资源利用率低和能效差的问题。以NVIDIA GPU为例,尽管其理论计算性能为38 TFLOPS,但现有的LLM推理系统中的线性内核仅能实现321 GFLOPS的峰值FLOPS,浪费了99%的计算能力。

相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号