MI-LLM：一种无需乘法运算的LLM推理技术，适用于内存处理型硬件设备

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Computers》：MI-LLM: Multiplier-Free LLM Inference on Commodity Processing-in-Memory Hardware

【字体：大中小】 时间：2026年01月22日 来源：IEEE Transactions on Computers 3.8

编辑推荐：

　　针对大语言模型（LLMs）内存瓶颈导致的计算资源利用率低问题，基于近内存PIM硬件提出MI-LLM系统。通过构建NBP感知的查找表（LUTs）替代乘法运算、优化缓存局部性、改进跨核心通信，实现9%吞吐量提升和11%能效增益，且困惑度仅增加0.24倍。

摘要：

大型语言模型（LLMs）在语言理解和生成方面表现出色。然而，LLM推理的一个突出问题是由于内存瓶颈导致计算利用率低，因为处理神经权重通常需要较大的内存容量和高带宽。通过将处理核心集成到内存中，处理内存（PIM）架构在缓解内存瓶颈方面表现出色；随着首款商用近内存银行PIM硬件（NBP）的发布，PIM已经可以现成使用，并在加速LLM推理方面显示出巨大潜力。然而，简单地将LLM推理移植到NBP上无法获得令人满意的性能，因为NBP存在一些固有限制：计算性能较弱、由于工作内存容量有限而频繁发生缓存未命中，以及PIM核心之间的通信带宽较差。为了解决这些限制，我们提出了MI-LLM，这是一种在NBP硬件上部署LLM推理的高效系统。其核心思想是构建基于NBP的查找表（LUTs），并完全用LUT上的查找操作替换乘法操作，从而减轻计算性能弱的限制。1）为了减少使用LUT导致的模型精度下降，MI-LLM采用了一种基于学习的LUT构建方法来保持模型精度。2）为了解决由于LUT大小远超过PIM工作内存容量而频繁发生的缓存未命中问题，MI-LLM引入了具有PIM感知能力的线性内核设计，并优化了行内和行间重排序，以提高LUT查找的局部性。3）MI-LLM进一步提出了一种模型分区方案，以最小化PIM核心之间的通信。内核级别的基准测试显示，与GPU实现相比，MI-LLM的吞吐量提高了9%，能效提高了11%。与FP8量化相比，MI-LLM的困惑度仅增加了0.24倍，证明了精度损失很小。此外，在我们的端到端评估中...

显示更多

引言

大型语言模型彻底改变了自然语言处理领域，并在聊天机器人[1]、[2]、[3]、搜索[4]、虚拟助手[5]等领域得到了广泛应用。然而，在部署LLM时，一个主要挑战是内存瓶颈，这源于它们处理神经权重所需的大量内存容量和高带宽。目前，作为部署LLM的最常见选择，GPU由于内存瓶颈而存在计算资源利用率低和能效差的问题。以NVIDIA GPU为例，尽管其理论计算性能为38 TFLOPS，但现有的LLM推理系统中的线性内核仅能实现321 GFLOPS的峰值FLOPS，浪费了99%的计算能力。

联系信箱：

粤ICP备09063491号

摘要：

引言

热点排行