AccLLM：通过算法与硬件的协同设计加速长上下文大语言模型（LLM）的推理速度

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Very Large Scale Integration (VLSI) Systems》：AccLLM: Accelerating Long-Context LLM Inference via Algorithm-Hardware Co-Design

【字体：大中小】 时间：2026年02月11日 来源：IEEE Transactions on Very Large Scale Integration (VLSI) Systems 3.1

编辑推荐：

　　本文提出AccLLM框架，通过算法（剪枝、Lambda形状注意力、W2A8KV4量化）与硬件（FPGA RCE引擎）协同设计，解决边缘设备部署大语言模型的计算密集、内存带宽高和长序列扩展性等问题，在Xilinx Alveo U280 FPGA上实现4.07倍能效和2.98倍吞吐量提升。

摘要：

近年来，大型语言模型（LLMs）在自然语言处理（NLP）领域取得了巨大成功，这推动了对将它们从云端部署到边缘设备的需求不断增长。然而，在资源受限的边缘设备上部署LLMs面临诸多挑战，包括：1）计算密集型任务；2）解码阶段的内存/带宽开销；3）长序列处理的可扩展性有限。为了解决这些问题，我们提出了AccLLM这一全面的加速框架，通过算法和硬件的协同设计实现了高效且快速的长上下文LLM推理。在算法层面，我们采用了以下技术：1）剪枝；2）Λ形注意力机制；3）创新的W2A8KV4量化方案（2位权重、8位激活值和4位键值缓存），从而有效降低了内存和带宽需求，同时提升了LLMs处理长序列的能力。在硬件层面，我们设计了一个基于FPGA的专用加速器，并配备了可重构计算引擎（RCE），能够灵活应对压缩算法所产生的各种计算任务，将算法创新转化为实际的硬件性能提升。我们在Xilinx Alveo U280 FPGA上对AccLLM进行了验证，结果表明其能效提升了4.07倍，吞吐量提升了2.98倍，相较于现有的FlightLLM技术取得了显著优势。

联系信箱：

粤ICP备09063491号

摘要：

热点排行