AccLLM:通过算法与硬件的协同设计加速长上下文大语言模型(LLM)的推理速度
《IEEE Transactions on Very Large Scale Integration (VLSI) Systems》:AccLLM: Accelerating Long-Context LLM Inference via Algorithm-Hardware Co-Design
【字体:
大
中
小
】
时间:2026年02月11日
来源:IEEE Transactions on Very Large Scale Integration (VLSI) Systems 3.1
编辑推荐:
本文提出AccLLM框架,通过算法(剪枝、Lambda形状注意力、W2A8KV4量化)与硬件(FPGA RCE引擎)协同设计,解决边缘设备部署大语言模型的计算密集、内存带宽高和长序列扩展性等问题,在Xilinx Alveo U280 FPGA上实现4.07倍能效和2.98倍吞吐量提升。
摘要:
近年来,大型语言模型(LLMs)在自然语言处理(NLP)领域取得了巨大成功,这推动了对将它们从云端部署到边缘设备的需求不断增长。然而,在资源受限的边缘设备上部署LLMs面临诸多挑战,包括:1)计算密集型任务;2)解码阶段的内存/带宽开销;3)长序列处理的可扩展性有限。为了解决这些问题,我们提出了AccLLM这一全面的加速框架,通过算法和硬件的协同设计实现了高效且快速的长上下文LLM推理。在算法层面,我们采用了以下技术:1)剪枝;2)Λ形注意力机制;3)创新的W2A8KV4量化方案(2位权重、8位激活值和4位键值缓存),从而有效降低了内存和带宽需求,同时提升了LLMs处理长序列的能力。在硬件层面,我们设计了一个基于FPGA的专用加速器,并配备了可重构计算引擎(RCE),能够灵活应对压缩算法所产生的各种计算任务,将算法创新转化为实际的硬件性能提升。我们在Xilinx Alveo U280 FPGA上对AccLLM进行了验证,结果表明其能效提升了4.07倍,吞吐量提升了2.98倍,相较于现有的FlightLLM技术取得了显著优势。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号