AccLLM:通过算法与硬件的协同设计加速长上下文大语言模型(LLM)的推理速度

《IEEE Transactions on Very Large Scale Integration (VLSI) Systems》:AccLLM: Accelerating Long-Context LLM Inference via Algorithm-Hardware Co-Design

【字体: 时间:2026年02月11日 来源:IEEE Transactions on Very Large Scale Integration (VLSI) Systems 3.1

编辑推荐:

  本文提出AccLLM框架,通过算法(剪枝、Lambda形状注意力、W2A8KV4量化)与硬件(FPGA RCE引擎)协同设计,解决边缘设备部署大语言模型的计算密集、内存带宽高和长序列扩展性等问题,在Xilinx Alveo U280 FPGA上实现4.07倍能效和2.98倍吞吐量提升。

  

摘要:

近年来,大型语言模型(LLMs)在自然语言处理(NLP)领域取得了巨大成功,这推动了对将它们从云端部署到边缘设备的需求不断增长。然而,在资源受限的边缘设备上部署LLMs面临诸多挑战,包括:1)计算密集型任务;2)解码阶段的内存/带宽开销;3)长序列处理的可扩展性有限。为了解决这些问题,我们提出了AccLLM这一全面的加速框架,通过算法和硬件的协同设计实现了高效且快速的长上下文LLM推理。在算法层面,我们采用了以下技术:1)剪枝;2)Λ形注意力机制;3)创新的W2A8KV4量化方案(2位权重、8位激活值和4位键值缓存),从而有效降低了内存和带宽需求,同时提升了LLMs处理长序列的能力。在硬件层面,我们设计了一个基于FPGA的专用加速器,并配备了可重构计算引擎(RCE),能够灵活应对压缩算法所产生的各种计算任务,将算法创新转化为实际的硬件性能提升。我们在Xilinx Alveo U280 FPGA上对AccLLM进行了验证,结果表明其能效提升了4.07倍,吞吐量提升了2.98倍,相较于现有的FlightLLM技术取得了显著优势。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号