
-
生物通官微
陪你抓住生命科技
跳动的脉搏
设备端大型语言模型:模型压缩与系统优化综述
《ARTIFICIAL INTELLIGENCE REVIEW》:On-device large language models: a survey of model compression and system optimization
【字体: 大 中 小 】 时间:2026年05月23日 来源:ARTIFICIAL INTELLIGENCE REVIEW 13.9
编辑推荐:
摘要 大型语言模型越来越多地被部署在设备端和边缘计算环境中,在这些环境中,内存容量、带宽、延迟和隐私要求对系统性能有着决定性影响。本综述系统地梳理了从算法到系统的整个端侧技术栈。在模型层面,我们提出了量化、剪枝、知识蒸馏、低秩适应和混合管道等技术的清晰分类,解
大型语言模型越来越多地被部署在设备端和边缘计算环境中,在这些环境中,内存容量、带宽、延迟和隐私要求对系统性能有着决定性影响。本综述系统地梳理了从算法到系统的整个端侧技术栈。在模型层面,我们提出了量化、剪枝、知识蒸馏、低秩适应和混合管道等技术的清晰分类,解释了各种代表性方法的应用场景及其组合方式。在系统层面,我们将这些技术与推理框架、编译器和运行时优化、内核融合以及键值(KV)缓存的管理相结合。此外,我们提出了一种统一的ALEM(Accuracy, Latency, Energy, Memory)协议,并在参数量从10亿到40亿不等的代表性模型上对其进行了验证,以揭示实际应用中的权衡方案:首先对内存和时间进行量化处理;将结构化剪枝与可合并的低秩补偿技术相结合;通过分页、压缩和淘汰机制将KV缓存视为一个重要的子系统进行管理。最后,我们指出了当前存在的问题和未来的研究方向,包括一个统一的低比特处理流程,该流程将变换、校准和内核融合结合起来;对结构化剪枝和知识蒸馏技术进行联合优化;以及实现训练和服务的统一化,将稀疏化、量化和低秩化的参数转换为可直接用于推理的权重。我们的目标是构建一座从算法压缩到资源高效、适用于设备端和边缘计算环境的实用桥梁。https://github.com/LumosJiang/Awesome-On-Device-LLMs:该仓库存放了第3节至第4节的完整参考文献。
大型语言模型越来越多地被部署在设备端和边缘计算环境中,在这些环境中,内存容量、带宽、延迟和隐私要求对系统性能有着决定性影响。本综述系统地梳理了从算法到系统的整个端侧技术栈。在模型层面,我们提出了量化、剪枝、知识蒸馏、低秩适应和混合管道等技术的清晰分类,解释了各种代表性方法的应用场景及其组合方式。在系统层面,我们将这些技术与推理框架、编译器和运行时优化、内核融合以及键值(KV)缓存的管理相结合。此外,我们提出了一种统一的ALEM(Accuracy, Latency, Energy, Memory)协议,并在参数量从10亿到40亿不等的代表性模型上对其进行了验证,以揭示实际应用中的权衡方案:首先对内存和时间进行量化处理;将结构化剪枝与可合并的低秩补偿技术相结合;通过分页、压缩和淘汰机制将KV缓存视为一个重要的子系统进行管理。最后,我们指出了当前存在的问题和未来的研究方向,包括一个统一的低比特处理流程,该流程将变换、校准和内核融合结合起来;对结构化剪枝和知识蒸馏技术进行联合优化;以及实现训练和服务的统一化,将稀疏化、量化和低秩化的参数转换为可直接用于推理的权重。我们的目标是构建一座从算法压缩到资源高效、适用于设备端和边缘计算环境的实用桥梁。https://github.com/LumosJiang/Awesome-On-Device-LLMs:该仓库存放了第3节至第4节的完整参考文献。
生物通微信公众号