设备端大型语言模型：模型压缩与系统优化综述

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ARTIFICIAL INTELLIGENCE REVIEW》：On-device large language models: a survey of model compression and system optimization

【字体：大中小】 时间：2026年05月23日 来源：ARTIFICIAL INTELLIGENCE REVIEW 13.9

编辑推荐：

　　摘要大型语言模型越来越多地被部署在设备端和边缘计算环境中，在这些环境中，内存容量、带宽、延迟和隐私要求对系统性能有着决定性影响。本综述系统地梳理了从算法到系统的整个端侧技术栈。在模型层面，我们提出了量化、剪枝、知识蒸馏、低秩适应和混合管道等技术的清晰分类，解

摘要

大型语言模型越来越多地被部署在设备端和边缘计算环境中，在这些环境中，内存容量、带宽、延迟和隐私要求对系统性能有着决定性影响。本综述系统地梳理了从算法到系统的整个端侧技术栈。在模型层面，我们提出了量化、剪枝、知识蒸馏、低秩适应和混合管道等技术的清晰分类，解释了各种代表性方法的应用场景及其组合方式。在系统层面，我们将这些技术与推理框架、编译器和运行时优化、内核融合以及键值（KV）缓存的管理相结合。此外，我们提出了一种统一的ALEM（Accuracy, Latency, Energy, Memory）协议，并在参数量从10亿到40亿不等的代表性模型上对其进行了验证，以揭示实际应用中的权衡方案：首先对内存和时间进行量化处理；将结构化剪枝与可合并的低秩补偿技术相结合；通过分页、压缩和淘汰机制将KV缓存视为一个重要的子系统进行管理。最后，我们指出了当前存在的问题和未来的研究方向，包括一个统一的低比特处理流程，该流程将变换、校准和内核融合结合起来；对结构化剪枝和知识蒸馏技术进行联合优化；以及实现训练和服务的统一化，将稀疏化、量化和低秩化的参数转换为可直接用于推理的权重。我们的目标是构建一座从算法压缩到资源高效、适用于设备端和边缘计算环境的实用桥梁。https://github.com/LumosJiang/Awesome-On-Device-LLMs：该仓库存放了第3节至第4节的完整参考文献。

联系信箱：

粤ICP备09063491号

摘要

热点排行