今日动态 返回首页
会员注册 登录 生物通快讯免费订阅
  • 首页 今日动态 人才市场 新技术专栏 中国科学人 云展台
    BioHot
    • 定制我的BioHot
    • 进入我的BioHot
    • 进入我的集采
    • 肿瘤癌症研究
    • 免疫/基因/细胞疗法
    • 神经生物学
    • 健康与疾病
    • 衰老机制与长寿
    • 单细胞技术
    • 基因编辑-CRISPR
    • RNA研究
    • 肠道菌与人体微生态
    • 细胞代谢
    • AI生物信息学
    • COVID
    云讲堂直播 会展中心 特价专栏 技术快讯 免费试用

  • 生物通官微
    陪你抓住生命科技
    跳动的脉搏

生物通首页  >  今日动态  >  正文

设备端大型语言模型:模型压缩与系统优化综述

《ARTIFICIAL INTELLIGENCE REVIEW》:On-device large language models: a survey of model compression and system optimization

【字体: 大 中 小 】 时间:2026年05月23日 来源:ARTIFICIAL INTELLIGENCE REVIEW 13.9

编辑推荐:

   摘要 大型语言模型越来越多地被部署在设备端和边缘计算环境中,在这些环境中,内存容量、带宽、延迟和隐私要求对系统性能有着决定性影响。本综述系统地梳理了从算法到系统的整个端侧技术栈。在模型层面,我们提出了量化、剪枝、知识蒸馏、低秩适应和混合管道等技术的清晰分类,解

  

摘要

大型语言模型越来越多地被部署在设备端和边缘计算环境中,在这些环境中,内存容量、带宽、延迟和隐私要求对系统性能有着决定性影响。本综述系统地梳理了从算法到系统的整个端侧技术栈。在模型层面,我们提出了量化、剪枝、知识蒸馏、低秩适应和混合管道等技术的清晰分类,解释了各种代表性方法的应用场景及其组合方式。在系统层面,我们将这些技术与推理框架、编译器和运行时优化、内核融合以及键值(KV)缓存的管理相结合。此外,我们提出了一种统一的ALEM(Accuracy, Latency, Energy, Memory)协议,并在参数量从10亿到40亿不等的代表性模型上对其进行了验证,以揭示实际应用中的权衡方案:首先对内存和时间进行量化处理;将结构化剪枝与可合并的低秩补偿技术相结合;通过分页、压缩和淘汰机制将KV缓存视为一个重要的子系统进行管理。最后,我们指出了当前存在的问题和未来的研究方向,包括一个统一的低比特处理流程,该流程将变换、校准和内核融合结合起来;对结构化剪枝和知识蒸馏技术进行联合优化;以及实现训练和服务的统一化,将稀疏化、量化和低秩化的参数转换为可直接用于推理的权重。我们的目标是构建一座从算法压缩到资源高效、适用于设备端和边缘计算环境的实用桥梁。https://github.com/LumosJiang/Awesome-On-Device-LLMs:该仓库存放了第3节至第4节的完整参考文献。

大型语言模型越来越多地被部署在设备端和边缘计算环境中,在这些环境中,内存容量、带宽、延迟和隐私要求对系统性能有着决定性影响。本综述系统地梳理了从算法到系统的整个端侧技术栈。在模型层面,我们提出了量化、剪枝、知识蒸馏、低秩适应和混合管道等技术的清晰分类,解释了各种代表性方法的应用场景及其组合方式。在系统层面,我们将这些技术与推理框架、编译器和运行时优化、内核融合以及键值(KV)缓存的管理相结合。此外,我们提出了一种统一的ALEM(Accuracy, Latency, Energy, Memory)协议,并在参数量从10亿到40亿不等的代表性模型上对其进行了验证,以揭示实际应用中的权衡方案:首先对内存和时间进行量化处理;将结构化剪枝与可合并的低秩补偿技术相结合;通过分页、压缩和淘汰机制将KV缓存视为一个重要的子系统进行管理。最后,我们指出了当前存在的问题和未来的研究方向,包括一个统一的低比特处理流程,该流程将变换、校准和内核融合结合起来;对结构化剪枝和知识蒸馏技术进行联合优化;以及实现训练和服务的统一化,将稀疏化、量化和低秩化的参数转换为可直接用于推理的权重。我们的目标是构建一座从算法压缩到资源高效、适用于设备端和边缘计算环境的实用桥梁。https://github.com/LumosJiang/Awesome-On-Device-LLMs:该仓库存放了第3节至第4节的完整参考文献。

相关新闻
生物通微信公众号
生物通新浪微博
微信
新浪微博
我要投稿
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:端侧大语言模型的技术栈 量化、剪枝、蒸馏、低秩适应|ALEM 协议|内核融合与 KV 缓存优化|推理框架与编译器优化|资源高效架构|模型压缩方案

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号