FRM-PTQ：一种针对大型语言模型的特征关系匹配增强型低比特量化方法（用于训练后量化）

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：FRM-PTQ: Feature Relationship Matching Enhanced Low-Bit Post-Training Quantization for Large Language Models

【字体：大中小】 时间：2026年01月18日 来源：Neural Networks 6.3

编辑推荐：

　　提出FRM-PTQ框架，通过特征关系匹配和结构级分布对齐缓解低比特量化性能损失，结合多粒度分组量化实现高效压缩，在LLaMA-3等模型中实现W4A4场景近全精度，内存减少3.17倍，速度提升2倍。

赵超|张淼|赵佳琪|王莉|关伟莉|聂立强

哈尔滨工业大学（深圳），中国广东省深圳市，518057

摘要

训练后量化（Post-Training Quantization，简称PTQ）已成为一种有效的方法，用于降低大型语言模型（LLMs）推理过程中的内存和计算需求。然而，现有的PTQ方法对超低比特量化非常敏感，会导致显著的性能损失，这一问题在最近发布的先进模型如LLaMA-3和LLaMA-3.1中变得更加严重。为了解决这一挑战，我们提出了一种新的PTQ框架，称为FRM-PTQ，该方法通过引入特征关系匹配来减少低比特量化带来的性能下降。FRM-PTQ结合了基于块内自蒸馏框架的令牌级关系建模和结构级分布对齐，从而有效缓解了性能下降问题。与传统仅关注点对点差异的MSE损失方法不同，FRM-PTQ能够捕捉高维空间中的特征表示，有效弥合量化块和全精度块之间的表示差距。此外，我们还提出了一种多粒度分组量化技术，该技术根据解码器块的量化敏感性定制了内核，进一步减轻了量化性能下降。广泛的实验结果表明，我们的方法在W4A4低比特场景下表现出色，保持了接近全精度的准确性，同时实现了2倍的吞吐量提升和3.17倍的内存减少。这一优势在LLaMA-3、LLaMA-3.1和Qwen2.5等最新模型以及W3A3极端低比特场景中尤为明显。代码可在以下链接获取：https://anonymous.4open.science/r/FRM-PTQ-A878。

引言

随着Kaplan等人（2020年）提出的扩展定律的发展，大型语言模型（LLMs）在自然语言处理任务的各个领域取得了显著进展（Adamopoulos等人（2025年）；Alsajri等人（2024年）；Ham（2025年）；Luo等人（2024年）；Mohammed和Aljanabi（2024年）；Zahid和Joudar（2023年）；Zhang等人（2023年）），这引发了新一轮的研究热潮。然而，参数规模的快速增长对内存容量和计算资源提出了严峻挑战。量化作为一种广泛采用的模型压缩技术，通过减小模型大小来提高LLMs的推理效率和可访问性（Gong等人，2025年）。根据是优化模型权重还是仅更新量化参数，量化可以分为量化感知训练（Quantization-Aware Training，简称QAT，Du等人，2024年；Liu等人，2024年）和训练后量化（Post-Training Quantization，简称PTQ，Dong和Chen，2024年；Shao等人，2024年）。由于PTQ不需要更新原始权重，因此更具资源效率，这也是本文的重点。

在实际应用中，尽管高比特量化已被广泛采用，但超低比特量化仍然具有挑战性。通常，量化过程使用均方误差（MSE）损失来对齐量化和全精度模型的输出，从而提高PTQ（Ma等人，2024年；Shao等人，2024年）和QAT（Chen等人，2024a）的性能。然而，如图1所示，在极低比特设置下，这种对齐方法会遇到严重困难，导致性能大幅下降。此外，现代LLMs对量化的敏感性增强，即使是像OmniQuant（Shao等人，2024年）、Atom（Zhao等人，2024年）和AffineQuant（Ma等人，2024年）这样的先进方法也经历了显著的性能下降（如表1所示）。现有的方法如SliM-LLM（Huang等人，2024年）和CMPQ（Chen等人，2024b）试图通过敏感性分析来提升模型性能，但它们的通道级精度调整引入了层内不一致性，降低了计算效率。这些观察结果凸显了迫切需要一种更稳健的PTQ方法来克服这些限制。

在本文中，我们提出了一种新的PTQ框架FRM-PTQ，旨在解决低比特宽度量化场景中的挑战。基于Shao等人（2024年）的块内自蒸馏框架，我们引入了特征关系匹配（FRM）技术来减轻量化错误导致的性能下降。FRM通过两种互补机制优化解码器块的量化参数：①令牌级关系建模，我们设计了一个高维令牌关系矩阵作为监督信号；与传统点对点MSE损失函数不同，这种方法更好地保留了令牌之间的上下文语义关系，从而在建模长距离依赖性和保持深层语义连贯性方面取得了显著改进。②在结构级分布对齐中，我们利用基于最优传输理论的几何分布对齐方法（Cuturi，2013年），这种方法能够在特征空间中建立最佳映射，不仅减少了数值差异，还能更准确地描述量化前后的结构差异。通过这两种创新，FRM比传统的MSE方法更有效地捕捉高维特征关系，从而减少了量化块和全精度块之间的表示差距（如图1所示）。③此外，我们提出了一种基于权重峰度的多粒度分组量化方法，根据解码器块的峰度值将其分为三种类型，并对每种类型应用相应的粒度。这种方法确保了每个解码器块内的粒度一致性，防止了传统方法中由于层内精度不一致导致的推理开销。为了便于高效地在GPU上实现，我们扩展了现有的PTQ框架（Frantar等人，2023年），在推理过程中增加了可配置的多粒度模型加载功能。通过这些改进，FRM-PTQ能够在保持卓越性能的同时，将权重和激活量化为极低的比特宽度（如图2所示）。我们的主要贡献总结如下：

•

我们提出了FRM-PTQ框架，通过利用令牌级关系建模和结构级分布对齐，解决了低比特量化下权重和激活的性能下降问题。

•

我们提出了一种适用于GPU的多粒度分组量化方法，在推理过程中实现了多粒度模型加载，显著提高了量化精度，同时保持了推理性能。

•

在多种任务和基准测试上的广泛实验表明，FRM-PTQ取得了先进的性能。在W4A4量化设置下，FRM-PTQ的准确性与全精度几乎无差异。即使在更具挑战性的W3A3配置下，它在推理任务上也比最佳现有基线提高了9.81%到18.49%。此外，量化模型的推理速度比全精度模型快了2倍。

部分内容

初步介绍

在量化过程中，通常使用以下通用函数将浮点值映射到较低的离散值空间：

Q (W) = clamp (? \frac{W}{s} ? + z, 0, 2^{b} ? 1),

PTQ和QAT：量化可以分为PTQ（Frantar等人，2023年；Huang等人，2024年；Lin等人，2024年）和QAT（Du等人）。

FRM-PTQ

在本节中，我们将详细介绍我们的FRM-PTQ框架，如图2所示。第3.1节正式定义了我们的优化方法和目标。第3.2节介绍了我们的特征关系匹配技术，该技术通过令牌级关系建模和结构级分布对齐实现了高维空间中的细粒度对齐。在此基础上，第3.3节进一步改进了量化模型。

实验设置

模型和数据集。为了验证我们方法的通用性，我们在整个LLLaMA系列（LLaMA-1（Touvron等人，2023a）；LLaMA-2（Touvron等人，2023b）；LLaMA-3；LLaMA-3.1（Dubey等人，2024））以及Qwen-2.5（Team，2024）；Mistral-7B（Jiang等人，2023）；DeepSeek-7B（DeepSeek-AI，2024）上对其进行了评估。我们还在WikiText-2（Merity等人，2017）和C4（Raffel等人，2020）基准数据集上报告了困惑度（PPL）分数。此外，我们还评估了模型在

结论

在本文中，我们提出了FRM-PTQ，这是一种用于超低比特宽度设置下的训练后量化方法。FRM-PTQ的核心概念是通过令牌级关系建模和结构级分布对齐，有效捕捉高维空间中的特征表示。这种方法弥合了量化块和全精度块之间的表示差距。此外，我们还引入了多粒度

未引用引用

缺失的引用：表D1、表D2

CRediT作者贡献声明

赵超：撰写——原始草案、软件、方法论、调查、形式分析、概念化。张淼：撰写——审阅与编辑、监督、资源、方法论、概念化。赵佳琪：撰写——审阅与编辑、可视化、验证。王莉：撰写——审阅与编辑、资源。关伟莉：撰写——审阅与编辑、监督、资源。聂立强：撰写——审阅与编辑、监督、资源。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

张淼部分得到了国家自然科学基金（项目编号62306084和U23B2051）、深圳市学院稳定支持计划（项目编号GXWD20231128102243003）以及深圳市科技计划（项目编号ZDSYS20230626091203008和KJZD20230923115113026）的资助。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号