MIX-PC：通过混合数值精度编译优化实现高效深度神经网络推理

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Architecture and Code Optimization》：MIX-PC: Enabling Efficient DNN Inference with Mixed Numeric Precision Compilation Optimization

【字体：大中小】 时间：2026年02月16日 来源：ACM Transactions on Architecture and Code Optimization

编辑推荐：

　　该研究提出Mix-PC混合精度编译框架，通过自适应精度模式与渐进融合策略解决计算内核支持不足和精度跨阶段差异问题，在BERT、ViT、HuBERT模型上实现1.7-2.13倍加速，有效降低内存占用和计算开销。

摘要

混合精度量化在降低内存需求和提高推理效率方面显示出巨大潜力，并受到了广泛关注。然而，缩小比特长度并不总能带来显著的效率提升，原因有多种。首先，计算内核通常不支持混合精度操作，这限制了它们在依赖此类内核的系统中的实用性。其次，由于深度神经网络（DNN）的计算涉及多个阶段，不同阶段的精度模式可能会有很大差异。这使得开发针对精度优化的方案以实现端到端的效率提升变得复杂。最终，有效的精度优化需要在整个计算流程中提供额外的支持。

本文提出了 Mix-PC，这是一个能够实现高性能 DNN 推理的混合精度编译框架。一方面，我们深入分析了当前编译技术在支持混合精度操作时存在的效率低下问题；另一方面，我们提出了 Mix-PC，这是一个通用编译框架，它利用自适应模式来处理不同的数值精度。该框架通过为不同数值精度定制自适应模式和渐进式融合策略，增强了与多种模型的兼容性。实验结果表明，与现有的量化技术相比，Mix-PC 在 BERT、ViT 和 HuBERT 中分别实现了 1.70 倍、1.34 倍和 2.13 倍的速度提升。

AI 摘要

AI 生成的摘要（实验性内容）

本摘要是由自动化工具生成的，并非由文章作者撰写或审核。它旨在帮助读者发现研究价值、评估文章的相关性，并帮助来自相关研究领域的读者理解本文内容。它是对作者提供的摘要的补充，作者提供的摘要仍是文章的正式摘要。完整文章才是权威版本。点击此处了解更多。

点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。

AI 生成的摘要

该摘要由基于已发表文章内容的自动化系统生成。

生成日期：2026 年 1 月 23 日

本文探讨了如何通过混合精度量化来实现高效的深度神经网络（DNN）推理，该方法通过调整张量值的比特宽度来平衡精度和计算效率。传统的固定精度量化对所有值应用相同的比特宽度，这限制了优化效果，尤其是对于对异常值敏感且需要更高精度的变换器来说。混合精度方法通过为大多数值使用低精度，为关键异常值使用高精度来改进这一问题。然而，由于现有系统缺乏专用硬件支持，混合精度计算的效率提升未能得到充分实现，因为常见的计算内核主要支持固定精度，而混合精度计算分散在多个内核中。这种分散导致了内核启动开销增加、内存访问效率低下以及数据局部性差，从而阻碍了端到端的优化。

为了解决这些问题，作者提出了 Mix-PC，这是一个用于优化混合精度推理的编译框架。它通过将张量分解为具有不同精度的数值模式，并应用融合和自适应精度选择来提高效率。Mix-PC 引入了混合精度量化模式（Q 模式），这些模式将张量划分为具有不同精度的块，从而实现定制化的融合运算符生成。该框架开发了两种融合策略：一种是面向内存的策略，它将相同精度的小 Q 模式组合起来以减少开销；另一种是面向内核的策略，它将不同精度的计算融合到一个更大的内核中以提高并行性并减少内核启动次数。一种渐进式调优策略根据硬件资源限制动态平衡这两种方法。

Mix-PC 进一步通过自适应线程映射来提高效率，该方法通过将 Q 模式分组以进行并发执行，并分割大型模式以避免瓶颈来最大化 GPU 的利用率。该框架还高效地存储低精度数据，仅在计算时转换为高精度，从而在不牺牲精度的情况下最小化内存成本。该框架已集成到 TVM 编译器中，并在多个 DNN 模型上进行了评估，结果显示其性能优于 NVIDIA GPU 上的现有混合精度和固定精度框架。实验结果表明，通过使用融合内核、自适应精度和内核融合，该框架显著降低了推理延迟和内存使用量。

总体而言，本文提出了一种全面的编译器级解决方案，通过结合精度感知的张量划分、内核融合和硬件感知的调度来解决混合精度 DNN 计算中的效率问题。这项工作将混合精度量化从算法创新推进到了无需专用加速器的通用硬件上的实际应用。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号