
-
生物通官微
陪你抓住生命科技
跳动的脉搏
MIX-PC:通过混合数值精度编译优化实现高效深度神经网络推理
《ACM Transactions on Architecture and Code Optimization》:MIX-PC: Enabling Efficient DNN Inference with Mixed Numeric Precision Compilation Optimization
【字体: 大 中 小 】 时间:2026年02月16日 来源:ACM Transactions on Architecture and Code Optimization
编辑推荐:
该研究提出Mix-PC混合精度编译框架,通过自适应精度模式与渐进融合策略解决计算内核支持不足和精度跨阶段差异问题,在BERT、ViT、HuBERT模型上实现1.7-2.13倍加速,有效降低内存占用和计算开销。
本摘要是由自动化工具生成的,并非由文章作者撰写或审核。它旨在帮助读者发现研究价值、评估文章的相关性,并帮助来自相关研究领域的读者理解本文内容。它是对作者提供的摘要的补充,作者提供的摘要仍是文章的正式摘要。完整文章才是权威版本。点击此处了解更多。
点击 此处 对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。
AI 生成的摘要
该摘要由基于已发表文章内容的自动化系统生成。
生成日期:2026 年 1 月 23 日
本文探讨了如何通过混合精度量化来实现高效的深度神经网络(DNN)推理,该方法通过调整张量值的比特宽度来平衡精度和计算效率。传统的固定精度量化对所有值应用相同的比特宽度,这限制了优化效果,尤其是对于对异常值敏感且需要更高精度的变换器来说。混合精度方法通过为大多数值使用低精度,为关键异常值使用高精度来改进这一问题。然而,由于现有系统缺乏专用硬件支持,混合精度计算的效率提升未能得到充分实现,因为常见的计算内核主要支持固定精度,而混合精度计算分散在多个内核中。这种分散导致了内核启动开销增加、内存访问效率低下以及数据局部性差,从而阻碍了端到端的优化。
为了解决这些问题,作者提出了 Mix-PC,这是一个用于优化混合精度推理的编译框架。它通过将张量分解为具有不同精度的数值模式,并应用融合和自适应精度选择来提高效率。Mix-PC 引入了混合精度量化模式(Q 模式),这些模式将张量划分为具有不同精度的块,从而实现定制化的融合运算符生成。该框架开发了两种融合策略:一种是面向内存的策略,它将相同精度的小 Q 模式组合起来以减少开销;另一种是面向内核的策略,它将不同精度的计算融合到一个更大的内核中以提高并行性并减少内核启动次数。一种渐进式调优策略根据硬件资源限制动态平衡这两种方法。
Mix-PC 进一步通过自适应线程映射来提高效率,该方法通过将 Q 模式分组以进行并发执行,并分割大型模式以避免瓶颈来最大化 GPU 的利用率。该框架还高效地存储低精度数据,仅在计算时转换为高精度,从而在不牺牲精度的情况下最小化内存成本。该框架已集成到 TVM 编译器中,并在多个 DNN 模型上进行了评估,结果显示其性能优于 NVIDIA GPU 上的现有混合精度和固定精度框架。实验结果表明,通过使用融合内核、自适应精度和内核融合,该框架显著降低了推理延迟和内存使用量。
总体而言,本文提出了一种全面的编译器级解决方案,通过结合精度感知的张量划分、内核融合和硬件感知的调度来解决混合精度 DNN 计算中的效率问题。这项工作将混合精度量化从算法创新推进到了无需专用加速器的通用硬件上的实际应用。