在GPU架构上的高性能奇异值分解

《ACM Transactions on Architecture and Code Optimization》:High Performance Singular Value Decomposition on GPU Architectures

【字体: 时间:2026年02月16日 来源:ACM Transactions on Architecture and Code Optimization

编辑推荐:

  针对现代GPU架构下的高精度奇异值分解(SVD)性能优化问题,提出基于FP64精度特征值分解(EVD)的混合精度SVD算法,结合双块带带状矩阵减少技术和GPU加速的 bulge chasing算法,显著提升FP32/FP64 SVD计算效率。理论分析验证了算法在新型GPU架构上的可行性,实验表明FP32 SVD速度提升达6.1×,FP64 SVD速度提升达13.4×,有效突破传统SVD算法的性能瓶颈。

  

摘要

摘要

随着GPU架构的进步,像NVIDIA Tensor Cores这样的矩阵计算引擎现在能够以与单精度(FP32)相同的效率支持双精度(FP64)的通用矩阵乘法(GEMMs)。然而,这种增强后的FP64功能的采用仍然有限,主要局限于涉及多个FP64 BLAS3操作的应用程序。奇异值分解(SVD)是数值线性代数中的一个基本分解方法,具有广泛的应用,可以利用这一硬件特性获得显著的优势。在本文中,针对FP32 SVD,我们提出了一种新颖的算法——基于FP64精度的特征值分解(EVD)的SVD方法,该方法专门设计用于利用最新的GPU架构特性。我们提供了理论分析,证明了该方法在新型GPU架构上的可行性,并从准确性和性能两个方面对其进行了评估。此外,对于FP64 SVD,我们引入了一种双重阻塞带缩减技术,结合基于GPU的凸起追踪算法,进一步加速了整个SVD过程。实验结果表明,在H100和A100平台上,与现有的cuSOLVER SVD求解器相比,我们的EVD基SVD实现实现了高达6.1倍的数值精度提升和5.0倍的加速。在H100平台上,该方法还实现了4.9倍的加速;在A100平台上实现了4.8倍的加速。这些结果凸显了我们的方法作为现代GPU平台上高效且准确的SVD解决方案的潜力。

AI总结

AI生成的摘要(实验结果)

本摘要是使用自动化工具生成的,并非由文章作者撰写或审核。它旨在帮助读者发现研究内容的相关性,并协助来自相关研究领域的读者理解本文的工作。它是对作者提供的摘要的补充,作者提供的摘要仍是文章的正式总结。完整文章才是权威版本。点击此处了解更多

点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。

AI生成的摘要

该摘要由基于已发表文章文本的自动化系统生成。

生成日期:2026年1月12日。

本文探讨了在现代GPU架构上进行的高性能奇异值分解(SVD)计算,重点介绍了一种利用GPU上双精度(FP64)与单精度(FP32)性能相当性的方法。传统的SVD算法由于依赖BLAS2操作和有限的硬件利用率而效率低下,导致其性能远低于现代GPU的理论最大值。作者提出了一种基于特征值分解(EVD)的新方法,在FP32精度的SVD求解器中使用FP64算术来提高性能和数值稳定性。该方法通过从原始数据构建对称矩阵并应用EVD来计算奇异值,从而解决了先前基于EVD的SVD方法中存在的数值精度问题。

对于FP32 SVD,该方法将原始FP32矩阵转换为FP64精度进行EVD计算,减少了条件数平方带来的误差放大。理论分析表明,这种方法对于实际应用中常见的条件数矩阵具有足够的精度。性能实验表明,与现有的FP32 SVD实现相比,该混合精度算法在NVIDIA H100和A100 GPU上的性能提升了多达6.12倍。为了进一步提高性能,作者整合了先前开发的双重阻塞带缩减(DBBR)和基于GPU的凸起追踪(BC)策略,这些策略重新组织了计算过程,以更好地利用GPU架构,增加了算术强度并减少了内存带宽瓶颈。

由于硬件不支持高于双精度的算术运算,作者将DBBR和基于GPU的BC技术直接应用于SVD,优化了对角化过程和凸起追踪阶段。这种改进相对于cuSOLVER和MAGMA等现有库而言,显著提升了性能,在对角化过程中实现了高达13.4倍的加速,在大型矩阵的端到端计算中实现了近5倍的加速。基于GPU的BC实现有效地利用了单次扫描和多次扫描之间的并行性,克服了之前认为凸起追踪不适合GPU加速的假设(因为内存限制)。

在多种矩阵大小和GPU架构上的全面评估证实了该方法的可扩展性、可移植性和稳健性。该工作还包括一个详细的性能模型,解释了最近GPU中可用的FP64张量核心如何使这种混合精度方案优于现有的FP32求解器。尽管取得了成功,本文仍指出了未来研究的方向,例如优化迭代SVD求解器和奇异向量的反变换,以及通过核外技术管理精度转换带来的内存消耗增加问题。所提出的求解器为SVD提供了一种实用的高性能解决方案,充分利用了现代GPU的能力,解决了长期存在的计算挑战。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号