在GPU架构上的高性能奇异值分解

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

在GPU架构上的高性能奇异值分解

《ACM Transactions on Architecture and Code Optimization》：High Performance Singular Value Decomposition on GPU Architectures

【字体：大中小】 时间：2026年02月16日 来源：ACM Transactions on Architecture and Code Optimization

编辑推荐：

　　针对现代GPU架构下的高精度奇异值分解（SVD）性能优化问题，提出基于FP64精度特征值分解（EVD）的混合精度SVD算法，结合双块带带状矩阵减少技术和GPU加速的 bulge chasing算法，显著提升FP32/FP64 SVD计算效率。理论分析验证了算法在新型GPU架构上的可行性，实验表明FP32 SVD速度提升达6.1×，FP64 SVD速度提升达13.4×，有效突破传统SVD算法的性能瓶颈。

摘要

随着GPU架构的进步，像NVIDIA Tensor Cores这样的矩阵计算引擎现在能够以与单精度（FP32）相同的效率支持双精度（FP64）的通用矩阵乘法（GEMMs）。然而，这种增强后的FP64功能的采用仍然有限，主要局限于涉及多个FP64 BLAS3操作的应用程序。奇异值分解（SVD）是数值线性代数中的一个基本分解方法，具有广泛的应用，可以利用这一硬件特性获得显著的优势。在本文中，针对FP32 SVD，我们提出了一种新颖的算法——基于FP64精度的特征值分解（EVD）的SVD方法，该方法专门设计用于利用最新的GPU架构特性。我们提供了理论分析，证明了该方法在新型GPU架构上的可行性，并从准确性和性能两个方面对其进行了评估。此外，对于FP64 SVD，我们引入了一种双重阻塞带缩减技术，结合基于GPU的凸起追踪算法，进一步加速了整个SVD过程。实验结果表明，在H100和A100平台上，与现有的cuSOLVER SVD求解器相比，我们的EVD基SVD实现实现了高达6.1倍的数值精度提升和5.0倍的加速。在H100平台上，该方法还实现了4.9倍的加速；在A100平台上实现了4.8倍的加速。这些结果凸显了我们的方法作为现代GPU平台上高效且准确的SVD解决方案的潜力。

AI总结

AI生成的摘要（实验结果）

本摘要是使用自动化工具生成的，并非由文章作者撰写或审核。它旨在帮助读者发现研究内容的相关性，并协助来自相关研究领域的读者理解本文的工作。它是对作者提供的摘要的补充，作者提供的摘要仍是文章的正式总结。完整文章才是权威版本。点击此处了解更多。

点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。

AI生成的摘要

该摘要由基于已发表文章文本的自动化系统生成。

生成日期：2026年1月12日。

本文探讨了在现代GPU架构上进行的高性能奇异值分解（SVD）计算，重点介绍了一种利用GPU上双精度（FP64）与单精度（FP32）性能相当性的方法。传统的SVD算法由于依赖BLAS2操作和有限的硬件利用率而效率低下，导致其性能远低于现代GPU的理论最大值。作者提出了一种基于特征值分解（EVD）的新方法，在FP32精度的SVD求解器中使用FP64算术来提高性能和数值稳定性。该方法通过从原始数据构建对称矩阵并应用EVD来计算奇异值，从而解决了先前基于EVD的SVD方法中存在的数值精度问题。

对于FP32 SVD，该方法将原始FP32矩阵转换为FP64精度进行EVD计算，减少了条件数平方带来的误差放大。理论分析表明，这种方法对于实际应用中常见的条件数矩阵具有足够的精度。性能实验表明，与现有的FP32 SVD实现相比，该混合精度算法在NVIDIA H100和A100 GPU上的性能提升了多达6.12倍。为了进一步提高性能，作者整合了先前开发的双重阻塞带缩减（DBBR）和基于GPU的凸起追踪（BC）策略，这些策略重新组织了计算过程，以更好地利用GPU架构，增加了算术强度并减少了内存带宽瓶颈。

由于硬件不支持高于双精度的算术运算，作者将DBBR和基于GPU的BC技术直接应用于SVD，优化了对角化过程和凸起追踪阶段。这种改进相对于cuSOLVER和MAGMA等现有库而言，显著提升了性能，在对角化过程中实现了高达13.4倍的加速，在大型矩阵的端到端计算中实现了近5倍的加速。基于GPU的BC实现有效地利用了单次扫描和多次扫描之间的并行性，克服了之前认为凸起追踪不适合GPU加速的假设（因为内存限制）。

在多种矩阵大小和GPU架构上的全面评估证实了该方法的可扩展性、可移植性和稳健性。该工作还包括一个详细的性能模型，解释了最近GPU中可用的FP64张量核心如何使这种混合精度方案优于现有的FP32求解器。尽管取得了成功，本文仍指出了未来研究的方向，例如优化迭代SVD求解器和奇异向量的反变换，以及通过核外技术管理精度转换带来的内存消耗增加问题。所提出的求解器为SVD提供了一种实用的高性能解决方案，充分利用了现代GPU的能力，解决了长期存在的计算挑战。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号