
-
生物通官微
陪你抓住生命科技
跳动的脉搏
在GPU架构上的高性能奇异值分解
《ACM Transactions on Architecture and Code Optimization》:High Performance Singular Value Decomposition on GPU Architectures
【字体: 大 中 小 】 时间:2026年02月16日 来源:ACM Transactions on Architecture and Code Optimization
编辑推荐:
针对现代GPU架构下的高精度奇异值分解(SVD)性能优化问题,提出基于FP64精度特征值分解(EVD)的混合精度SVD算法,结合双块带带状矩阵减少技术和GPU加速的 bulge chasing算法,显著提升FP32/FP64 SVD计算效率。理论分析验证了算法在新型GPU架构上的可行性,实验表明FP32 SVD速度提升达6.1×,FP64 SVD速度提升达13.4×,有效突破传统SVD算法的性能瓶颈。
本摘要是使用自动化工具生成的,并非由文章作者撰写或审核。它旨在帮助读者发现研究内容的相关性,并协助来自相关研究领域的读者理解本文的工作。它是对作者提供的摘要的补充,作者提供的摘要仍是文章的正式总结。完整文章才是权威版本。点击此处了解更多。
点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。
AI生成的摘要
该摘要由基于已发表文章文本的自动化系统生成。
生成日期:2026年1月12日。
本文探讨了在现代GPU架构上进行的高性能奇异值分解(SVD)计算,重点介绍了一种利用GPU上双精度(FP64)与单精度(FP32)性能相当性的方法。传统的SVD算法由于依赖BLAS2操作和有限的硬件利用率而效率低下,导致其性能远低于现代GPU的理论最大值。作者提出了一种基于特征值分解(EVD)的新方法,在FP32精度的SVD求解器中使用FP64算术来提高性能和数值稳定性。该方法通过从原始数据构建对称矩阵并应用EVD来计算奇异值,从而解决了先前基于EVD的SVD方法中存在的数值精度问题。
对于FP32 SVD,该方法将原始FP32矩阵转换为FP64精度进行EVD计算,减少了条件数平方带来的误差放大。理论分析表明,这种方法对于实际应用中常见的条件数矩阵具有足够的精度。性能实验表明,与现有的FP32 SVD实现相比,该混合精度算法在NVIDIA H100和A100 GPU上的性能提升了多达6.12倍。为了进一步提高性能,作者整合了先前开发的双重阻塞带缩减(DBBR)和基于GPU的凸起追踪(BC)策略,这些策略重新组织了计算过程,以更好地利用GPU架构,增加了算术强度并减少了内存带宽瓶颈。
由于硬件不支持高于双精度的算术运算,作者将DBBR和基于GPU的BC技术直接应用于SVD,优化了对角化过程和凸起追踪阶段。这种改进相对于cuSOLVER和MAGMA等现有库而言,显著提升了性能,在对角化过程中实现了高达13.4倍的加速,在大型矩阵的端到端计算中实现了近5倍的加速。基于GPU的BC实现有效地利用了单次扫描和多次扫描之间的并行性,克服了之前认为凸起追踪不适合GPU加速的假设(因为内存限制)。
在多种矩阵大小和GPU架构上的全面评估证实了该方法的可扩展性、可移植性和稳健性。该工作还包括一个详细的性能模型,解释了最近GPU中可用的FP64张量核心如何使这种混合精度方案优于现有的FP32求解器。尽管取得了成功,本文仍指出了未来研究的方向,例如优化迭代SVD求解器和奇异向量的反变换,以及通过核外技术管理精度转换带来的内存消耗增加问题。所提出的求解器为SVD提供了一种实用的高性能解决方案,充分利用了现代GPU的能力,解决了长期存在的计算挑战。