×

混合精度Cholesky QR分解及其在多GPU多核CPU上的案例研究。 (英语) Zbl 1320.65046号

摘要:为了对密集矩阵的列进行正交化,Cholesky QR(CholQR)只需要并行处理单元之间的一次全局约简,并使用BLAS-3内核执行其大部分计算。因此,与其他正交化算法相比,CholQR在许多当前计算机体系结构上获得了优越的性能,与算术运算相比,这些计算机体系结构的通信成本越来越高。当输入矩阵为高度奇异时,尤其如此。不幸的是,CholQR的正交性误差平方依赖于输入矩阵的条件数,并且当矩阵为病态矩阵时,它在数值上是不稳定的。为了增强CholQR的稳定性,我们最近使用了混合精度算法;输入和输出矩阵都在工作精度内,但它的一些中间结果是以加倍精度累积的。本文分析了这种混合精度CholQR的数值性质。我们的分析表明,通过选择性地使用加倍精度,混合精度CholQR的正交性误差仅与输入矩阵的条件数呈线性关系。我们提供的数值结果证明了混合精度ChloQR在实际中提高了数值稳定性。然后我们研究它的性能。当目标硬件不支持所需的更高精度时,需要进行软件仿真。例如,使用软件模拟的双精度64位双精度,混合精度CholQR所需的浮点指令比标准CholQRs所需的指令多大约8.5倍。另一方面,使用双精度的通信成本增加不太显著,我们在具有不同图形处理单元(GPU)的多核CPU上的性能结果表明,在较新的体系结构上使用双精度算法的开销正在减少,与通信相比,计算变得更加便宜。因此,使用最新的NVIDIA GPU,混合精度的CholQR仅比标准的CholQR慢1.4倍。最后,我们给出了在具有多个GPU的多核CPU上,在Krylov子空间投影方法的通信避免变体中使用混合精度CholQR来求解非对称线性方程组和对称特征值问题的案例研究。这些案例研究表明,通过对Krylov方法的这一小而关键的部分使用更高的精度,我们不仅可以提高求解器的整体数值稳定性,而且在某些情况下还可以提高其性能。

MSC公司:

65平方英尺 线性系统和矩阵反演的直接数值方法
2005年5月 并行数值计算
65日元10 特定类别建筑的数值算法
65层25 数值线性代数中的正交化
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] M.Anderson、G.Ballard、J.Demmel和K.Keutzer,《通信-避免GPU的QR分解》,《IEEE国际并行和分布式处理研讨会(IPDPS)论文集》,IEEE,华盛顿特区,2011年,第48-58页。
[2] T.Auckenthaler,T.Huckle,and R.Wittmann,{it并行对称特征值问题的分块QR-分解},并行计算。,40(2014),第186-194页。
[3] Z.Bai、D.Hu和L.Reichel,{牛顿基GMRES实现},IMA J.Numer。分析。,14(1994),第563-581页·Zbl 0818.65022号
[4] J.Barlow和A.Smoktunowicz,{重新正交化块经典Gram-Schmidt},Numer。数学。,123(2013),第395-423页·Zbl 1269.65042号
[5] A.Bjoårck,《通过Gram-Schmidt正交化解决线性最小二乘问题》,BIT,7(1967),第1-21页·Zbl 0183.17802号
[6] E.Cuthill和J.McKee,{减少稀疏对称矩阵的带宽},《第24届全国ACM会议论文集》(ACM’69),ACM,纽约,1969年,第157-172页。
[7] J.Demmel、L.Grigori、M.Hoemmen和J.Langou,{it通信-最优并行和序列QR和LU因式分解},SIAM J.Sci。计算。,34(2012年),第A206–A239页·Zbl 1241.65028号
[8] S.Fuller和L.Millett,《计算性能的未来:游戏结束还是下一个水平?》,国家学院出版社,华盛顿特区,2011年。
[9] G.Golub和C.van Loan,《矩阵计算》,第三版,约翰·霍普金斯大学出版社,马里兰州巴尔的摩,1996年·Zbl 0865.65009号
[10] S.Graham、M.Snir和C.Patterson,《加速:超级计算的未来》,国家学院出版社,华盛顿特区,2004年。
[11] N.Halko、P.G.Martinsson和J.A.Tropp,《寻找具有随机性的结构:构造近似矩阵分解的概率算法》,SIAM Rev.,53(2011),第217-288页·Zbl 1269.65043号
[12] Y.Hida、X.Li和D.Bailey,{四重双算术:算法、实现和应用},技术报告LBNL-46996,加州伯克利劳伦斯伯克利国家实验室,2000年。
[13] M.Hoemmen,{信息通信-避免Krylov子空间方法},加州大学伯克利分校博士论文,2010年。
[14] W.Hoffman,《Gram-Schmidt正交化的迭代算法》,《计算》,41(1989),第335-348页·Zbl 0667.65037号
[15] A.Kielbasiński,《分析数字》(Analiza numericzna algorymu ortogonlizacji Grama Schmidta),《Seria III:Matematyka Stosowana II》,1974年(1974年),第15-35页。
[16] C.Lanczos,{求解线性微分和积分算子特征值问题的迭代方法},J.Res.Natl。伯尔。标准,45(1950),第255-281页。
[17] Y.Saad,《稀疏线性系统的迭代方法》,第二版,SIAM,费城,2003年·Zbl 1031.65046号
[18] Y.Saad,{大型特征值问题的数值方法},修订版,SIAM,费城,2011年·Zbl 1242.65068号
[19] Y.Saad和M.Schultz,{it-GMRES:求解非对称线性系统的广义最小残差算法},SIAM J.Sci。统计师。计算。,7(1986年),第856-869页·Zbl 0599.65018号
[20] A.Stathopoulos和K.Orginos,{在求解多个右侧线性系统时计算和压缩特征值,并应用于量子色动力学},SIAM J.Sci。计算。,32(2010年),第439-462页·Zbl 1209.65046号
[21] A.Stathopoulos和K.Wu,{具有恒定同步要求的块正交化程序},SIAM J.Sci。计算。,23(2002),第2165-2182页·Zbl 1018.65050号
[22] L.N.Trefethen和D.Bau,III,{数值线性代数},SIAM,费城,1997年·Zbl 0874.65013号
[23] H.van der Vorst,{大型线性系统的迭代Krylov方法},剑桥大学出版社,英国剑桥,2003年·Zbl 1023.65027号
[24] K.Wu和H.Simon,{大型对称特征值问题的厚重启动Lanczos方法},SIAM J.矩阵分析。申请。,22(2000),第602-616页·Zbl 0969.65030号
[25] I.Yamazaki、H.Anzt、S.Tomov、M.Hoemmen和J.Dongarra,{改进CA-GMRES在具有多个GPU的多核上的性能},《IEEE国际并行和分布式处理研讨会(IPDPS)论文集》,IEEE,华盛顿特区,2014年,第382-391页。
[26] I.Yamazaki,Z.Bai,H.Simon,L.W.Wang和K.Wu,{厚重启Lanczos方法的自适应投影子空间维数},ACM Trans。数学。软件,37(2010),27·Zbl 1364.65089号
[27] I.Yamazaki、S.Tomov、T.Dong和J.Dongarra,{GPU上CA-GMRES的混合判决正交化方案和自适应步长},技术报告UT-EECS-14-730,田纳西大学,诺克斯维尔;在《计算科学的高性能计算》(VECPAR 2014)中,纽约斯普林格出版社出版·Zbl 07631077号
[28] I.Yamazaki、S.Tomov和J.Dongarra,{各种奇异值QR实现的稳定性和性能及其在带GPU的多核CPU上的自适应混合精度案例研究},2015年·Zbl 1320.65046号
[29] I.Yamazaki和K.Wu,{分布式内存系统上的通信避免厚重启Lanczos方法},《下一代高性能科学与软件(HPCC)算法和编程工具研讨会论文集》,2011年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。