×

面向混合GPU加速多核系统的稠密线性代数。 (英语) Zbl 1204.68268号

摘要:我们强调了导致使用混合多核+GPU系统进行高性能计算的吸引力增加的趋势。我们提出了一组技术,可用于为这些系统开发高效的稠密线性代数算法。我们通过开发混合LU分解算法来说明主要思想,在该算法中,我们将计算拆分到多核和图形处理器上,并使用特定技术来减少混合组件之间的旋转和通信量。这就产生了一种高效的算法,可以平衡使用多核处理器和图形处理器。

MSC公司:

68宽10 计算机科学中的并行算法
68M99型 计算机系统组织
65层99 数值线性代数
第65年 并行数值计算
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] E.Anderson,Z.Bai,C.Bischof,S.Blackford,J.Demmel,J.Dongarra,J.Du Croz,A.Greenbaum,S.Hammarling,A.McKenney,D.Sorensen,LAPACK用户指南,SIAM,第三版,1999年·Zbl 0934.65030号
[2] M.Baboulin,J.Dongarra,S.Tomov,多核和特殊用途架构的稠密线性代数中的一些问题,技术报告UT-CS-08-615,田纳西大学,2008,LAPACK工作注释200。
[3] G.Ballard,J.Demmel,O.Holtz,O.Schwartz,《线性代数中通信最小化》,技术报告,LAPACK工作注释2182009年5月·Zbl 1246.68128号
[4] S.Barrachina、M.Castillo、F.Igual、R.Mayo、E.Quintana-Ortí,《在图形处理器上求解密集线性系统》,技术报告ICC 02-02-2008,詹姆大学,2008年2月。
[5] A.Buttari,J.Dongarra,J.Kurzak,J.Langou,P.Luszczek,S.Tomov,《多核对数学软件的影响》,PARA 2006,收录于:B.Kágström等人(编辑),《计算机科学讲义》,第4699卷,Springer,2007年,第1-10页。
[6] Buttari,A。;Dongarra,J。;Kurzak,J。;Luszczek,P。;Tomov,S.:使用混合精度进行稀疏矩阵计算,以提高性能,同时达到64位精度,ACM转换。数学。软件34,No.4(2008)·Zbl 1190.65117号 ·数字对象标识代码:10.1145/1377596.1377597
[7] A.Buttari,J.Langou,J.Kurzak,J.Dongarra,一类用于多核架构的并行平铺线性代数算法,技术报告UT-CS-07-600,田纳西大学,2007年,LAPACK工作说明191。
[8] J.Demmel,J.Dongarra,B.Parlett,W.Kahan,M.Gu,D.Bindel,Y.Hida,X.Li,O.Marques,E.Riedy,C.Vömel,J.Langou,P.Luszczek,J.Kurzak,A.Buttari,J.Longou,S.Tomov,下一个LAPACK和ScaLAPACK.库的招股说明书,收录于:PARA'06:科学和并行计算的最新技术(瑞典乌梅),高性能计算中心北(HPC2N)和计算科学系,乌梅大学,施普林格,2006年6月。
[9] J.Demmel,L.Grigori,M.Hoemmen,J.Langou,通信-避免并行和顺序QR分解,CoRR abs/0806.2159,2008年·兹比尔1241.65028
[10] Dongarra,J。;Luszczek,P。;Petitet,A.:LINPACK基准:过去、现在和未来,并发和计算:实践和经验15820(2003)
[11] J.Dongarra、S.Moore、G.Peterson、S.Tomov、J.Allred、V.Natoli、D.Richie,《探索空军应用CFD加速的新架构》,载于《2008年HPCMP用户小组会议论文集》,2008年7月14日至17日&书信电报;网址:http://www.cs.utk.edu/tomov/ugc2008_final.pdf>。
[12] K.Fatahalian,J.Sugerman,P.Hanrahan,《了解矩阵乘法的GPU算法的效率》,载于:HWWS’04:ACM Siggraph/Eurographics图形硬件会议论文集(美国纽约州纽约市),ACM,2004年,第133-137页。
[13] M.Fatica,用CUDA加速异构集群上的LINPACK,载于:GPGPU-2:图形处理单元通用处理第二次研讨会论文集(美国纽约州纽约市),美国计算机学会,2009年,第46-51页。
[14] N.Galoppo,N.Govindaraju,M.Henson,D.Manocha,LU-GPU:图形硬件上求解密集线性系统的高效算法,收录于:SC'05:2005年ACM/IEEE超级计算会议论文集(美国华盛顿特区),IEEE计算机学会,2005年,第3页。
[15] L.Grigori,J.Demmel,H.Xiang,《避免高斯消除的通信》,技术报告6523,INRIA,2008年。
[16] Wolfgang Gruener、Larrabee、CUDA和TGDaily免费午餐的追求&书信电报;http://www.tgdaily.com/content/view/38750/113/2008年8月>。
[17] Higham,N.:数值算法的准确性和稳定性,(2002年)·Zbl 1011.65010号 ·数字对象标识代码:10.1137/1.9780898718027
[18] Hruska,J.:AMD融合现在被推迟到2011年,Art technica(2008)
[19] 科格斯特罗姆,B。;Ling,P。;Van Loan,C.:基于GEMM的3级BLAS:高性能模型实现和性能评估基准,ACM trans。数学。软件24,No.3,268-302(1998)·Zbl 0930.65047号 ·doi:10.1145/292395.292412
[20] Julie Langou、Julien Langou和P.Luszczek、J.Kurzak、A.Buttari和J.Dongarra,《利用32位浮点算法在获得64位精度方面的性能》(重新审视线性系统的迭代求精),载于:SC'06:2006年ACM/IEEE超级计算会议论文集(美国纽约州纽约市),ACM,2006年,第113页。
[21] Y.Li,J.Dongarra,S.Tomov,关于GPU的GEMM自动调整的说明,技术报告,LAPACK工作说明2122009年1月。
[22] NVIDIA,NVIDIA Tesla将CUDA开发人员的性能提高了一倍,《计算机图形世界》(2008年6月30日)。
[23] NVIDIA,NVIDIA-CUDA编程指南,6/07/2008,2.0版。
[24] J·欧文斯。;马萨诸塞州休斯顿。;Luebke,D。;格林,S。;斯通,J。;Phillips,J.:GPU计算,IEEE 96论文集,第5期,879-899(2008)
[25] J·欧文斯。;Luebke,D。;Govindaraju,N。;哈里斯,M。;Krüger,J。;Lefohn,A。;Purcell,T.:图形硬件通用计算综述,计算。图形论坛26,第1期,80-113(2007)
[26] D.Parker,《随机蝴蝶变换及其在计算线性代数中的应用》,技术报告CSD-950023,加州大学洛杉矶分校计算机科学系,1995年。
[27] D.Parker,B.Pierce,《随机FFT:高斯消去法中旋转的替代方法》,技术报告CSD-950037,加州大学洛杉矶分校计算机科学系,1995年。
[28] 法尔,M。;Fernando,R.:GPU gems 2:高性能图形和通用计算的编程技术(GPU gems),(2005)
[29] G.Quintana-Ortí,F.Igual,E.Quintana-Ortí,R.van de Geijn,用多个硬件加速器在平台上求解稠密线性系统,收录于:PPoPP’09:第14届ACM SIGPLAN并行编程原理与实践研讨会论文集(美国纽约州纽约市),ACM,2009年,第121-130页·Zbl 1201.68039号
[30] G.Quintana-Orti、E.Quintana-Orti、E.Chan、F.van Zee、R.van de Geijn,多线程架构上矩阵计算的逐块编程算法,技术报告TR-08-04,德克萨斯大学奥斯汀分校,2008年,FLAME工作说明29。
[31] 塞勒,L。;Carmean,D。;Sprangle,E。;Forsyth,T。;M.Abrash。;杜贝,P。;Junkins,S。;A.湖。;苏格曼,J。;卡文,R。;Espasa,R。;Grochowski,E。;Juan,T。;Hanrahan,P.:Larrabee:视觉计算的多核(86倍)架构,ACM trans。图表。27,第3号,1-15(2008)
[32] S.Tomov,M.Baboulin,J.Dongarra,S.Moore,V.Natoli,G.Peterson,D.Richie,《加速密集线性代数的专用硬件和算法》,收录于:科学计算的并行处理,亚特兰大,2008年3月12日至14日&书信电报;网址:http://www.cs.utk.edu/tomov/PP8_tomov.pdf格式>。
[33] S.Tomov,J.Dongarra,《通过基于GPU的混合计算加速向上Hessenberg形态的还原》,《219号技术报告》,LAPACK工作说明,2009年5月·Zbl 1214.65020号
[34] V.Volkov,J.Demmel,《调整稠密线性代数的基准gpu》,收录于:SC'08:2008年ACM/IEEE超级计算会议论文集(美国新泽西州皮斯卡塔韦),IEEE出版社,2008年,第1-11页。
[35] LU,QR,使用GPU向量功能的Cholesky因子分解,技术报告UCB/EECS-2008-49,加州大学伯克利分校EECS系,2008年5月。
[36] 《使用GPU加速线性代数例程》,2008年1月9日,PAR实验室冬季务虚会海报&书信电报;http://www.eecs.berkeley.edu/volkov/volkov08-parlab.pdf>。
[37] 使用图形硬件的通用计算,<http://www.gpgpu.org>.
[38] Nvidia cuda区&书信电报;http://www.nvidia.com/object/cuda_home.html>.
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。