×

分析GPU卡上线性系统并行求解的分裂方法。 (英语) Zbl 1366.65050号

摘要:我们讨论了在图形处理单元(GPU)卡上求解稀疏或密集带状线性系统(mathbf{Ax}=mathbfb\)的方法。矩阵({mathbb R}^{N\次N}中的矩阵A)可能是非对称的,并且是中等大小的,即,(10000\leq N\leq 500000\)。拆分和并行化(SaP)方法寻求将矩阵(mathbf A)划分为对角子块(mathbfA_i)、(i=1,dots,P),这些子块独立地并行分解。该解决方案可以选择考虑或忽略耦合对角线子块的矩阵。这种方法,以及它所预置的基于Krylov子空间的迭代方法,在一个名为SaP::GPU,与三种常用的稀疏直接解算器进行效率比较:帕迪索,超级LU、和MUMPS公司.SaP::GPU除了初步行和列排列中涉及的几个阶段外,它完全在GPU上运行,具有很强的健壮性,并且在效率方面与上述直接求解器进行了比较。与英特尔的相比MKL公司,SaP::GPU当用于求解接近对角占优的密集带状系统时,也表现良好。SaP::GPU是公开可用的,并在许可的BSD-3许可证下作为开源分发。

MSC公司:

65层10 线性系统的迭代数值方法
65F08个 迭代方法的前置条件
65层50 稀疏矩阵的计算方法
2005年5月 并行数值计算
PDF格式BibTeX公司 XML格式引用

参考文献:

[3] P.R.Amestoy、I.S.Duff和J.Y.L'优秀,{它是多前沿并行分布对称和非对称解算器},计算。方法应用。机械。工程,184(2000),第501-520页·Zbl 0956.65017号
[4] N.Bell和M.Garland,{it Cusp:稀疏矩阵和图形计算的通用并行算法},0.3.0版,(2012)。
[5] N.Bell和J.Hoberock,{推力:CUDA}面向生产力的库,GPU计算。宝石玉版,2(2011),第359-371页。
[6] E.Cuthill和J.McKee,{减少稀疏对称矩阵的带宽},《第24届ACM会议论文集》,纽约,1969年,第157-172页。
[7] J.W.Demmel,《超级LU用户指南》,劳伦斯伯克利国家实验室,加州伯克利,2011年。
[8] E.D.Dolan和J.J.More∏,{性能曲线基准优化软件},数学。程序。,91(2002),第201-213页·邮编:1049.90004
[9] I.Duff和J.Koster,《稀疏矩阵对角线上大项置换算法的设计和使用》,SIAM J.Matrix Anal。申请。,20(1999年),第889-901页·Zbl 0947.65048号
[10] I.Duff和J.Koster,{\it关于将大型条目排列到稀疏矩阵的对角线的算法},SIAM J.matrix Anal。申请。,22(2001),第973-996页·Zbl 0979.05087号
[11] G.H.Golub和C.F.V.Loan,《矩阵计算》,约翰霍普金斯大学出版社,马里兰州巴尔的摩,1980年·兹比尔1268.65037
[12] M.Hopper,{it Harwell子程序库。子程序目录},技术报告,DTIC,Ft,Belvoir,VA,1973年。
[13] A.Li,O.Deshmukh,R.Serban,and D.Negrut,{\it A Comparison of the Performance of SaP::GPU and Intel’s Math Kernel Library for Solving Dense Banded Linear Systems},技术报告TR-2012-07,SBEL,威斯康星大学麦迪逊分校,2014。
[14] A.Li、H.Mazhar、R.Serban和D.Negrut,《使用CUSP、cuSPARSE和ViennaCL对不同矩阵格式的矩阵进行SPMV性能比较》,技术报告TR-2015-02,SBEL,威斯康星大学麦迪逊分校,2015。
[15] A.Li,R.Serban,and D.Negrut,{it A Hybrid GPU-CPU Parallel CM Reordering Algorithm for Bandwidth Reduction of Large Sparse Matrices},技术报告TR-2014-12,SBEL,威斯康星大学麦迪逊分校,2014。
[16] A.Li,R.Serban和D.Negrut,{增加稀疏矩阵中对角线项乘积的重排序方法的实现},技术报告TR-2014-01,SBEL,威斯康星大学麦迪逊分校,2014。
[17] A.Li、R.Serban和D.Negrut,{\it Analysis of A Spliting Approach for the Parallel Solution of Linear Systems on GPU Cards},技术报告TR-2015-12,SBEL,威斯康星大学麦迪逊分校,2015·Zbl 1366.65050号
[18] D.Lukarski和N.Trost,{\it Paralution Project}。
[19] M.Manguoglu、A.Sameh和O.Schenk,《并行混合稀疏线性系统解算器》,摘自《第十五届国际并行处理欧洲-保时捷会议论文集》,荷兰代尔夫特,柏林,斯普林格-Verlag,2009年,第797-808页。
[20] D.Melanz,L.Fang,J.Jayakumar和D.Negrut,{通过微分变分不等式建模的摩擦接触多体动力学问题数值方法的比较},计算。方法应用。机械。工程,320(2017),第668-693页·兹比尔1439.74229
[21] C.Mikkelsen和M.Manguoglu,{截断SPIKE算法的分析},SIAM J.矩阵分析。申请。,30(2008),第1500-1519页·Zbl 1176.65028号
[22] NVIDIA,{\it CUDA编程指南},(2015)。
[23] NVIDIA,(2015)。
[24] E.Polizzi和A.Sameh,{\it并行混合带状系统求解器:SPIKE算法},并行计算。,32(2006),第177-194页。
[25] E.Polizzi和A.Sameh,{\it SPIKE:求解带状线性系统的并行环境},计算与《流体》,36(2007),第113-120页·Zbl 1181.76110号
[27] Y.Saad,{稀疏线性系统的迭代方法},SIAM,费城,2003·Zbl 1031.65046号
[28] A.Sameh和D.Kuck,《关于稳定平行线性系统解算器》,J.ACM,25(1978),第81-91页·Zbl 0364.68051号
[32] O.Schenk和K.Ga¨rtner,{用Pardiso}求解非对称稀疏线性方程组,下一代计算。系统。,20(2004年),第475-487页·Zbl 1062.65035号
[33] R.Serban、D.Melanz、A.Li、I.Stanciulescu、P.Jayakumar和D.Negrut,《基于GPU的柔性多体动力学预处理Newton-Krylov解算器》,国际。J.数字。方法工程师,102(2015),第1585-1604页·Zbl 1352.65369号
[34] G.Sleijpen和D.Fokkema,涉及具有复谱的非对称矩阵的线性方程组的{BiCGStab(l)},电子。事务处理。数量。分析。,1(1993年),第11-32页·兹比尔0820.65016
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。