×

AmgX:GPU加速代数多重网格和预条件迭代方法的库。 (英语) 兹比尔1325.65065

摘要:大型稀疏线性系统的求解在许多应用中出现,例如计算流体动力学和油藏模拟。在现实情况下,矩阵往往太大,以至于它们需要大规模的分布式并行计算来在合理的时间内获得感兴趣的解。本文讨论了AmgX库的设计和实现,该库提供了分布式代数多重网格(AMG)的嵌入式GPU加速和预处理迭代方法。AmgX库使用不同的选择器和插值策略实现了经典和基于聚合的AMG方法,以及各种平滑器和预处理器,包括块Jacobi、Gauss-Seidel和不完全LU分解。该库包含许多标准且灵活的预处理Krylov子空间迭代方法,这些方法可以与任何可用的多重网格方法或更简单的预处理程序相结合。聚合方案中的并行性利用了并行图匹配技术,而平滑器和预处理器通常依赖于并行图着色算法。在AmgX库中实现的AMG算法在单个GPU上实现了2-5倍的加速,而在CPU上实现了竞争性的加速。如数值实验部分所示,设置和求解阶段在多个节点上都能很好地扩展,从而保持了这种性能优势。

理学硕士:

65英尺50英寸 稀疏矩阵的计算方法
15-04 线性代数相关问题的软件、源代码等
65F08个 迭代方法的前置条件
05C15号 图和超图的着色
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] M.Adams,{它是一种并行最大独立集算法},载于1998年第五届铜山迭代方法会议论文集。
[2] M.Adams、M.Brezina、J.Hu和R.Tuminaro,《并行多重网格平滑:多项式与高斯赛德尔》,J.Compute。物理。,188(2003),第593-610页·Zbl 1022.65030号
[3] J.R.Allwright、R.Bordawekar、P.D.Coddington、K.Dincer和C.L.Martin,{并行图形着色算法的比较},技术报告,雪城大学,纽约州雪城,1995年。
[4] R.Anderson和J.C.Setubal,{最大流问题推重标签算法的并行实现},J.parallel Distribute.Compute。,29(1995),第17-26页。
[5] ANSYS,{it Fluent}\burlhttp://www.ansys.com/Products/Simulation公司+技术/流体+动力学/流体+动力+产品/ANSYS+Fluent。
[6] Z.Bai、J.Demmel、J.Dongarra、A.Ruhe和H.van der Vorst,《代数特征值问题求解的模板:实用指南》,SIAM,费城,2000年·Zbl 0965.65058号
[7] R.Barrett、M.W.Berry、T.F.Chan、J.Demmel、J.Donato、J.Dongarra、V.Eijkhout、R.Pozo、C.Romine和H.van der Vorst,《线性系统解的模板:迭代方法的构建块》,SIAM,费城,1993年·Zbl 0814.65030号
[8] M.Benzi,D.B.Szyld和A.van Duin,{非对称问题的不完全因式分解预处理的排序},SIAM J.Sci。计算。,20(1999),第1652-1670页·兹伯利0940.65033
[9] E.F.F.Botta和A.van der Ploeg,{\it Renumbering strategies based multi-level techniques combined with ILU decompositions},Zh。维奇尔。Mat.Mat.Fiz.公司。,37(1997),第1294-1300页(俄语);计算。数学。数学。物理。,37(1997),第1252-1258页(英文)·Zbl 0946.65019号
[10] E.F.F.Botta和F.W.Wubs,{矩阵重新编号ILU:稀疏矩阵的有效代数多级ILU预条件},SIAM J.矩阵分析。申请。,20(1999年),第1007-1026页·Zbl 0937.65057号
[11] A.Brandt,{代数多重网格理论:对称情况},应用。数学。计算。,19(1986),第23-56页·Zbl 0616.65037号
[12] J.Brannick,Y.Chen,X.Hu和L.Zikatanov,{在GPU上的并行非光滑聚合代数多重网格算法},《偏微分方程数值解:理论、算法及其应用》,Springer Proc。数学。Stat.45,Springer,纽约,2013年,第81-102页·Zbl 1275.65084号
[13] N.Bell、S.Dalton和L.N.Olson,《揭示代数多重网格方法中的细粒度并行性》,SIAM J.Sci。计算。,34(2012年),第C123-C152页·Zbl 1253.65041号
[14] A.Buluç和J.R.Gilbert,《并行稀疏矩阵-矩阵乘法和索引:实现和实验》,SIAM J.Sci。计算。,34(2012年),第C170-C191页·兹比尔1252.05112
[15] C.Chevalier和F.Pellegrini,{\it PT-Scotch:高效并行图排序工具},并行计算。,34(2008),第318-331页。
[16] J.Cohen和P.Castonguay,{GPU上的高效图形匹配和着色},GPU技术,GTC on-Demand S23322012;可在线访问http://on-demand-gtc.gputechconf.com/gtcnew/on-demand-gtc.php。
[17] T.H.Cormen、C.E.Leiserson、R.L.Rivest和C.Stein,《算法导论》,第二版,麻省理工学院出版社,马萨诸塞州剑桥,2001年·Zbl 1047.68161号
[18] T.A.Davis和Y.Hu,{佛罗里达大学稀疏矩阵收集},ACM Trans。数学。软件,38(2011);可在线访问http://www.cise.uf.edu/research/sparese/matrixes/。 ·Zbl 1365.65123号
[19] H.De Sterck、U.M.Yang和J.J.Heys,《降低并行代数多重网格预条件器的复杂性》,SIAM J.Matrix Anal。申请。,27(2006),第1019-1039页·Zbl 1102.65034号
[20] H.De Sterck、R.D.Falgout、J.W.Nolting和U.M.Yang,《并行代数多重网格的距离二插值》,数值。线性代数应用。,15(2008),第115-139页·Zbl 1212.65139号
[21] J.Demouth,{GPU上稀疏矩阵乘法的优化},GPU技术,GTC on-Demand S22852012;可在线访问http://on-demand-gtc.gputechconf.com/gtcnew/on-demand-gtc.php。
[22] I.S.Duff和G.A.Meurant,《排序对预处理共轭梯度的影响》,BIT,29(1999),第635-657页·Zbl 0687.65037号
[23] L.C.Dutto,{排序对求解可压缩Navier-Stokes方程的预处理GMRES算法的影响},国际。J.数字。方法工程师,36(1993),第457-497页·兹比尔0767.76026
[24] H.C.Elman和E.Agron,{并行计算机上预处理共轭梯度法的排序技术},计算。物理学。Comm.,53(1989),第253-269页·兹伯利0798.65038
[25] R.D.Falgout,{代数多重网格简介},计算。科学。Eng.,8(2006),第24-33页。
[26] R.D.Falgout和U.M.Yang,{\it HYPRE:高性能预处理程序库},《计算科学–ICCS 2002》,《计算讲义》。科学。2331,斯普林格·弗拉格,柏林,海德堡,2002年,第632-641页·Zbl 1056.65046号
[27] A.H.Gebremedhin,{平行图着色},博士论文,卑尔根大学,挪威卑尔根,1999年·Zbl 1008.68565号
[28] P.Gonzalez、J.C.Cabaleiro和T.F.Pena,{作为Krylov子空间方法预条件的并行不完全LU因式分解},并行过程。莱特。,9(1999),第467-474页。
[29] F.G.Gustavson,{\it稀疏矩阵的两种快速算法:乘法和置换置换},ACM Trans。数学。《软件》,4(1978),第250-269页·Zbl 0384.65016号
[30] G.Haase、M.Liebmann、C.C.Douglas和G.Plank,《图形处理单元上的并行代数多重网格求解器》,《高性能计算与应用》,《计算讲义》。科学。5938,Springer-Verlag,柏林,海德堡,2010年,第38-47页。
[31] M.Hoemmen,{信息通信-避免Krylov子空间方法},加州大学伯克利分校博士论文,2010年。
[32] R.A.Horn和C.R.Johnson,《矩阵分析》,剑桥大学出版社,纽约,1999年。
[33] T.R.Jensen和B.Toft,《图形着色问题》,John Wiley&Sons,纽约,1995年·Zbl 0855.05054号
[34] M.T.Jones和P.E.Plassman,《平行图着色启发法》,SIAM J.Sci。计算。,14(1993),第654-669页·Zbl 0772.68046号
[35] R.M.Karp和M.Sipser,《稀疏随机图中的最大匹配》,第22届IEEE计算机科学基础研讨会论文集,1981年,第364-375页。
[36] G.Karypis和V.Kumar,{划分不规则图的快速高质量多级方案},SIAM J.Sci。计算。,20(1998年),第359-392页·Zbl 0915.68129号
[37] H.Kim,J.Xu,and L.Zikatanov,{it基于图匹配的对流扩散方程多重网格方法},Numer。线性代数应用。,10(2003年),第181-195页·Zbl 1071.65167号
[38] J.Kraus和M.Foörster,{异构系统上的高效AMG},《面对多核挑战II》,《计算讲义》。科学。7174,Springer-Verlag,柏林,海德堡,2012年,第133-146页。
[39] M.Luby,{极大独立集问题的简单并行算法},SIAM J.Compute。,15(1986年),第1036-1053页·Zbl 0619.68058号
[40] A.C.Muresan和Y.Notay,《基于聚合的多重网格分析》,SIAM J.Sci。计算。,30(2008),第1082-1103页·兹比尔1163.65092
[41] M.Naumov,{\it GPU上的预条件块迭代方法},PAMM。程序。申请。数学。机械。,12(2012),第11-14页。
[42] M.Naumov,《GPU上预处理迭代方法中的并行不完全-LU和Cholesky因子分解》,Nvidia技术报告NVR-2012-003,Nvidia Corp.,加州圣克拉拉,2012年。
[43] M.Naumov、P.Castonguay和J.Cohen,《并行图着色及其在GPU上不完全LU因子分解的应用》,Nvidia技术报告NVR-2015-001,Nvidia Corp.,Santa Clara,CA,2015。
[44] Y.Notay,{柔性共轭梯度},SIAM J.Sci。计算。,22(2000),第1444-1460页·Zbl 0980.65030号
[45] Y.Notay,{它是一种基于聚合的代数多重网格方法},Electron。事务处理。数字。分析。,37(2010年),第123-146页·Zbl 1206.65133号
[46] Nvidia,{\it CUSPARSE和CUBLAS图书馆}\burlhttps://developer.nvidia.com/cuda-toolkit。
[47] M.Pakzad、J.L.Lloyd和C.Philipps,《独立列:PCG方法的新并行ILU预处理程序》,并行计算。,21(1995),第583-605页。
[48] Y.Saad,{它是一种灵活的内外预处理GMRES算法},SIAM J.Sci。计算。,14(1993),第461-469页·Zbl 0780.65022号
[49] Y.Saad,《稀疏线性系统的迭代方法》,第二版,SIAM,费城,2003年·Zbl 1031.65046号
[50] 斯伦贝谢有限公司,{\it ECLIPSE},http://www.software.slb.com/products/foundation/Pages/eclipse.aspx。
[51] 斯伦贝谢有限公司,{\it INTERSECT},http://www.software.slb.com/products/foundation/Pages/intersect.aspx。
[52] J.C.Setubal,{二部分匹配的新实验结果},载于《netflow93会议录》,技术报告TR-21/93,信息学研究所,意大利比萨大学,1993年,第211-216页。
[53] V.Simoncini和D.B.Szyld,{柔性内外Krylov子空间方法},SIAM J.Numer。分析。,40(2003年),第2219-2239页·Zbl 1047.65021号
[54] Stone Ridge Technology,{\it GAMPACK,GPU加速代数多重网格包},http://www.stoneridgetechnology.com/products/gampack。
[55] K.Stuében,{代数多重网格(AMG):应用简介},GMD报告53,GMD,德国圣奥古斯丁,1999年。
[56] R.S.Tuminaro和C.Tong,《并行平滑聚合多重网格:大规模并行机器上的聚合策略》,《ACM/IEEE 2000超级计算会议论文集》,2000年。
[57] P.Vaněk、M.Brezina和J.Mandel,{基于平滑聚合的代数多重网格的收敛},Numer。数学。,88(2001),第559-579页·Zbl 0992.65139号
[58] P.Vaněk、J.Mandel和M.Brezina,{二阶和四阶椭圆问题的平滑聚合代数多重网格},《计算》,56(1996),第179-196页·Zbl 0851.65087号
[59] J.A.Vogel,{非对称线性系统的柔性BiCG和柔性BiCGStab},应用。数学。计算。,188(2007),第226-233页·Zbl 1114.65318号
[60] 杨宇明,{\it关于主动粗化的长程插值算子},数值。线性代数应用。,17(2010),第453-472页·兹比尔1240.65286
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。