×

一类新的基于矩阵乘法的AMG插值方法。 (英语) Zbl 1498.65153号

本文描述了代数多重网格方法中计算水平转移矩阵的有效算法。更准确地说,它考虑了用于延长的权重矩阵的计算,其目的是从粗解表示插值到剩余精细未知的解,假设未知已被分类为精细或粗糙。主要成分是根据两个全局稀疏矩阵之间的乘法以及对角矩阵的缩放来定义权重。所提议的方法有两个主要优点,这可能对未来的其他领域也有启发。一方面,使用矩阵将计算表示为通用操作有助于移植到新的硬件架构,因为调优工作可以在更广泛的应用程序之间共享。其次,矩阵-矩阵乘法减少了条件分支的数量,提高了细粒度并行性,这在当代大规模并行硬件上都是有利的。本文详细推导了这些新方法的操作成本,表明它们通过略微增加的加法和乘法次数以及存储矩阵所需的额外内存消耗来减少检查次数和减少除法次数。虽然没有提供理论收敛结果,但作者从数值上证明了新算法的收敛特性可与代数多重网格中现有的最佳方法相媲美,且设置成本低得多。这既适用于经典粗化步骤,也适用于涉及矩阵乘法第二阶段的主动粗化方法。对串行和适度并行计算的各种不同难度的问题进行了评估,结果表明,这些方法具有很好的性能。

MSC公司:

65M55型 多重网格方法;涉及偏微分方程初值和初边值问题的区域分解
2005年5月 并行数值计算
65F08个 迭代方法的前置条件
65层10 线性系统的迭代数值方法
65层50 稀疏矩阵的计算方法
65层35 矩阵范数、条件、缩放的数值计算
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] R.Anderson、J.Andrej、A.Barker、J.Bramwell、J.-S.Camier、J.Cerveny、V.Dobrev、Y.Dudouit、A.Fisher、T.Kolev、W.Pazner、M.Stowell、V.Tomov、I.Akkerman、J.Dahm、D.Medina和S.Zampini,MFEM:模块化有限元方法库,计算。数学。申请。,81(2021),第42-74页,https://doi.org/10.1016/j.camwa.2020.06.009。 ·Zbl 1524.65001号
[2] A.H.Baker、R.D.Falgout、T.V.Kolev和U.M.Yang,超并行计算的多重网格平滑器,SIAM J.Sci。计算。,33(2011),第2864-2887页,https://doi.org/10.1137/100798806。 ·Zbl 1237.65032号
[3] A.H.Baker、R.D.Falgout、T.V.Kolev和U.M.Yang,《将hypre的多重网格求解器扩展到100000核》,载于《高性能科学计算:算法和应用》,M.W.Berry、K.A.Gallivan、E.Gallopulos、A.Grama、B.Philippe、Y.Saad和F.Saied主编,施普林格出版社,伦敦,2012年,第261-279页,https://doi.org/10.1007/978-1-4471-2437-5_13。
[4] J.Bolz、I.Farmer、E.Grinspin和P.Schroïder,GPU上的稀疏矩阵解算器:共轭梯度和多重网格,见SIGGRAPH’03:ACM SIGGRAPH 2003论文,ACM,纽约,2003年,第917-924页,https://doi.org/10.1145/201775.882364。
[5] A.Brandt、S.McCormick和J.Ruge,稀疏矩阵方程的代数多重网格(AMG),收录于《稀疏性及其应用》,D.J.Evans主编,剑桥大学出版社,1985年,第257-284页·Zbl 0548.65014号
[6] M.Brezina、A.J.Cleary、R.D.Falgout、V.E.Henson、J.E.Jones、T.A.Manteufel、S.F.McCormick和J.W.Ruge,基于元素插值的代数多重网格(AMGe),SIAM J.Sci。计算。,22(2000),第1570-1592页,https://doi.org/10.1137/S1064827598344303。 ·Zbl 0991.65133号
[7] W.L.Briggs、V.E.Henson和S.F.McCormick,《多重网格教程》,第二版,SIAM,2000年,https://doi.org/10.1137/1.9780898719505。 ·Zbl 0958.65128号
[8] L.Buatois、G.Caumon和B.Leávy,《并发数字处理器:通用稀疏线性解算器的GPU实现》,国际期刊《并行紧急分发系统》。,24(2009),第205-223页,https://doi.org/10.1080/17445760802337010。
[9] M.Clark、R.Babich、K.Barros、R.Brower和C.Rebbi,在GPU上使用混合精度求解器求解晶格QCD方程组,计算。物理学。Comm.,181(2010),第1517-1528页,https://doi.org/10.1016/j.cpc.2010.05.002。 ·Zbl 1215.81124号
[10] S.Dalton、L.Olson和N.Bell,为GPU优化稀疏矩阵-矩阵乘法,ACM Trans。数学。软件,41(2015),25,https://doi.org/10.1145/2699470。 ·Zbl 1347.65085号
[11] H.De Sterck、R.D.Falgout、J.W.Nolting和U.M.Yang,并行代数多重网格的距离二插值,数值。线性代数应用。,15(2008),第115-139页,https://doi.org/10.1002/nla.559。 ·Zbl 1212.65139号
[12] H.De Sterck、U.M.Yang和J.J.Heys,降低并行代数多重网格预条件的复杂性,SIAM J.矩阵分析。申请。,27(2006),第1019-1039页,https://doi.org/10.1137/040615729。 ·Zbl 1102.65034号
[13] M.Deveci、C.Trott和S.Rajamanickam,多核和GPU体系结构的多线程稀疏矩阵乘法,并行计算。,78(2018),第33-46页,https://doi.org/10.1016/j.parco.2018.06.009。
[14] R.D.Falgout,代数多重网格导论,计算机。科学。工程,8(2006),第24-33页。
[15] R.D.Falgout、R.Li、B.Sjogreen、L.Wang和U.M.Yang,《将宣传移植到异构计算机体系结构:策略和经验》,并行计算。,提交。
[16] R.D.Falgout和U.M.Yang,《炒作:高性能预处理程序库》,载于《计算科学-ICCS 2002》,P.M.A.Sloot、A.G.Hoekstra、C.J.K.Tan和J.J.Dongarra编辑,Springer,Berlin,Heidelberg,2002年,第632-641页·Zbl 1056.65046号
[17] R.Gandham、K.Esler和Y.Zhang,GPU加速聚合代数多重网格方法,计算。数学。申请。,68(2014),第1151-1160页,https://doi.org/10.1016/j.camwa.2014.08.022。 ·Zbl 1367.65049号
[18] F.Gremse、K.Kuõpper和U.Naumann,在许多核心架构上通过行合并实现内存高效稀疏矩阵乘法,SIAM J.Sci。计算。,40(2018),第C429-C449页,https://doi.org/10.1137/17M1121378。 ·兹比尔1391.65119
[19] V.E.Henson和P.S.Vassilevski,无元素AMGe:计算AMG内插权重的通用算法,SIAM J.Sci。计算。,23(2001),第629-650页,https://doi.org/10.1137/S1064827500372997。 ·Zbl 0992.65141号
[20] V.E.Henson和U.M.Yang,BoomerAMG:并行代数多重网格求解器和预处理器,应用。数字。数学。,41(2002),第155-177页,https://doi.org/10.1016/S0168-9274(01)00115-5. ·Zbl 0995.65128号
[21] M.T.Jones和P.E.Plassmann,平行图着色启发式,SIAM J.Sci。计算。,14(1993),第654-669页,https://doi.org/10.1137/0914041。 ·Zbl 0772.68046号
[22] K.Kahl,《格点QCD计算的自适应代数多重网格》,博士论文,Fakulta­t fu­r Mathematik und Naturwissenschaften,Bergische Universita­t Wuppertal,2009年·Zbl 1196.81004号
[23] T.V.Kolev和P.S.Vassilevski,(H(\rm-div))问题的并行辅助空间AMG求解器,SIAM J.Sci。计算。,34(2012),第A3079-A3098页,https://doi.org/10.1137/10859361。 ·Zbl 1332.65042号
[24] R.Li和Y.Saad,GPU加速预处理迭代线性解算器,J.Supercomput。,63(2013),第443-466页,https://doi.org/10.1007/s11227-012-0825-3。
[25] R.Li、Y.Xi、L.Erlandson和Y.Saad,特征值切片库(EVSL):算法、实现和软件,SIAM J.Sci。计算。,41(2019年),第C393-C415页,https://doi.org/10.1137/18M1170935。 ·1420.65050兹罗提
[26] W.Liu和B.Vinter,不规则数据的高效GPU通用稀疏矩阵乘法,2014年IEEE第28届国际并行和分布式处理研讨会,2014年,第370-381页。
[27] M.Luby,最大独立集问题的简单并行算法,SIAM J.Compute。,15(1986),第1036-1053页,https://doi.org/10.1137/0215074。 ·Zbl 0619.68058号
[28] Y.Nagasaka、S.Matsuoka、A.Azad和A.Buluç,Intel KNL和多核架构上的高性能稀疏矩阵产品,第47届并行处理协会国际会议论文集,ICPP’18,纽约,2018,计算机械协会,https://doi.org/10.1145/3229710.3229720。
[29] M.Naumov、M.Arsaev、P.Castonguay、J.Cohen、J.Demouth、J.Eaton、S.Layton、N.Markovskiy、I.Reguly、N.Sakharnykh、V.Sellapan和R.Strzodka,AmgX:GPU加速代数多重网格和预处理迭代方法库,SIAM J.Sci。计算。,37(2015),第S602-S626页,https://doi.org/10.1137/140980260。 ·Zbl 1325.65065号
[30] J.Park、M.Smelyanskiy、U.M.Yang、D.Mudigere和P.Dubey,《为基于多核的分布式并行系统优化的高性能代数多网格求解器》,载于《SC’15:高性能计算、网络、存储和分析国际会议论文集》,IEEE,2015,第1-12页。
[31] C.Richter、S.Scho¨ps和M.Clemens,离散椭圆场问题代数多重网格预条件的GPU加速,IEEE Trans。《磁学》,50(2014),第461-464页,https://doi.org/10.1109/TMAG.2013.2283099。
[32] J.W.Ruge和K.Stuében,代数多重网格,多重网格方法,S.F.McCormick,ed.,SIAM,1987年,第73-130页,https://doi.org/10.1137/1.9781611971057.ch4。
[33] P.Sao、R.Vuduc和X.S.Li,分布式CPU-GPU稀疏直接解算器,摘自《2014年Euro-Par并行处理》,F.Silva、I.Dutra和V.Santos Costa编辑,Springer International,Cham,2014年,第487-498页。
[34] K.Stuében,《代数多重网格简介》,《多重网格》,学术出版社,2000年,第413-532页。
[35] U.Trottenberg、C.W.Oosterlee和A.Schuller,《多重网格》,学术出版社,2000年。
[36] M.Wang、H.Klie、M.Parashar和H.Sudan,在NVIDIA Tesla GPU上求解稀疏线性系统,收录于《计算科学–ICCS 2009》,G.Allen、J.Nabrzyski、E.Seidel、G.D.van Albada、J.Dongarra和P.M.A.Sloot编辑,Springer,Berlin,Heidelberg,2009,第864-873页。
[37] 杨宇明,关于主动粗化的长程插值算子,数值。线性代数应用。,17(2010),第453-472页,https://doi.org/10.1002/nla.689。 ·Zbl 1240.65286号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。