×

在稀疏矩阵-矩阵乘法中利用多级并行性。 (英语) Zbl 1350.05160号

摘要:稀疏矩阵-矩阵乘法(SpGEMM)是许多高性能图形算法以及一些线性求解器(如代数多重网格)的关键原语。SpGEMM现有并行实现的缩放受到通信的严重限制。尽管已经在Erdös-Rényi矩阵的平面MPI模型中提出了3D(或2.5D)算法并进行了理论分析,但这些算法尚未在实践中实现,也没有针对一般情况分析其复杂性。在这项工作中,我们介绍了3D SpGEMM公式的第一个实现,该公式利用了多个(节点内和节点间)并行级别,在所有并发级别上都比最先进的公开可用代码实现了显著的加速。我们广泛评估了我们的实施情况,并确定了需要进一步研究的瓶颈。

MSC公司:

05C85号 图形算法(图形理论方面)
2017年第68季度 问题的计算难度(下限、完备性、近似难度等)
65层50 稀疏矩阵的计算方法
68瓦10 计算机科学中的并行算法
PDF格式BibTeX公司 XML格式引用

参考文献:

[3] K.Akbudak和C.Aykanat,{外积并行稀疏矩阵-矩阵乘法的同时输入和输出矩阵划分},SIAM J.Sci。计算。,36(2014),第C568-C590页·Zbl 1307.65050号
[4] A.Azad、A.Buluç和J.R.Gilbert,{使用矩阵代数的平行三角形计数和枚举},《IPDPSW会议录》,图形算法构建块(GABB)研讨会,IEEE,华盛顿特区,2015年,第804-811页。
[5] G.Ballard、A.Buluç、J.Demmel、L.Grigori、B.Lipshitz、O.Schwartz和S.Toledo,《稀疏随机矩阵的通信最优并行乘法》,载于《第25届美国计算机学会算法与架构并行性年度研讨会论文集》(SPAA 2013),加拿大蒙特利尔,美国计算机学会,纽约,2013年,第222-231页。
[6] G.Ballard,A.Druinsky,N.Knight,and O.Schwartz,{简介:并行稀疏矩阵-矩阵乘法的超图划分},第27届ACM会议论文集,算法与体系结构并行性(SPAA),ACM,纽约,2015年,第86-88页。
[7] N.Bell、S.Dalton和L.N.Olson,《揭示代数多重网格方法中的细粒度并行性》,SIAM J.Sci。计算。,34(2012),第C123-C152页·Zbl 1253.65041号
[8] N.Bock和M.Challacombe,{衰减矩阵的优化稀疏近似矩阵乘法},SIAM J.Sci。计算。,35(2013),第C72-C98页·Zbl 1264.65062号
[9] E.G.Boman、K.D.Devine和S.Rajamanickam,{it使用二维图分区在大无标度图上进行可扩展矩阵计算},发表在《高性能计算、网络、存储和分析国际会议论文集》上,ACM,纽约,2013,50。
[10] U.Borštnik、J.VandeVondele、V.Weber和J.Hutter,{稀疏矩阵乘法:分布式块压缩稀疏行库},并行计算。,40(2014年),第47-58页。
[11] A.Buluç和J.R.Gilbert,{并行稀疏矩阵-矩阵乘法的挑战和进展},第37届并行处理国际会议论文集,ICPP’08,俄勒冈州波特兰,IEEE,华盛顿特区,2008年,第503-510页。
[12] A.Buluç和J.R.Gilbert,{关于超解析矩阵的表示和乘法},《IEEE并行和分布式处理国际研讨会论文集》,IEEE计算机学会,2008年,第1-11页。
[13] A.Buluç和J.R.Gilbert,《组合BLAS:设计、实现和应用》,国际高性能计算杂志。申请。,25(2011年),第496-509页。
[14] A.Buluç和J.R.Gilbert,《并行稀疏矩阵-矩阵乘法和索引:实现和实验》,SIAM J.Sci。计算。,34(2012),第C170-C191页·Zbl 1252.05112号
[15] A.Buluç,J.R.Gilbert,and V.B.Shah,{为图形算法实现稀疏矩阵},收录于线性代数语言中的图形算法,J.Kepner and J.R Gilbert编辑,SIAM,Philadelphia,2011年·Zbl 1239.05175号
[16] D.Chakrabarti,Y.Zhan,and C.Faloutsos,{\it R-MAT:图挖掘的递归模型},摘自SDM,M.W.Berry,U.Dayal,C.Kamath,and D.B.Skillicorn,eds.,SIAM,Philadelphia,2004。
[17] E.Chan、M.Heimlich、A.Purkayasta和R.A.van de Geijn,《集体沟通:理论、实践和经验》,Concurr。计算。,19(2007),第1749-1783页。
[18] S.Dalton、L.Olsen和N.Bell,《为GPU优化稀疏矩阵-矩阵乘法》,ACM Trans。数学。软质。,41 (2015), 25. ·Zbl 1347.65085号
[19] T.A.Davis,《稀疏线性系统的直接方法》,SIAM,费城,2006年·Zbl 1119.65021号
[20] T.A.Davis和Y.Hu,{佛罗里达大学稀疏矩阵集合},ACM Trans。数学。软质。,38 (2011), 1. ·Zbl 1365.65123号
[21] E.Dekel、D.Nassimi和S.Sahni,{并行矩阵和图形算法},SIAM J.Compute。,10(1981年),第657-675页·Zbl 0468.68044号
[23] R.A.V.D.Geijn和J.Watts,{it SUMMA:可扩展通用矩阵乘法算法},Concurr。计算。,9(1997),第255-274页。
[24] J.R.Gilbert、C.Moler和R.Schreiber,《MATLAB中的稀疏矩阵:设计与实现》,SIAM J.矩阵分析。申请。,13(1992年),第333-356页·Zbl 0752.65037号
[25] J.R.Gilbert、S.Reinhardt和V.B.Shah,《数值和组合计算的统一框架》,Comput。科学。《工程》,10(2008),第20-25页。
[26] F.Gremse、A.Ho¨fter、L.O.Schwen、F.Kiessling和U.Naumann,{通过迭代行合并加速稀疏矩阵-矩阵乘法},SIAM J.Sci。计算。,37(2015),第C54-C71页·Zbl 1327.65090号
[27] F.G.Gustavson,{\it稀疏矩阵的两种快速算法:乘法和置换置换},ACM Trans。数学。软质。,4(1978年),第250-269页·Zbl 0384.65016号
[28] B.Hendrickson和R.Leland,{it A multi-level algorithm for partitioning graph},发表在《1995年美国计算机学会/电子工程师协会超级计算会议论文集》(Supercomputing'95)上,纽约,美国计算机学会,纽约,1995,28·Zbl 0816.68093号
[29] M.A.Heroux、R.A.Bartlett、V.E.Howle、R.J.Hoekstra、J.J.Hu、T.G.Kolda、R.B.Lehoucq、K.R.Long、R.P.Pawlowski、E.T.Phipps、A.G.Salinger、H.K.Thornquist、R.S.Tuminaro、J.M.Willenbring、A.Williams和K.S.Stanley,《Trilinos项目概述》,ACM Trans。数学。软质。,31(2005),第397-423页·Zbl 1136.65354号
[30] D.Irony、S.Toledo和A.Tiskin,{分布式内存矩阵乘法的通信下限},J.并行分布式计算。,64(2004),第1017-1026页·Zbl 1114.68081号
[31] J.Kepner和J.Gilbert,eds.,{线性代数语言中的图形算法},SIAM,费城,2011·Zbl 1221.05010号
[32] P.Kogge和J.Shalf,《Exascale计算趋势:适应计算机体系结构的“新常态”》,《计算》。科学。Eng.,15(2013),第16-26页。
[33] W.Kohn,{密度泛函和密度矩阵方法与原子数线性缩放},Phys。修订稿。,76(1996),第3168-3171页。
[34] V.P.Kumar和A.Gupta,{\it分析并行算法和架构的可伸缩性},J.并行分布计算。,22(1994年),第379-391页。
[35] P.Lin,M.Bettencourt,S.Domino,T.Fisher,M.Hoemmen,J.Hu,E.Phipps,A.Prokopenko,S.Rajamanickam,C.Siefert,et al.,{\it Towards extreme-scale simulations for low mach fluids with second generation trilinos},Parallel Process.林,M.贝登古,S.多米诺,T.费希尔。莱特。,24 (2014), 1442005.
[36] W.Liu和B.Vinter,{\it GPU和异构处理器上通用稀疏矩阵乘法的框架},J.并行分布计算。,85(2015),第47-61页。
[37] M.Luby,{极大独立集问题的简单并行算法},SIAM J.Compute。,15(1986),第1036-1053页·Zbl 0619.68058号
[38] A.Lugowski、S.Kamil、A.Buluç、S.Williams、E.Duriakova、L.Oliker、A.Fox和J.R.Gilbert,属性语义图中过滤查询的并行处理},J.Parallel Distribute.Compute。,79(2015),第115-131页。
[39] R.v.d.G.M.Schatz,J.Poulson,{it Scalable Universal Matrix Multipalization Algorithms:(2)d and(3)d Variations on a Theme},技术报告,德克萨斯州奥斯汀市UT Austin,2013年。
[40] T.Mattson,D.Bader,J.Berry,A.Buluç,J.Dongarra,C.Faloutsos,J.Feo,J.Gilbert,J.Gonzalez,B.Hendrickson,et al.,{\it Standards for graph algorithm primitives},《高性能极限计算会议论文集》,2013年,IEEE,华盛顿特区,第1-2页。
[41] M.McCourt、B.Smith和H.Zhang,{通过着色实现稀疏矩阵-矩阵产品},SIAM J.矩阵分析。申请。,36(2015),第90-109页·Zbl 1327.65092号
[42] M.M.A.Patwary、N.R.Satish、N.Sundaram、J.Park、M.J.Anderson、S.G.Vadlamudi、D.Das、S.G.Pudov、V.O.Pirogov和P.Dubey,《多核平台上的并行高效稀疏矩阵乘法》,《高性能计算》,施普林格,巴塞尔,2015年,第48-57页。
[43] V.B.Shah,{它是一个组合科学计算的交互系统,强调程序员生产力},博士论文,加州大学圣巴巴拉分校,2007年。
[44] E.Solomonik和J.Demmel,{it Communication-最优并行矩阵乘法和(lu)-因子分解算法},2011年欧洲-巴黎并行处理,计算讲义。科学。6853,柏林施普林格,海德堡,2011年,第90-109页。
[46] L.G.Valiant,{最理想的通用并行计算机},《并行计算的机会和限制》,Springer-Verlag,纽约,1989年,第155-158页。
[47] S.van Dongen,{\it Graph Clustering by Flow Simulation},荷兰乌得勒支乌得勒支特大学博士论文,2000年。
[48] I.Yamazaki和X.Li,{\it On techniques to improve robustness and scalability of a parallel hybrid linear solver},《计算科学的高性能计算》VECPAR,2010年,《计算讲义》。科学。6449,柏林施普林格,海德堡,2011年,第421-434页·兹比尔1323.65133
[49] R.Yuster和U.Zwick,{使用矩形矩阵乘法和动态规划检测短有向循环},第十五届ACM-SIAM离散算法年会论文集(SODA'04),SIAM,费城,2004年,第254-260页·Zbl 1318.05084号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。