×

带有GPU加速器的分布式内存机器的线性系统求解器。 (英语) Zbl 1452.65002号

Yahyapour,Ramin(编辑),2019年欧洲-巴黎:并行处理。2019年8月26日至30日在德国哥廷根举行的第25届并行和分布式计算国际会议。诉讼程序。查姆:斯普林格。莱克特。票据计算。科学。11725, 495-506 (2019).
摘要:这项工作介绍了使用GPU加速器的分布式内存机器的两种线性求解器实现——一种基于Cholesky因子分解,另一种基于带有部分枢轴的LU因子分解。这些例程是作为线性代数目标测试软件(SLATE)包的一部分开发的,它与传统包(如LAPACK和ScaLAPACK)建立的传统约定大相径庭。本文阐述了新方法的原理,讨论了实现细节,并给出了性能结果。
有关整个系列,请参见[兹比尔1435.68044].

MSC公司:

65-04年 与数值分析有关的问题的软件、源代码等
65平方英尺 线性系统和矩阵反演的直接数值方法
2005年5月 并行数值计算
65日元10 特定类别建筑的数值算法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Andersen,B.S.,Gunnels,J.A.,Gustavson,F.,Wasniewski,J.:压缩存储数据格式中对称正定矩阵反演的递归公式。第2段,287-296(2002)·Zbl 1048.65513号
[2] Andersen,B.S.,Wa she niewski,J.,Gustavson,F.G.:压缩存储中矩阵的Cholesky因式分解的递归公式。ACM事务处理。数学。柔和。(TOMS)27(2),214-244(2001)·Zbl 1070.65524号 ·数字对象标识代码:10.1145/383738.383741
[3] Blackford,L.S.等人:ScaLAPACK用户指南。SIAM,费城(1997)·兹伯利0886.65022 ·数字对象标识代码:10.1137/1.9780898719642
[4] Castaldo,A.和Whaley,C.:使用并行缓存分配缩放LAPACK面板操作。在:ACM Sigplan通知,第45卷,第223-232页。ACM(2010)·Zbl 1295.65135号
[5] Chan,E.,van de Geijn,R.,Chapman,A.:用旋转来管理LU因子分解的前瞻复杂性。摘自:第二十届ACM算法和架构并行性年度研讨会论文集,第200-208页。ACM(2010)
[6] Choi,J.、Dongarra,J.,Ostrouchov,S.、Petitet,A.、Walker,D.、Whaley,C.:ScaLAPACK LU、QR和Cholesky因式分解例程的设计和实现。科学。程序。5(3), 173-184 (1996)
[7] Dongarra,J.,Faverge,M.,Ltaief,H.,Luszczek,P.:使用带部分旋转的递归tile LU因式分解实现数值精度和高性能。同意。计算。实际。实验26(7),1408-1431(2014)·doi:10.1002/cpe.3110
[8] Gates,M.等人:SLATE工作注释2:BLAS和LAPACK的C++API。技术报告ICL-UT-17-03,田纳西大学创新计算实验室,2017年6月。2018年3月修订
[9] Gustavson,F.、Henriksson,A.、Jonsson,I.、Kágström,B.、Ling,P.:递归块数据格式和密集线性代数算法的BLAS。收录于:Kágström,B.,Dongarra,J.,Elmroth,E.,Wa shi niewski,J.(编辑)PARA 1998。LNCS,第1541卷,第195-206页。斯普林格,海德堡(1998)。https://doi.org/10.1007/BFb0095337 ·doi:10.1007/BFb0095337
[10] Gustavson,F.、Karlsson,L.、Kágström,B.:并行和缓存效率高的就地矩阵存储格式转换。ACM事务处理。数学。柔和。(TOMS)38(3),17(2012)·兹比尔1365.65323 ·doi:10.145/2168773.2168775
[11] Kurzak,J.,Dongarra,J.:在多核处理器上使用流水线实现线性代数例程并展望未来。收录于:Kágström,B.,Elmroth,E.,Dongarra,J.,Wa shi niewski,J.(编辑)PARA 2006。LNCS,第4699卷,第147-156页。斯普林格,海德堡(2007)。https://doi.org/10.1007/978-3-540-75755-9_18 ·doi:10.1007/978-3-540-75755-9_18
[12] Sala,K.,Teruel,X.,Perez,J.M.,Peña,a.J.,Beltran,V.,Labarta,J.:将阻塞和非阻塞MPI原语与基于任务的编程模型集成。并行计算。85, 153-166 (2019) ·doi:10.1016/j.parco.2018.12.008
[13] Sorin,D.J.,Hill,M.D.,Wood,D.A.:记忆一致性和缓存一致性入门。合成。莱克特。计算。架构(architecture)。6(3), 1-212 (2011)
[14] Strazdins,P.等人:并行矩阵分解的前瞻和算法分块技术的比较(1998)
[15] D.苏卡里·Zbl 1369.65058号 ·doi:10.1145/2894747
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。