文件Zbl 1452.65002-zbMATH Open

带有GPU加速器的分布式内存机器的线性系统求解器。（英语） Zbl 1452.65002号

Yahyapour，Ramin（编辑），2019年欧洲-巴黎：并行处理。2019年8月26日至30日在德国哥廷根举行的第25届并行和分布式计算国际会议。诉讼程序。查姆：斯普林格。莱克特。票据计算。科学。11725, 495-506 (2019).

摘要：这项工作介绍了使用GPU加速器的分布式内存机器的两种线性求解器实现——一种基于Cholesky因子分解，另一种基于带有部分枢轴的LU因子分解。这些例程是作为线性代数目标测试软件（SLATE）包的一部分开发的，它与传统包（如LAPACK和ScaLAPACK）建立的传统约定大相径庭。本文阐述了新方法的原理，讨论了实现细节，并给出了性能结果。
有关整个系列，请参见[兹比尔1435.68044].

MSC公司：

65-04年	与数值分析有关的问题的软件、源代码等
65平方英尺	线性系统和矩阵反演的直接数值方法
2005年5月	并行数值计算
65日元10	特定类别建筑的数值算法

关键词：

线性代数；分布式存储器；线性方程组；Cholesky因子分解；LU因子分解；GPU加速

软件：

LAPACK公司；线性代数库；板岩

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Andersen，B.S.，Gunnels，J.A.，Gustavson，F.，Wasniewski，J.：压缩存储数据格式中对称正定矩阵反演的递归公式。第2段，287-296（2002）·Zbl 1048.65513号
[2]	Andersen，B.S.，Wa she niewski，J.，Gustavson，F.G.：压缩存储中矩阵的Cholesky因式分解的递归公式。ACM事务处理。数学。柔和。（TOMS）27（2），214-244（2001）·Zbl 1070.65524号 ·数字对象标识代码：10.1145/383738.383741
[3]	Blackford，L.S.等人：ScaLAPACK用户指南。SIAM，费城（1997）·兹伯利0886.65022 ·数字对象标识代码：10.1137/1.9780898719642
[4]	Castaldo，A.和Whaley，C.：使用并行缓存分配缩放LAPACK面板操作。在：ACM Sigplan通知，第45卷，第223-232页。ACM（2010）·Zbl 1295.65135号
[5]	Chan，E.，van de Geijn，R.，Chapman，A.：用旋转来管理LU因子分解的前瞻复杂性。摘自：第二十届ACM算法和架构并行性年度研讨会论文集，第200-208页。ACM（2010）
[6]	Choi，J.、Dongarra，J.，Ostrouchov，S.、Petitet，A.、Walker，D.、Whaley，C.：ScaLAPACK LU、QR和Cholesky因式分解例程的设计和实现。科学。程序。5(3), 173-184 (1996)
[7]	Dongarra，J.，Faverge，M.，Ltaief，H.，Luszczek，P.：使用带部分旋转的递归tile LU因式分解实现数值精度和高性能。同意。计算。实际。实验26（7），1408-1431（2014）·doi:10.1002/cpe.3110
[8]	Gates，M.等人：SLATE工作注释2:BLAS和LAPACK的C++API。技术报告ICL-UT-17-03，田纳西大学创新计算实验室，2017年6月。2018年3月修订
[9]	Gustavson，F.、Henriksson，A.、Jonsson，I.、Kágström，B.、Ling，P.：递归块数据格式和密集线性代数算法的BLAS。收录于：Kágström，B.，Dongarra，J.，Elmroth，E.，Wa shi niewski，J.（编辑）PARA 1998。LNCS，第1541卷，第195-206页。斯普林格，海德堡（1998）。https://doi.org/10.1007/BFb0095337 ·doi:10.1007/BFb0095337
[10]	Gustavson，F.、Karlsson，L.、Kágström，B.：并行和缓存效率高的就地矩阵存储格式转换。ACM事务处理。数学。柔和。（TOMS）38（3），17（2012）·兹比尔1365.65323 ·doi:10.145/2168773.2168775
[11]	Kurzak，J.，Dongarra，J.：在多核处理器上使用流水线实现线性代数例程并展望未来。收录于：Kágström，B.，Elmroth，E.，Dongarra，J.，Wa shi niewski，J.（编辑）PARA 2006。LNCS，第4699卷，第147-156页。斯普林格，海德堡（2007）。https://doi.org/10.1007/978-3-540-75755-9_18 ·doi:10.1007/978-3-540-75755-9_18
[12]	Sala，K.，Teruel，X.，Perez，J.M.，Peña，a.J.，Beltran，V.，Labarta，J.：将阻塞和非阻塞MPI原语与基于任务的编程模型集成。并行计算。85, 153-166 (2019) ·doi:10.1016/j.parco.2018.12.008
[13]	Sorin，D.J.，Hill，M.D.，Wood，D.A.：记忆一致性和缓存一致性入门。合成。莱克特。计算。架构（architecture）。6(3), 1-212 (2011)
[14]	Strazdins，P.等人：并行矩阵分解的前瞻和算法分块技术的比较（1998）
[15]	D.苏卡里·Zbl 1369.65058号 ·doi:10.1145/2894747

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

带有GPU加速器的分布式内存机器的线性系统求解器。（英语） Zbl 1452.65002号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

带有GPU加速器的分布式内存机器的线性系统求解器。 （英语） Zbl 1452.65002号

MSC公司：

关键词：

软件：

参考文献：

带有GPU加速器的分布式内存机器的线性系统求解器。（英语） Zbl 1452.65002号