×

多核架构的并行平铺WZ分解算法。 (英语) Zbl 1498.65232号

摘要:本文的目的是研究共享内存多核体系结构上的稠密线性代数算法。提出了一种并行分片WZ分解算法的设计与实现,该算法可以充分利用这种结构。研究了该算法的三种并行实现。第一种方法仅依赖于利用多线程BLAS(基本线性代数子程序)操作。除BLAS操作外,第二种实现使用OpenMP标准来使用循环级并行。除BLAS操作外,第三种实现使用OpenMP任务指令和depend子句。我们报告了密集正方形对角占优矩阵共享内存多核结构上并行平铺WZ分解算法的计算性能和加速比。然后,我们将我们的并行实现与来自供应商实现的LAPACK库的相应LU分解进行比较。我们还分析了数值精度。我们的两个实现可以通过Amdahl定律所暗示的接近最大理论加速比来实现。

MSC公司:

2005年5月 并行数值计算
第65页 线性系统和矩阵反演的直接数值方法
65日元10 特定类别建筑的数值算法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Agullo,E.、Demmel,J.、Dongarra,J.,Hadri,B.、Kurzak,J.和Langou,J.;Ltaief,H.;Luszczek,P.和Tomov,S.(2009年)。新兴体系结构上的数值线性代数:等离子体和MAGMA项目,物理杂志:会议系列180(1) :012037。;
[2] Amdahl,G.M.(1967年)。实现大规模计算能力的单处理器方法的有效性,《春季联合计算机会议论文集》,AFIPS’67(春季),美国新泽西州大西洋城,第483-485页。;
[3] 安德森·E.、巴伊·Z、比肖夫·C、布莱克福德·S、德梅尔·J、东加拉·J、杜·克罗兹·J、格林鲍姆·A、哈马林·S、麦肯尼·A和索伦森·D(1999)。LAPACK用户指南,第三版。,宾夕法尼亚州费城SIAM·Zbl 0934.65030号
[4] Buttari,A.、Langou,J.、Kurzak,J.和Dongarra,J.(2009年)。多核结构的一类并行分片线性代数算法,并行计算35(1): 38-53.;
[5] Bylina,B.(2018年)。块WZ因子分解,计算与应用数学杂志331(C) :119-132·Zbl 1377.65036号
[6] Bylina,B.和Bylina J.(2007年)。不完全WZ因式分解作为求解马尔可夫链的另一种预处理方法,见R.Wyrzykowski等人(编辑),PPAM,计算机科学讲义,第4967卷,Springer,柏林/海德堡,第99-107页·Zbl 1170.65022号
[7] Bylina,B.和Bylina J.(2009年)。预处理和阻塞对马尔科夫模型求解精度的影响,国际应用数学与计算机科学杂志19(2) :207-217,DOI:10.2478/v10006-009-0017-3·Zbl 1170.65022号
[8] Bylina,B.和Bylina J.(2015)。以密集矩阵的WZ因式分解为例的多核体系结构上嵌套循环的并行化策略,载于M.Ganzha等人(编辑),《2015年计算机科学和信息系统联合会议论文集》,《计算机科学与信息系统年鉴》,第5卷,IEEE,新泽西州皮斯卡塔韦,第629-639页·Zbl 1498.65232号
[9] Donfack,S.、Dongarra,J.、Faverge,M.、Gates,M.,Kurzak,J.,Luszczek,P.和Yamazaki,I.(2015)。高斯消去、并发和计算并行实现的最新发展综述:实践和经验27(5): 1292-1309.;
[10] Dongarra,J.、DuCroz,J.,Duff,I.S.和Hammarling,S.(1990年)。一组三级基本线性代数子程序,ACM数学软件事务16(1): 1-17.; ·Zbl 0900.65115号
[11] Dongarra,J.J.、Faverge,M.、Ltaief,H.和Luszczek,P.(2013)。使用递归tile LU分解、并发和计算实现数值精度和高性能:实践和经验26(6): 1408-1431.;
[12] Dumas,J.G.、Gautier,T.、Pernet,C.、Roch,J.L.和Sultan,Z.(2016)。高斯消去精确稠密线性代数例程的递归并行化,并行计算57: 235-249.;
[13] Evans,D.和Hatzopoulos,M.(1979年)。并行线性系统求解器,国际计算机数学杂志7(3) :227-238·Zbl 0442.65019号
[14] M.J.弗林(1972)。一些计算机组织及其有效性,IEEE计算机交易21(9): 948-960.; ·Zbl 0241.68020号
[15] García,I.、Merelo,J.、Bruguera,J.和Zapata,E.(1990年)。超立方体计算机上的并行象限联锁分解,并行计算15(1-3): 87-100.; ·Zbl 0707.65012号
[16] 古斯塔夫森,F.G.(1997)。递归导致密集线性代数算法的自动变量阻塞,IBM研究与开发杂志41(6): 737-756.;
[17] 英特尔(2019)。数学内核库。;
[18] Kurzak,J.,Langou,J.、Langou、C.D.J.、Ltaief,H.、Luszczek,P.、Yarkhan,A.、Haidar,A.、Hoffman,J.和Agullo,P.D.E.、Buttari,A.和Hadri,B.(2010年)。PLASMA用户指南:多核架构的并行线性代数软件,2.3版。;
[19] Marqués,M.、Quintana-Ortyí,G.、Quitana-Ortií,E.s.和van de Geijn,R.A.(2011年)。使用台式计算机解决大规模稠密线性代数问题,超级计算杂志58(2): 145-150.;
[20] Rao,S.C.S.(1997)。WZ分解的存在唯一性,并行计算23(8): 1129-1139.; ·Zbl 0898.65012号
[21] Yalamov,P.和Evans,D.(1995年)。WZ矩阵分解方法,并行计算21(7): 1111-1120.; ·Zbl 0875.68775号
[22] Yarkhan,A.、Kurzak,J.、Luszczek,P.和Dongarra,J.(2017)。将PLASMA数字库移植到OpenMP标准,国际并行编程杂志45(3) :612-633,DOI:10.1007/s10766-016-0441-6。;
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。