×

为exascale计算准备稀疏解算器。 (英语) Zbl 1462.65043号

摘要:稀疏解算器为各种科学应用提供了基本功能。高度并行的稀疏解算器对于高保真度、多物理和多尺度模拟的持续发展至关重要,特别是当我们以exascale平台为目标时。本文描述了美国能源部Exascale计算项目在为Exascale计算机平台提供稀疏解算器方面的挑战、策略和进展。我们使用数千个高性能节点设备来满足系统的需求,在这些设备中,暴露并发性、隐藏延迟和创建替代算法变得至关重要。这里描述的努力是正在进行的工作,突出了当前的成功和即将到来的挑战。

MSC公司:

65层50 稀疏矩阵的计算方法
65日元10 特定类别体系结构的数值算法
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] 橡树岭领导力计算设施。2019年美国最新、最智能的超级计算机。参见www.olcf.ornl.gov/summit。
[2] 利弗莫尔计算中心。2019 Sierra计算系统。请参见https://hpc.llnl.gov/hardware/platforms/sierra。
[3] MPI论坛。2019消息传递接口(MPI)。见www.mpi-forum.org。
[4] 日本Keasler Hornung路。2014 RAJA可移植层:概述和状态。技术报告LLNL-TR-661403,劳伦斯·利弗莫尔国家实验室。
[5] Edwards HC、Trott CR、Sunderland D.2014 Kokkos:通过多态内存访问模式实现Manycore性能可移植性。J.平行分布计算。74, 3202-3216. (doi:10.1016/j.jpdc.2014.07.003)·doi:10.1016/j.jpdc.2014.07.003
[6] 银杏主页。请参见https://ginkgo-project.github.io/。
[7] xSDK:极端规模的科学软件开发工具包。请参见https://xsdk.info/。
[8] 马丁·RC。2017清洁架构:软件结构和设计的工匠指南。罗伯特·C·马丁系列。马萨诸塞州波士顿:普伦蒂斯·霍尔。
[9] 谷歌测试。请参见https://github.com/google/googletest。
[10] Anzt H、Cojean T、Flegar G、Grützmacher T、Nayak P.2015《银杏图书馆的可持续软件开发》。请参见https://figuhare.com/articles/SupstainableGinkgo4_calibri_pdf/7762802。
[11] 美国能源部科学办公室,2010年,Exascale计算的机遇与挑战。请参见http://science.energy.gov//media/ascr/ascac/pdf/reports/Exascale_subcommitte_report.pdf。
[12] Saad Y.2003稀疏线性系统的迭代方法,第2版。宾夕法尼亚州费城:SIAM·Zbl 1002.65042号
[13] Chow E,Patel A.2015细粒度平行不完全LU因子分解。SIAM J.科学。计算。37,C169-C193。(doi:10.1137/140968896)·Zbl 1320.65048号 ·数字对象标识代码:10.1137/140968896
[14] Chow E,Anzt H,Dongarra J.2015 GPU上计算不完全因式分解的异步迭代算法。程序中。第30届国际会议,ISC High Performance 2015。《计算机科学讲义》(J Kunkel,T Ludwig编辑),第9137卷,第1-16页。德国柏林:施普林格。
[15] Anzt H,Chow E,Saak J,Dongarra J.2016更新模型降阶的不完全因子分解预条件。数字。算法73,611-630。(doi:10.1007/s11075-016-010-2)·Zbl 1353.65022号 ·doi:10.1007/s11075-016-0110-2
[16] Anzt H,Chow E,Dongarra J.2018 ParILUT——一种新的并行阈值ILU因子分解。SIAM J.科学。计算。40,C503-C519。(doi:10.1137/16M1079506)·Zbl 1391.65055号 ·doi:10.1137/16M1079506
[17] Anzt H、Ribizel T、Flegar G、Chow E、Dongarra J.2019 ParILUT-GPU的并行阈值ILU。2019年IEEE国际并行和分布式程序。交响乐团。(IPDPS),第231-241页。新泽西州皮斯卡塔韦:IEEE。
[18] Anzt H,Dongarra J,Flegar G,Higham NJ,Quintana OrtíES.2019迭代稀疏线性系统解算器的自适应精确块雅可比预处理。并发计算:实际。支出31,e4460。(doi:10.1002/cpe.4460)·doi:10.1002/cpe.4460
[19] Sterck HD,Falgout RD,Nolting JW,Yang UM.2008并行代数多重网格的距离二插值.数值。线性代数应用。15, 115-139. 多重网格方法专题。UCRL-JRNL-230844(doi:10.1002/nla.559)·Zbl 1212.65139号 ·doi:10.1002/nla.559
[20] Vassilevski PS,Yang UM.2014使用加法变量减少代数多重网格中的通信。数字。线性代数应用。21, 275-296. (doi:10.1002/nla.1928)·Zbl 1340.65304号 ·doi:10.1002/nla.1928
[21] Ashby SF,Falgout RD.1996地下水流动模拟的并行多重网格预处理共轭梯度算法。编号。科学。工程124、145-159。UCRL-JC-122359(doi:10.13182/NSE96-A24230)·doi:10.13182/NSE96-A24230
[22] 法尔古特RD,施罗德JB。2014年代数多重网格的非高斯粗网格。SIAM J.Sci。计算。36,C309-C334。LLNL-JRNL-641635(doi:10.1137/130931539)·Zbl 1297.65035号 ·doi:10.137/130931539
[23] Bienz A、Falgout RD、Gropp W、Olson LN、Schroder JB。2016通过稀疏化减少代数多重网格中的并行通信。SIAM J.科学。计算。38,S332-S357。LLNL-JRNL-673388(doi:10.1137/15M1026341)·Zbl 1352.65102号 ·doi:10.1137/15M1026341
[24] R银行,Falgout RD,Jones T,Manteuffel TA,McCormick SF,Ruge JW。2015代数多重网格域和范围分解(AMG-DD/AMG-RD)。SIAM J.科学。计算。37,S113-S136。LLNL-JRNL-666751(doi:10.1137/140974717)·Zbl 1325.65169号 ·数字对象标识代码:10.1137/140974717
[25] Brandt A,Diskin B.1994分解域上的多网格解算器。《科学与工程领域分解方法:第六届国际领域分解会议》,当代数学第157卷,第135-155页。罗德岛州普罗维登斯:美国数学学会·Zbl 0796.65137号
[26] Mitchell W.1998使用全域划分的并行多重网格方法。电子。事务处理。数字。分析。6, 224-233. ·Zbl 0898.65080号
[27] Bank R,Holst M.2000并行自适应网格算法的新范例。SIAM J.科学。统计公司。22, 1411-1443. (doi:10.1137/S1064827599353701)·Zbl 0979.65110号 ·doi:10.1137/S1064827599353701
[28] Bank R,Jimack P.2001椭圆偏微分方程自适应有限元解的一种新的并行区域分解方法。并发计算:实际。专家。13, 327-350. (doi:10.1002/cpe.569)·Zbl 1008.65503号 ·doi:10.1002/cpe.569
[29] Bank RE,Lu S,Tong C,Vassilevski PS.2004可扩展并行代数多重网格求解器。技术报告UCRL-TR-210788,劳伦斯·利弗莫尔国家实验室,加利福尼亚州利弗莫尔市。
[30] Appelhans DJ、Manteuffel T、McCormick S、Ruge J.2016基于范围分解求解偏微分方程的低通信并行算法。数字。线性代数应用。24,e2041。(doi:10.1002/nla.2041)·Zbl 1424.65264号 ·doi:10.1002/nla.2041
[31] Engwer C,Falgout RD,Yang UM。2017基于PDE的应用程序的模板计算,以及DUNE和hypre的示例。并发计算:实际。实验29,e4097。LLNL-JRNL-681537(doi:10.1002/cpe.4097)·doi:10.1002/cpe.4097
[32] Balay S等人,2019年PETSc用户手册。技术报告ANL-95/11-3.11版,阿贡国家实验室。
[33] Balay S等人,2019年PETSc网页。见www.mcs.anl.gov/petsc。
[34] Minden V,Smith BF,Knepley MG.2013年使用GPU初步实施PETSc。在科学与工程多尺度问题的GPU解决方案中(编辑:DA Yuen、L Wang、X Chi、L Johnsson、W Ge、Y Shi)。地球系统科学课堂讲稿,第131-140页。德国柏林:施普林格。
[35] Rupp K,Tillet P,Rudolf F,Weinbub J,Morhammer A,Grasser T,Jüngel A,Selberherr S.2016多核和多核架构的维也纳CL-线性代数库。SIAM J.科学。计算。38,S412-S439。(doi:10.1137/15M1026419)·Zbl 1349.65740号 ·doi:10.1137/15M1026419
[36] 贝尔N、道尔顿S、奥尔森LN。2012年揭示代数多重网格方法中的细粒度并行性。SIAM J.科学。计算。34,C123-C152。(doi:10.1137/110838844)·Zbl 1253.65041号 ·数字对象标识代码:10.1137/10838844
[37] SuperLU:稀疏直接解算器。请参见http://crd.lbl.gov/xiaoye/SuperLU/。
[38] STRUMPACK:结构化矩阵包。请参见http://portal.nersc.gov/project/sparse/strumpack/。
[39] Chandrasekaran S,Gu M,Lyons W.2005分层半可分表示的快速自适应解算器。卡尔科洛42,171-185。(文件编号:10.1007/s10092-005-0103-3)·Zbl 1168.65330号 ·doi:10.1007/s10092-005-0103-3
[40] Ambikasaran S,Darve E.2013部分层次半可分矩阵的O(N log N)快速直接求解器。科学杂志。计算。57, 477-501. (doi:10.1007/s10915-013-9714-z)·兹比尔1292.65030 ·数字对象标识代码:10.1007/s10915-013-9714-z
[41] Amestoy P、Ashcraft C、Boiteau O、Buttari A、L'Excellent JY、Weisbecker C。2015年,通过区块低阶表征改进多面方法。SIAM J.科学。计算。第37页,A1451-A1474。(doi:10.1137/120903476)·兹伯利1314.05111 ·数字对象标识代码:10.1137/120903476
[42] Sao P,Vuduc R,Li X.2018稀疏矩阵的通信避免3D分解。第32届IEEE国际并行与分布式处理研讨会。(IPDPS)。新泽西州皮斯卡塔韦:IEEE。
[43] Sao P,Vuduc R,Li X.2019一种避免通信的3D稀疏三角形解算器。ICS 2019:超级计算国际会议。新泽西州皮斯卡塔韦:IEEE。
[44] Liu Y,Jacquelin M,Ghysels P,Li X.2018高度可扩展分布式内存稀疏三角解算法。程序中。SIAM组合科学计算研讨会。宾夕法尼亚州费城:SIAM。
[45] 丁恩、刘毅、李X、威廉姆斯S.提交了《利用单边沟通促进稀疏三角解算器——exascale解算器的途径》。程序中。SC19的。科罗拉多州丹佛市(已提交)。
[46] Sao P,Vuduc R,Li X.2019异构系统上稀疏LU分解的避免通信的3D算法。J.平行分布计算。131, 218-234. (doi:10.1016/j.jpdc.2019.03.004)·doi:10.1016/j.jpdc.2019.03.004
[47] Gorman C、Chávez G、Ghysels P、Mary T、Rouet FH、Li XS。2019无矩阵HSS施工中自适应随机抽样的稳健且准确的停止标准。SIAM J.科学。计算。41,S61-S85。(doi:10.1137/18M1194961)·Zbl 1436.65057号 ·doi:10.1137/18M1194961
[48] Ghysels P,Li X,Liu Y,Kolev T,Anitescu M.2018年STRUMPACK/SuperLU ECP应用瓶颈研究:Exascale基于因子分解的稀疏矩阵解算器和前置条件。http://portal.nersc.gov/project/sparse/strampack/docs/MS-ECP-App-Bottlenecks-study-Oct-2018.pdf。
[49] Liu Y,Guo H,Michielssen E.2017一种基于HSS矩阵的直接求解器,用于分析二维物体的散射。IEEE天线导线。传播。莱特。16, 1179-1183. (doi:10.1109/LAWP.2016.2626786)·doi:10.1109/LAWP.2016.2626786
[50] Rouet FH,Li XS,Ghysels P,Napov A.2016使用随机化进行密集分层半可分矩阵计算的分布式内存包。ACM事务处理。数学。柔和。(TOMS)42、27。(doi:10.1145/2930660)·Zbl 1369.65043号 ·doi:10.1145/2930660
[51] Rebrova E、Chávez G、Liu Y、Ghysels P、Li XS。2018核岭回归的聚类技术和层次矩阵格式研究。2018年IEEE国际并行和分布式处理研讨会(IPDPSW),第883-892页。新泽西州皮斯卡塔韦:IEEE。
[52] Heroux MA等人,2005年,trilinos项目概述。ACM事务处理。数学。柔和。(TOMS)31397-423。(doi:10.1145/1089014.108901)·Zbl 1136.65354号 ·数字对象标识代码:10.1145/1089014.108901
[53] Heroux MA.2005 Epetra性能优化指南。技术报告SAND2005-1668,新墨西哥州阿尔伯克基,桑迪亚国家实验室。
[54] Baker CG,Heroux MA.2012 Tpetra,以及科学计算中泛型编程的使用。科学。程序。20, 115-128. (doi:10.1155/2012/693861)·doi:10.115/2012/693861
[55] Deveci M,Trott C,Rajamanickam S.2018适用于许多核心和GPU架构的多线程稀疏矩阵矩阵乘法。并行计算。78, 33-46. (doi:10.1016/j.parco.2018.06.009)·doi:10.1016/j.parco.2018.06.009
[56] Deveci M、Boman EG、Devine KD、Rajamanickam S.2016多核架构的并行图着色。2016年IEEE国际并行和分布式处理研讨会(IPDPS),第892-901页。新泽西州皮斯卡塔韦:IEEE。
[57] Wolf MM、Deveci M、Berry JW、Hammond SD、Rajamanickam S.,2017年基于KokkosKernel的快速线性代数三角计数。2017年IEEE高性能极限计算会议(HPEC),第1-7页。电气与电子工程师协会。
[58] Yašar A、Rajamanickam S、Wolf M、Berry J、JoatalyüreküV。2018年使用cilk进行快速三角形计数。2018年IEEE高性能极限计算会议(HPEC),第1-7页。新泽西州皮斯卡塔韦:IEEE。
[59] Kim K、Costa TB、Deveci M、Bradley AM、Hammond SD、Guney ME、Knepper S、Story S、Rajamanickam S.2017设计矢量友好型紧凑BLAS和LAPACK内核。程序中。高性能计算、网络、存储和分析国际会议,第55页。纽约州纽约市:ACM。
[60] Howard M、Fisher T、Hoemmen M、Dinzl D、Overfelt J、Bradley A、Kim K、Rajamanickam S.2018在下一代高性能计算平台上大规模使用CFD的多级并行。程序中。第十届国际计算流体动力学会议,ICCFD10,巴塞罗那,2018年7月9日至13日。
[61] Lin P等人,2014年,使用第二代trilinos对低马赫数流体进行极值模拟。并行过程。莱特。24, 1442005. (doi:10.1142/S0129626414420055)·doi:10.1142/S0129626414420055
[62] Bavier E、Hoemmen M、Rajamanickam S、Thornquist H.2012 Amesos2和Belos:大型稀疏线性系统的直接和迭代求解器。科学。程序。20, 241-255. (doi:10.1155/2012/243875)·doi:10.1155/2012/243875
[63] Prokopenko A、Siefert C、Hu JJ、Hoemmen MF、Klinvex AM。2016 Ifpack2用户指南1.0。技术报告,Sandia国家实验室(SNL-NM),新墨西哥州阿尔伯克基。
[64] Rajamanickam S、Boman EG、Heroux MA,2012 ShyLU:多核平台的混合求解器。2012年IEEE第26届国际并行和分布式程序。交响乐团。,第631-643页。新泽西州皮斯卡塔韦:IEEE。
[65] Prokopenko A、Hu JJ、Wiesner TA、Siefert CM、Tuminaro RS.2014 MueLu用户指南1.0。技术报告SAND2014-18874,Sandia National Laboratories,Albuquerque,NM。
[66] Booth JD、Ellingwood ND、Thornquist HK、Rajamanickam S.2017 Basker:利用层次并行和数据布局的并行稀疏LU分解。并行计算。第68页,第17-31页。(doi:10.1016/j.parco.2017.06.003)·doi:10.1016/j.parco.2017.06.003
[67] Kim K,Edwards HC,Rajamanickam S.2018塔乔:内存可缩放任务并行稀疏Cholesky因式分解。2018年IEEE国际并行和分布式处理研讨会。研讨会(IPDPSW),第550-559页。新泽西州皮斯卡塔韦:IEEE。
[68] Grigori L,Moufawad S.2015通信避免ILU0前置条件。SIAM J.科学。计算。37,C217-C246。(doi:10.1137/130930376)·Zbl 1328.65076号 ·数字对象标识代码:10.1137/130930376
[69] Yamazaki I、Rajamanickam S、Boman EG、Hoemmen M、Heroux MA、Tomov S.2014混合CPU-GPU集群上通信避免Krylov方法的区域分解前置条件。程序中。高性能计算、网络、存储和分析国际会议,SC'14,第933-944页。新泽西州皮斯卡塔韦:IEEE。
[70] Vetter JS等人,《2018年极端异质性2018——极端异质性时代的生产性计算科学:DOE ASCR极端异质性研讨会报告》。技术报告1473756,美国能源部,华盛顿特区。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。