×

大规模并行多重网格解算器的弹性。 (英语) Zbl 1352.65626号

摘要:椭圆偏微分方程的容错大规模并行多重网格方法是朝着弹性求解器迈出的一步。在这里,我们将区域划分与几何多重网格方法相结合,以获得三维问题的快速无故障求解器。恢复策略基于虚值的冗余存储,因为它们通常用于分布式内存并行程序。在发生故障的情况下,冗余的接口值可以很容易地恢复,而丢失的内部未知量则通过使用多重网格循环的恢复算法近似地重新计算,以解决局部Dirichlet问题。从性能、计算成本和加速比方面对不同的策略进行了比较和评估。特别有效的是将全局求解与加速本地恢复相结合的异步策略。这样,就迭代次数和运行时间而言,可以完全补偿多个故障。为了举例说明,我们使用最先进的千兆级超级计算机来研究求解未知量高达6万亿(0.6万亿)的系统时的故障场景。

MSC公司:

65号55 多重网格方法;含偏微分方程边值问题的区域分解
第65年 并行数值计算
35J25型 二阶椭圆方程的边值问题
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] M.F.Adams、J.Brown、M.Knepley和R.Samtaney,《分段求精:数据局部性的多重网格技术》,SIAM J.Sci。计算。,38(2016),第C426-C440页·Zbl 1375.65167号
[2] E.Agullo、L.Giraud、A.Guermouche、J.Roman和M.Zounon,{朝向弹性平行线性Krylov解算器:恢复-恢复策略},研究报告RR-8324,INRIA,2013·Zbl 1424.65024号
[3] P.R.Amestoy,A.Guermouche,J.-Y.L'Excellent,和S.Pralet,{线性系统并行解的混合调度},并行计算。,32(2006),第136-156页。
[4] J.Anfinson和F.T.Luk,{基于算法的容错的线性代数模型},IEEE Trans。计算。,37(1988),第1599-1604页·Zbl 0661.94021号
[5] A.H.Baker、A.Klawonn、T.Kolev、M.Lanser、O.Rheinbach和U.M.Yang,{弹性为50万并行任务的经典代数多重网格的可伸缩性},收录于Exascale Computing软件-SPPEXA 2013-2015,Springer International,Cham,Switzerland,2016年,第113-140页。
[6] R.E.Bank,B.D.Welfert,和H.Yserentint,{解决鞍点问题的一类迭代方法},Numer。数学。,56(1990年),第645-666页·Zbl 0684.65031号
[7] P.Bastian、M.Blatt、A.Dedner、C.Engwer、R.Klo¨fkorn、R.Kornhuber、M.Ohlberger和O.Sander,{\it并行和自适应科学计算的通用网格接口。第二部分:DUNE}中的实现和测试,计算,82(2008),第121-138页·兹比尔1151.65088
[8] B.K.Bergen和F.Hu¨lsemann,《分层混合网格:多重网格的数据结构和核心算法》,Numer。线性代数应用。,11(2004),第279-291页·Zbl 1164.65517号
[9] J.Bey,《四面体网格精化》,《计算》,55(1995),第355-378页·Zbl 0839.65135号
[10] W.Bland、A.Bouteiller、T.Herault、G.Bosilca和J.J.Dongarra,《MPI通信能力的故障后恢复:设计和原理》,国际高性能计算杂志。申请。,27(2013),第244-254页。
[11] W.Bland、A.Bouteiller、T.Herault、J.Hursey、G.Bosilca和J.J.Dongarra,《MPI}中用户级故障缓解支持的评估》,收录于《消息传递接口的最新进展》,J.L.Tra­ff、S.Benkner和J.J Dongara编辑,《计算机课堂讲稿》。科学。7490,施普林格·弗拉格,柏林,海德堡,2012年,第193-203页。
[12] W.Bland、P.Du、A.Bouteiller、T.Herault、G.Bosilca和J.J.Dongarra,《扩展标准MPI中向前恢复的失败检查点协议的范围》,Concurr。计算。实际。专家。,25(2013),第2381-2393页。
[13] D.L.Boley、R.P.Brent、G.H.Golub和F.T.Luk,{使用Lanczos方法的算法容错},SIAM J.矩阵分析。申请。,13(1992年),第312-332页·Zbl 0760.65048号
[14] G.Bosilca、A.Bouteiller、E.Brunet、F.Cappello、J.J.Dongarra、A.Guermouche、T.Herault、Y.Robert、F.Vivien和D.Zaidouni,{\评估极端规模检查点协议的统一模型},Concurr。计算。实际。专家。,26(2014),第2772-2791页。
[15] A.Brandt和B.Diskin,{分解域上的多重网格解算器},《科学与工程领域分解方法》,Contemp。数学。157,AMS,普罗维登斯,RI,1994年,第135-155页·Zbl 0796.65137号
[16] A.Brandt和O.E.Livne,《多重网格技术:1984流体动力学应用指南》,修订版,经典应用。数学。67,SIAM,费城,2011年·Zbl 1227.65121号
[17] F.Brezzi和J.Douglas,Jr.,{斯托克斯问题的稳定混合方法},数值。数学。,53(1988),第225-235页·Zbl 0669.76052号
[18] P.G.Bridges、K.B.Ferreira、M.A.Heroux和M.Hoemmen,《通过选择性可靠性实现容错线性解算器》,预印本,arXiv:1206.1390[math.NA],2012年。
[19] F.Cappello,{千兆位/千兆位系统中的容错:当前知识、挑战和研究机会},国际高性能计算杂志。申请。,23(2009),第212-226页。
[20] F.Cappello、A.Geist、B.Gropp、L.Kale、B.Kramer和M.Snir,{\it Toward exascale resility},国际高性能计算杂志。申请。,23(2009),第374-388页。
[21] F.Cappello、A.Geist、S.Kale、B.Kramer和M.Snir,{迈向exascale弹性:(2014)更新},超级计算机。前面。因诺夫。,1(2014),第1-28页。
[22] M.Casas、B.R.de Supinski、G.Bronevetsky和M.Schulz,{代数多网格求解器的故障恢复力},第26届ACM超级计算国际会议论文集,ICS’12,ACM,纽约,2012年,第91-100页。
[23] Z.Chen,{在线-ABFT:一种基于在线算法的容错方案,用于迭代方法中的软错误检测},《第18届ACM SIGPLAN并行编程原理与实践研讨会论文集》,PPoPP’13,ACM,纽约,2013年,第167-176页。
[24] Z.Chen和J.J.Dongarra,{基于算法的故障停止故障容错},IEEE Trans。并行分配系统。,19(2008),第1628-1641页。
[25] E.Chow、R.D.Falgout、J.J.Hu、R.S.Tuminaro和U.M.Yang,《多重网格求解器的并行化技术概览》,载于《科学计算的并行处理》,M.A.Heroux、P.Raghavan和H.D.Simon编辑,《软件环境》。工具20,SIAM,费城,2006年,第179-201页。
[26] T.Cui、J.Xu和C.-S.Zhang,{it An Error-Resilient Redundant Subspace Correction Method},预印本,arXiv:1309.0212v1[math.NA],2013年·Zbl 1364.65275号
[27] J.Daly,《重新启动转储的最佳检查点间隔预测模型》,载《2003年国际计算科学会议论文集》,ICCS’03,Springer-Verlag,柏林,海德堡,2003年,第3-12页。
[28] T.Davies和Z.Chen,{\it Correction soft errors in LU factorying},发表在《第22届高性能并行和分布式计算国际研讨会论文集》,HPDC’13,ACM,纽约,2013,第167-178页。
[29] S.Di、M.S.Bouguerra、L.Bautista-Gomez和F.Cappello,{大规模HPC应用的多级检查点模型优化},《2014年IEEE第28届国际并行和分布式处理研讨会论文集》,IPDPS’14,IEEE计算机学会,华盛顿特区,2014年,第1181-1190页。
[30] J.J.Dongarra、T.Herault和Y.Robert,{高性能计算的容错技术},《高性能计算中的容错技术》,施普林格国际,瑞士查姆,2015年,第3-85页·Zbl 1330.68026号
[31] P.D.Duöben、J.Joven、A.Lingamneni、H.McNamara、G.De Micheli、K.V.Palm和T.N.Palmer,《关于大气建模中使用不精确的修剪硬件》,Philos。事务处理。R.Soc.A,372(2014),20130276。
[32] G.E.Fagg和J.J.Dongarra,《容错MPI:在动态世界中支持动态应用》,摘自《并行虚拟机和消息传递接口的最新进展》,施普林格,柏林,海德堡,2000年,第346-353页。
[33] R.D.Falgout和U.M.Yang,《炒作:高性能预处理程序库》,载《国际计算科学会议论文集》,ICCS’02,Springer-Verlag,伦敦,2002年,第632-641页·Zbl 1056.65046号
[34] B.Gmeiner,T.Gradl,F.Gaspar,和U.Ruíde,{通过局部傅里叶分析优化半结构网格上的多重网格收敛速度},计算。数学。申请。,65(2013),第694-711页·Zbl 1319.65118号
[35] B.Gmeiner、M.Huber、L.John、U.Ru¨de和B.Wohlmuth,《斯托克斯解算器在极端规模下的定量性能分析》,J.Compute。科学。,(2016), .
[36] B.Gmeiner、H.Ko¨stler、M.Sturmer和U.Ru¨de,《分层混合网格上的并行多重网格:当前高性能计算集群的性能研究》,Concurr。计算。实际。专家。,26(2014),第217-240页。
[37] B.Gmeiner、U.Ruíde、H.Stengel、C.Waluga和B.Wohlmuth,《斯托克斯系统分层混合多重网格解算器的性能和可扩展性》,SIAM J.Sci。计算。,37(2015),第C143-C168页·Zbl 1320.65188号
[38] B.Gmeiner、U.Ruíde、H.Stengel、C.Waluga和B.Wohlmuth,{\it-平行多重网格的教科书效率},Numer。数学。理论方法应用。,8(2015),第22-46页·Zbl 1340.65296号
[39] D.Goöddeke、M.Altenbernd和D.Ribbrock,{具有分层压缩异步检查点的容错有限元多重网格算法},并行计算。,49(2015),第117-135页。
[40] W.Hackbusch,{多重网格方法与应用},Springer Ser。计算。数学。4,施普林格·弗拉格,柏林,1985年·Zbl 0595.65106号
[41] B.Harding、M.Hegland、J.Larson和J.Southern,《稀疏网格组合技术的容错计算》,SIAM J.Sci。计算。,37(2015),第C331-C353页·Zbl 1320.65206号
[42] V.E.Henson和U.M.Yang,{BoomerAMG:并行代数多重网格解算器和预条件器},应用。数字。数学。,41(2002),第155-177页·Zbl 0995.65128号
[43] K.-H.Huang和J.A.Abraham,{矩阵运算基于算法的容错},IEEE Trans。计算。,33(1984年),第518-528页·Zbl 0557.68027号
[44] J.Hursey,{\it Coordinated Checkpoint/Restart Process Fault Tolerance for MPI Applications on HPC Systems},印第安纳州印第安纳波利斯印第安纳大学博士论文,2010年。
[45] O.Ippisch和M.Blatt,(μφ)的{it可伸缩性测试和DUNE-ISTL}的并行代数多重网格解算器,载于2011年Ju-lich BlueGene/P极限缩放研讨会,B.Mohr和W.Frings,eds.,Ju-lich-超级计算中心,Ju-llich,德国,2011年,技术报告FZJ-JSC-IB-2011-02。
[46] 朱利希超级计算中心,《朱利希超级计算中心的IBM Blue Gene/Q超级计算机系统》,大型研究设施杂志,1(2015),A1。
[47] J.Langou,Z.Chen,G.Bosilca和J.J.Dongarra,{并行不稳定环境中迭代方法的恢复模式},SIAM J.Sci。计算。,30(2007),第102-116页·Zbl 1159.65318号
[48] F.T.Luk和H.Park,《基于算法的容错技术分析》,J.Parallel。分布计算。,5(1988年),第172-184页。
[49] K.Malkowski、P.Raghavan和M.Kandimir,《分析多核多处理器上线性解算器的软错误弹性》,摘自2010年IEEE并行与分布式处理国际研讨会(IPDPS)论文集,2010年,第1-12页。
[50] M.Maniatakos、P.Kudva、B.M.Fleischer和Y.Makris,{浮点单元(FPU)控制器的低成本并发错误检测},IEEE Trans。计算。,62(2013),第1376-1388页·Zbl 1365.65312号
[51] O.A.McBryan、P.O.Frederickson、J.Lindenand、A.Schu¨ller、K.Solchenbach、K.Stu¨ben、C.-A.Thole和U.Trottenberg,《并行计算机上的多重网格方法——最新发展概览》,《影响计算》。科学。工程,3(1991),第1-75页·Zbl 0723.65096号
[52] A.Moody、G.Bronevetsky、K.Mohror和B.R.De Supinski,{可扩展多级检查点系统的设计、建模和评估},《2010年ACM/IEEE高性能计算、网络、存储和分析国际会议论文集》(SC'10),2010年,第1-11页。
[53] S.S.Mukherjee、J.Emer和S.K.Reinhardt,《软错误问题:架构视角》,载《第十一届高性能计算机架构国际研讨会论文集》,2005年,HPCA’05,IEEE计算机学会,华盛顿特区,2005,第243-247页。
[54] E.H.Muöller和R.Scheichl,《数值天气和气候预测中椭圆偏微分方程的大规模并行求解器》,Q.J.Roy。阿童木。Soc.,140(2014),第2608-2624页。
[55] Y.Notay和A.Napov,《离散类泊松问题的大规模并行求解器》,J.Compute。物理。,281(2015),第237-250页·Zbl 1352.65454号
[56] A.Roy Chowdhury和P.Banerjee,《拉普拉斯方程迭代解的容错并行算法》,载于《1993年国际并行处理会议论文集》,ICPP’93,第3卷,IEEE计算机学会,华盛顿特区,1993年,第133-140页。
[57] F.Shahzad、M.Wittmann、T.Zeiser、G.Hager和G.Wellein,《检查点/重启不同I/O技术的评估》,《2013年IEEE第27届国际并行和分布式处理研讨会暨博士论坛(IPDPSW)论文集》,2013年,第1708-1716页。
[58] J.Sloan、R.Kumar和G.Bronevetsky,{稀疏线性代数低开销故障检测的算法方法},《2012年第42届IEEE/IFIP可靠系统和网络国际会议论文集》(DSN’12),IEEE计算机学会,华盛顿特区,2012年,第1-12页。
[59] M.Stoyanov和C.Webster,{硬件故障下不动点算法的数值分析},SIAM J.Sci。计算。,37(2015),第C532-C553页·Zbl 1323.65058号
[60] H.Sundar、G.Biros、C.Burstedde、J.Rudi、O.Ghattas和G.Stadler,《八叉树非结构化森林上的并行几何代数多重网格》,《2012年高性能计算、网络、存储和分析国际会议论文集》(SC'12),IEEE计算机学会,加利福尼亚州洛斯阿拉米托斯,2012,43。
[61] 杨宇明,{\it关于混合平滑器中松弛参数的使用},数值。线性代数应用。,11(2004),第155-172页·Zbl 1164.65361号
[62] I.Yavneh,{关于多重网格中的红黑SOR平滑},SIAM J.Sci。计算。,17(1996),第180-192页·Zbl 0845.65013号
[63] G.Zheng,C.Huang,和L.V.Kaleí,{\it AMPI和Charm\(++\)}基于自动检查点的容错性能评估,SIGOPS Oper。系统。第40版(2006年),第90-99页。
[64] W.Zulehner,《鞍点问题迭代方法的分析:统一方法》,《数学》。公司。,71(2002),第479-505页·兹比尔0996.65038
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。