×

容错线性系统解算器的擦除编码。 (英语) Zbl 1382.68039号

摘要:随着并行和分布式系统扩展到数百万个处理核心,处理故障是一个重要问题。处理故障的传统方法包括检查点重新启动、活动副本和确定性重放。每种技术都有相关的资源开销和限制。在本文中,我们提出了一种基于输入增强的处理故障的替代方法。这种方法是擦除编码存储的算法模拟,在增强输入上应用最小修改的算法以产生增强输出。这种算法的执行过程完全无视系统中的故障。在发生一个或多个故障的情况下,使用快速重建方法从增加的输出中恢复实际解。我们在使用共轭梯度解算器求解稀疏线性系统的问题上演示了这种方法,其中我们介绍了输入增强和输出恢复技术。通过仿真,我们表明我们的方法可以在低计算开销的情况下忽略大量故障。具体来说,我们演示了可以用不到10%的时间开销来纠正单个故障的情况,即使在极端情况下(故障率为20%),我们的方法也能够用合理的开销来计算解决方案。

MSC公司:

68米15 网络和计算机系统的可靠性、测试和容错
65层10 线性系统的迭代数值方法
第65年 并行数值计算
64岁以下 分布式系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] G.Bosilca、R.Delmas、J.Dongarra和J.Langou,{基于算法的容错应用于高性能计算},J.并行分布计算。,69(2009),第410-416页。
[2] M.Bougeret、H.Casanova、M.Rabie、Y.Robert和F.Vivien,{并行作业的检查点策略},《2011年高性能计算、网络、存储和分析国际会议论文集》,美国计算机学会,纽约,2011,33。
[3] P.G.Bridges、K.B.Ferreira、M.A.Heroux和M.Hoemmen,《通过选择性可靠性实现容错线性解算器》,预印本,arXiv:1206.13902012年。
[4] Z.Chen,{容错矩阵运算的最佳实数码},《高性能计算网络、存储和分析会议论文集》,美国计算机学会,纽约,2009年,29月。
[5] Z.Chen,{无检查点迭代方法的基于算法的恢复},《第20届高性能分布式计算国际研讨会论文集》,美国计算机学会,纽约,2011年,第73-84页。
[6] Z.Chen和J.Dongarra,{基于随机矩阵的数值稳定实数码},计算科学,计算讲义。科学。3514,施普林格,柏林,2005年,第115-122页·Zbl 1129.65314号
[7] Z.Chen和J.Dongarra,{基于算法的故障停止故障容错},IEEE Trans。并行分布式系统,19(2008),第1628-1641页。
[8] Z.Chen、G.E.Fagg、E.Gabriel、J.Langou、T.Angskun、G.Bosilca和J.Dongarra,{通过编码方法实现容错高性能计算},《第十届ACM SIGPLAN并行编程原理与实践研讨会论文集》,ACM,纽约,2005年,第213-223页。
[9] K.L.Clarkson、P.Drineas、M.Magdon-Ismail、M.W.Mahoney、X.Meng和D.P.Woodruff,{快速柯西变换和快速稳健线性回归},收录于SODA,Curran,Red Hook,NY,2013年,第466-477页·Zbl 1342.68352号
[10] T.A.Davis和Y.Hu,{佛罗里达大学稀疏矩阵集合},ACM Trans。数学。软件,38(2011),1·Zbl 1365.65123号
[11] J.Dean和S.Ghemawat,{\it MapReduce:简化大型集群上的数据处理},《第六届操作系统设计与实现研讨会论文集》(OSDI2004),USENIX,加州伯克利,2004年,第137-150页。
[12] I.S.Duff、R.G.Grimes和J.G.Lewis,《稀疏矩阵测试问题》,ACM Trans。数学。《软件》,15(1989),第1-14页·Zbl 0667.65040号
[13] J.Elliott、M.Hoemmen和F.Mueller,《数值方法中的弹性:对断层模型和方法的定位》,预印本,arXiv,cs。MS,第1401.3013页,2014年。
[14] J.Elliott、M.Hoemmen和F.Mueller,{迭代线性解算器的数值软故障模型},《第24届高性能并行和分布式计算国际研讨会论文集》,美国计算机学会,纽约,2015年,第271-274页。
[15] J.van den Eshof和G.L.G.Sleijpen,{线性系统的不精确Krylov子空间方法},SIAM J.矩阵分析。申请。,26(2004),第125-153页·Zbl 1079.65036号
[16] S.Foucart和H.Rauhut,《压缩传感的数学导论》,Birkha用户,巴塞尔,2013年·Zbl 1315.94002号
[17] M.Gamell、K.Teranishi、M.A.Heroux、J.Mayo、H.Kolla、J.Chen和M.Parashar,{基于模板的极端规模应用程序的本地恢复和故障屏蔽},《高性能计算、网络、存储和分析国际会议论文集》,美国计算机学会,纽约,2015年,70·Zbl 1418.68021号
[18] K.-H.Huang和J.A.Abraham,{矩阵运算基于算法的容错},IEEE Trans。计算。,C-33(1984),第518-528页·兹伯利0557.68027
[19] I.C.F.Ipsen和C.D.Meyer,《克里洛夫方法背后的想法》,Amer。数学。《月刊》,105(1998),第889-899页·Zbl 0982.65034号
[20] M.Kooper、H.van der Vorst、S.Poedts和J.Goedbloed,{隐含更新的Arnoldi方法在MHD中的应用},J.Compute。物理。,118(1995),第320-328页·Zbl 0822.76070号
[21] J.B.Kruskal,{\it三路数组:三线性分解的秩和唯一性,及其在算术复杂性和统计学中的应用},线性代数应用。,18(1977年),第95-138页·Zbl 0364.15021号
[22] X.Meng和M.W.Mahoney,{输入稀疏时间中的低密度子空间嵌入及其在稳健线性回归中的应用},《第四十五届ACM计算理论研讨会论文集》,ACM,纽约,2013年,第91-100页·Zbl 1293.68150号
[23] G.Meurant,《Lanczos和共轭梯度算法:从理论到有限精度计算》,软件,环境。工具,SIAM,费城,2006年·Zbl 1110.65029号
[24] Y.Notay,{柔性共轭梯度},SIAM J.Sci。计算。,22(2000),第1444-1460页·Zbl 0980.65030号
[25] Y.Saad,一种灵活的内外预处理GMRES算法,SIAM J.Sci。计算。,14(1993),第461-469页·Zbl 0780.65022号
[26] F.B.Schneider,{\it使用状态机方法实现容错服务:教程},ACM Compute。调查。,22(1990),第299-319页。
[27] V.Simoncini和D.B.Szyld,{柔性内外Krylov子空间方法},SIAM J.Numer。分析。,40(2003a),第2219-2239页·Zbl 1047.65021号
[28] V.Simoncini和D.B.Szyld,《不精确Krylov子空间方法的理论及其在科学计算中的应用》,SIAM J.Sci。计算。,25(2003b),第454-477页·Zbl 1048.65032号
[29] J.J.Wilke、K.Teranishi、J.C.Bennett、H.Kolla、D.S.Hollman和N.Slattengren,通过容错、面向对象的传输层进化消息传递编程模型,发表在《极限规模HPC容错第五次研讨会论文集》中,ACM,纽约,2015,第41-46页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。