×

处理HPC应用程序中的静默错误。 (英语) Zbl 1396.68069号

Adamatzky,Andrew(编辑),《紧急计算》。Selim G.Akl的节日。查姆:施普林格(ISBN 978-3-319-46375-9/hbk;978-3-3169-46376-6/电子书)。《涌现、复杂性与计算》24,269-292(2017)。
摘要:本章描述了检测和纠正无声错误的统一框架,这些错误对极端规模的科学应用构成了重大威胁。我们首先激发这个问题,并解释为什么检查点必须与一些验证机制相结合。然后,我们介绍了一种基于随时间周期性重复的计算模式的通用技术。这些模式交错验证和检查点,我们展示了如何确定模式以最小化预期的执行时间。然后,我们转向特定于应用程序的技术,回顾线性任务链的动态规划算法,以及稀疏线性代数中迭代方法的面向ABFT的算法。感谢Yves Robert的Selim Akl,我有一个生动的90年代初Selim访问里昂的纪念品。塞利姆获得了路易斯·奈尔奖学金,致力于促进加拿大和法国罗纳阿尔卑斯地区之间的交流,他与家人在里昂呆了6个月。米歇尔·科斯纳德当时是LIP实验室的负责人。Selim开设了一门关于并行算法的课程,主要是排序和PRAM,这引起了我们的学生和实验室研究人员的极大兴趣。在他逗留期间,Selim与Jean Duprat、Afonso Ferreira和Pierre Fraigniaud进行了几次合作。虽然我从未与他合作过,但我要感谢他的远见。当时我是LIP的一名年轻教授,我很想见到一位明星,但他很友善。他的两本书[S.G.Akl公司,并行排序算法。奥兰多等:学术出版社(1985;Zbl 0657.68070号); 并行算法的设计与分析。新泽西州恩格尔伍德克利夫斯:普伦蒂斯·霍尔公司(1989;Zbl 0754.68053号)]对LIP的许多研究人员(包括我自己)产生了巨大影响,因为他们帮助我们形成了对并行复杂性的看法。后来,我们都选择了不同的研究方向(PRAM、超立方体、脉动阵列、调度、路由(dots)),但塞利姆为我们奠定了该领域的基础,我们非常感谢他。
关于整个系列,请参见[Zbl 1373.68016号].

MSC公司:

60年第68季度 规范和验证(程序逻辑、模型检查等)
2010年第68季度 计算模式(非确定性、并行、交互式、概率性等)
PDF格式BibTeX公司 XML格式引用
全文: 内政部 哈尔

参考文献:

[1] 1.Aupy,G.,Benoit,A.,Hérault,T.,Robert,Y.,Vivien,F.,Zaidouni,D.:关于无声错误检测和检查点的结合。摘自:2013年可靠计算国际研讨会论文集,第11-20页(2013)
[2] 2.Bautista-Gomez,L.、Benoit,A.、Cavelan,A.、Raina,S.K.、Robert,Y.、Sun,H.:软错误检测的哪种验证?摘自:《2015年高性能计算国际会议论文集》(HiPC’2015)。IEEE计算机学会出版社(2015)
[3] 3.Benoit,A.、Cavelan,A.、Robert,Y.、Sun,H.:评估通用算法以应对故障停止和静默错误。摘自:第五届高性能计算机系统(PMBS)性能建模、基准测试和仿真国际研讨会论文集(2014年)
[4] 4.Benoit,A.、Cavelan,A.、Robert,Y.、Sun,H.:应对失败-停止和沉默错误的最佳弹性模式。研究报告RR-8786,INRIA(2015)。
[5] 5.Benoit,A.、Cavelan,A.、Robert,Y.、Sun,H.:线性任务图的两级检查点和部分验证。摘自:第六届高性能计算机系统性能建模、基准测试和仿真国际研讨会论文集(2015)
[6] 6.Benson,A.R.、Schmit,S.、Schreiber,R.:数字时间步进方案中的无声错误检测。国际期刊高性能计算。申请。(2014). 数字对象标识:·数字对象标识代码:10.1177/109434214532297
[7] 7.Bosilca,G.,Delmas,R.,Dongarra,J.,Langou,J.:基于算法的容错应用于高性能计算。J.平行分布计算。69(4), 410-416 (2009) ·doi:10.1016/j.jpdc.2008.12.002
[8] 8.Bougeret,M.、Casanova,H.、Rabie,M.,Robert,Y.、Vivien,F.:平行作业的检查点策略。摘自:《2011年高性能计算、网络、存储和分析国际会议论文集》,第1-11页(2011)
[9] 9.Bronevetsky,G.,de Supinski,B.:迭代线性代数方法的软错误漏洞。摘自:《2008年超级计算国际会议记录》,第155-164页(2008)
[10] 10.Cavelan,A.、Raina,S.K.、Robert,Y.、Sun,H.:评估部分验证对无声数据破坏的影响。摘自:第44届国际并行处理大会(ICPP)会议记录(2015)
[11] 11.Chandy,K.M.,Lamport,L.:分布式快照:确定分布式系统的全局状态。ACM变速器。计算。系统。3(1), 63-75 (1985) ·doi:10.1145/214451.214456
[12] 12.Chen,Z.:Online-ABFT:一种基于在线算法的容错方案,用于迭代方法中的软错误检测。在:第18届并行编程原理与实践研讨会论文集,第167-176页(2013)
[13] 13.钟,F.R.K.:谱图理论。美国数学学会(1997)·兹伯利0867.05046
[14] 14.Daly,J.T.:重新启动转储的最佳检查点间隔的高阶估计。未来一代。计算。系统。22(3), 303-312 (2006) ·doi:10.1016/j.future.2004.11.016
[15] 15.Dongarra,J.等人:国际exascale软件项目:呼吁全球高性能社区采取合作行动。国际期刊高性能计算。申请。23(4), 309-322 (2009) ·doi:10.1177/10943442009347714
[16] 16.Elliott,J.、Kharbas,K.、Fiala,D.、Mueller,F.、Ferreira,K.和Engelmann,C.:将部分冗余和检查点结合起来用于HPC。摘自:《2012 IEEE分布式计算系统国际会议(ICDCS)论文集》,第615-626页(2012)
[17] 17.Elnozahy,E.N.M.,Alvisi,L.,Wang,Y.-M.,Johnson,D.B.:消息传递系统中回滚恢复协议的调查。ACM计算。Surv公司。34, 375-408 (2002) ·doi:10.1145/568522.568525
[18] 18.Engelmann,C.,Ong,H.H.,Scorr,S.L.:大规模高性能计算系统中模块化冗余的情况。摘自:第八届IASTED并行和分布式计算与网络推理会议(PDCN)论文集,第189-194页(2009年)
[19] 19.Fasi,M.、Langou,J.、Robert,Y.、Uçar,B.:预处理共轭梯度法的向后/向前恢复方法。研究报告RR-8826,INRIA,2015年。
[20] 20.Fasi,M.、Robert,Y.、Uçar,B.:将基于算法的容错与迭代求解器的检查点相结合。研究报告RR-8675,INRIA,2015。简短版本出现在2015年PDSEC会议记录中
[21] 21.费雷拉(Ferreira,K.)、斯特利(Stearley,J.)、拉罗斯(Laros,J.H.I.)、奥尔德菲尔德(Oldfield,R.)、佩德雷蒂(Pedretti)、布莱特维尔(Brightwell)、里森(Riesen)、布里奇斯(Bridges,P.G.)、阿诺德(Arnold,D。载:《2011年高性能计算、网络、存储和分析国际会议论文集》,第44:1-44:12页(2011年)
[22] 22.Heroux,M.,Hoemmen,M.:通过选择性可靠性的容错迭代方法。研究报告SAND2011-3915 C,桑迪亚国家实验室(2011)
[23] 23.Huang,K.-H.,Abraham,J.A.:基于算法的矩阵运算容错。IEEE传输。计算。33(6), 518-528 (1984) ·兹伯利0557.68027 ·doi:10.1109/TC.1984.1676475
[24] 24.Hwang,A.A.,Stefanovici,I.A.,Schroeder,B.:宇宙射线不会照射两次:理解DRAM错误的性质以及对系统设计的影响。ACM SIGARCH计算。阿基特。新闻40(1),111-122(2012)·doi:10.1145/2189750.2150989
[25] 25.Lu,G.,Zheng,Z.,Chien,A.A.:什么时候需要多版本检查点?摘自:第三届极端规模HPC容错研讨会论文集(FTXS),第49-56页(2013年)
[26] 26.Lyons,R.E.,Vanderkulk,W.:使用三模冗余来提高计算机可靠性。IBM J.Res.Dev.6(2),200-209(1962)·Zbl 0117.12001 ·doi:10.147/rd.62.0200
[27] 27.Mitzenmacher,M.,Upfal,E.:概率与计算:随机算法与概率分析。剑桥大学出版社(2005)·Zbl 1092.60001号
[28] 28.穆迪(Moody,A.)、布朗维茨基(Bronevetsky,G.)、莫罗(Mohror,K.)、苏宾斯基(B.R.d.Supinski)。可扩展多级检查点系统的设计、建模和评估。摘自:2010年ACM/IEEE高性能计算、网络、存储和分析国际会议记录(SC'10)(2010年)
[29] 29.Ni,X.,Meneses,E.,Jain,N.,Kalé,L.V.:ACR:软错误和硬错误保护的自动检查点/重启。摘自:2013年ACM/IEEE高性能计算、网络、存储和分析国际会议论文集(SC'13)。ACM(2013)
[30] 30.O'Gorman,T.:宇宙射线对地面DRAM软错误率的影响。IEEE传输。电子器件41(4),553-557(1994)·doi:10.109/16.278509
[31] 31.Ozaki,T.、Dohi,T.,Okamura,H.、Kaio,N.:基于最小最大原则的无分布检查点放置算法。IEEE传输。可靠的安全计算。3(2),130-140(2006)·doi:10.1109/TDSC.2006.22
[32] 32.Saad,Y.:稀疏线性系统的迭代方法,第2版。SIAM出版社(2003)·Zbl 1031.65046号
[33] 33.Sao,P.,Vuduc,R.:自稳定迭代解算器。收录:大型系统可缩放算法最新进展研讨会论文集(ScalA)(2013年)
[34] 34.Schroeder,B.,Gibson,G.:理解PB级计算机中的故障。《物理学杂志》。Conf.序列号。78(1) (2007)
[35] 35.Shantharam,M.,Srinivasmurthy,S.,Raghavan,P.:稀疏线性系统解的容错预条件共轭梯度。摘自:《2012年超级计算国际会议记录》,第69-78页(2012)
[36] 36.图埃格·S·巴博格鲁:关于最优检查点选择问题。SIAM J.计算。13(3), 630-649 (1984) ·Zbl 0543.68013号 ·doi:10.1137/0213039
[37] 37.Young,J.W.:最佳检查点间隔的一阶近似。Commun公司。ACM 17(9),530-531(1974)·Zbl 0294.68008号 ·数字对象标识代码:10.1145/361147.361115
[38] 38.Zheng,Z.,Lan,Z.:高性能计算的可靠性感知可伸缩性模型。附:2009年IEEE集群计算会议记录(2009)
[39] 39.齐格勒J.、穆菲尔德H.、蒙特罗斯C.、柯蒂斯H.、奥戈曼T.、罗斯J.:宇宙软错误率的加速测试。IBM J.Res.Dev.40(1),51-72(1996)·doi:10.147/rd.401.0051
[40] 40.Ziegler,J.、Nelson,M.、Shell,J.,Peterson,R.、Gelderloos,C.、Muhlfeld,H.、Montrose,C.:16-Mb DRAM内存芯片的宇宙射线软错误率。IEEE J.固态电路33(2),246-252(1998)·数字对象标识代码:10.1109/4.658626
[41] 41.齐格勒、J.F.、柯蒂斯、H.W.、穆菲尔德、H.P.、蒙特罗斯、C.J.、Chin、B.:IBM在计算机电子学中的软实验失败了。IBM J.Res.Dev.40(1),3-18(1996)·doi:10.147/rd.401.0003
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。