{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{“日期-部件”:[[2023,9,2],“日期-时间”:“2023-09-02T05:11:50Z”,“时间戳”:1693631510750},“参考-计数”:26,“出版商”:“SAGE出版物”,“问题”:“5”,“许可证”:[{“开始”:{-“日期-零件”:[2016,11,28]],“日期时间”:”2016-11-28T00:00:00Z“,”时间戳“:1480291200000},“content-version”:“tdm”,“delay-in-days”:0,“URL”:“http://\/journals.sagepub.com/page\/policys\/text-and-data-mining-license”}],“内容域”:{“domain”:[“journals/sagepub.com”],“crossmark-restriction”:true},“short-container-title”:[《国际高性能计算应用杂志》],“published-print”:{“date-parts”:[2018,9]]},“抽象”:“如今,硬件并行性的多次提高使u2019的高性能计算系统成为可能。这导致每新一代系统的平均故障时间减少,这是一个令人担忧的趋势。因此,在容错和故障缓解领域进行大量研究也就不足为奇了。应用程序应该能够在故障中幸存下来,并且\/或者能够以最低的成本进行恢复<\/jats:p>我们使用了全局地址空间编程接口(GASPI),这是一个基于PGAS模型的相对较新的通信库。它满足了容错通信库的基本要求,即一个进程的失败不会导致其余进程的失败。这项工作的重点是以支持健康检查库的形式扩展GASPI的容错功能,应用程序可以从中受益。这些功能包括故障检测、信息传播、恢复管理、通信恢复等。为了增强其实用性,我们还开发了容错邻居节点级检查点/重启库<\/jats:p>我们没有真正引入基于算法的容错,而是演示了如何(使用这些补充的容错功能)构建应用程序,以集成低成本的故障检测/恢复机制,并在必要时动态恢复应用程序。我们通过在三个不同的应用程序中实现这些工具来展示它们的使用。其中两个应用程序属于线性稀疏解算器类别,而第三个应用程序基于流体流解算器。我们还分析了无故障情况以及各种故障情况下的间接费用。我们的故障检测机制在无故障的情况下不会导致任何开销,而在发生故障的情况中,故障检测和恢复成本的顺序是合理可接受的,并且显示出良好的可扩展性<\/jats:p>“,”DOI“:”10.1177\/1094342016677085“,”type“:”journal-article“,”created“:{”date-parts“:[[2016,11,29]],”date-time“:”2016-11-29T01:30:26Z“,”timestamp“:1480383026000},”page“:nced-by-count“:2,”标题“:[”为GASPI应用程序构建和使用容错支持工具“],”前缀“:”10.1177“,”卷“:”32“,”作者“:[{”给定“:”Faisal“,”家族“:”Shahzad“,”sequence“:”first“,”affiliation“:[}”name“:”Erlangen大学Erlangen区域计算中心\u2013Nuremberg Erlangen,Germany“}]},{”given“:”Moritz“,”family“:”Kreutzer“sequence”:“附加”,“附属”:[{“name”:“Erlangen Regional Computing Center,University of Erlangen \u2013 Nuremberg Erlangen,Germany”}]},{“given”:“Thomas”,“family”:“Zeiser”,“sequence”:“附加”,“附属”:[{“name”:“Erlangen Regional Computing Center,University of Erlangen \u2013 Nuremberg Erlangen,Germany”}]},{“given”:“Rui”,“family”:“Machado“,”sequence“:”additional“,”affiliation“:[{”name“:”Fraunhofer Institute for Industrial Mathematics(ITWM),Fraunhoffer Platz 1,Kaiserslautern,Germany“}]},{”given“:”Andreas“,”family“:”Pieper“,”sequence“:”additionable“,”feliation“:[{“name”:“Erlangen University of Erlangen \u2013Nuremberg Erlangen,German”},”name““:”德国格雷夫斯瓦尔德大学物理研究所“}]},{“given”:“Georg”,“family”:“Hager”,“sequence”:“additional”,“affiliation”:[{“name”:“Erlangen大学Erlangen区域计算中心\u2013Nuremberg Erlangen,Germany”}]},}“givin”:Erlangen大学Erlangen区域计算中心\u2013Nuremberg Erlangen,Germany“}]}],“成员”:“179”,“在线发布”:{“日期部分”:[[2016,11,28]]},“参考”:[{“密钥”:“bibr1-10 94342016677085”,“doi由”断言:“publisher”,“doi”:“10.1109\/IPDPSW.14.132”},{“密钥”:“bibr2-1094342016677085”,“doi由”断言:“publisher”,“doi”:“10.1007\/978-3-642-23397-5_34“},{“key”:“bibr3-1094342016677085”,“doi-asserted-by”:“publisher”,“doi”:“10.1145\/2063384.2063427”},“key“:”bibr4-109434206677085“,”doi-assert-by“:”publisher“,”doi“:”10.1145\/2600212.2600224“}.,{”key“:”bibr5-109434202016677085.“,”doi“:”10.1103\/PhysRev.94.511“},{“键”:“bibr7-1094342016677085“,”doi-asserted-by“:”publisher“,”doi“:”10.1177\/10943413488238“},{“key”:“bibr8-109434206677085”,“doi-assert-by”:“publisher”,“doi”:“10.1109\/ExaMPI.2014.4”},“key“:”bibr9-1094342011677085“bibr10-1094342016677085”,“doi-asserted-by”:“publisher”,“doi”:“10.1145 \/226643.226647“},{“key”:“bibr11-1094342016677085”,“doi-asserted-by”:“publisher”,“doi”:“10.1145\/2692916.2555248”},“key“:”bibr14-109434204016677085“,”doi-assert-by“:”publisher“,”doi“:”10.1109\/DSN.2013.6575356HPC系统上MPI应用程序的协调检查点\/重启进程容错。美国印第安纳大学博士论文。\/2642769.2642775“},{“键”:”bibr21-1094342016677085“,”doi-asserted-by“:”publisher“,”doi“:”10.6028\/jres.045.026“},{”key“:”bibr22-10943420677085”,“”doi-sserted-by”:“publisher”,“doi”:“10.2172\/984082”},“key”:“bibr23-109434216677088”,“first page”:”471“,”volume-title“:”并行计算:加速计算科学与工程(CSE),《并行计算国际会议论文集》,“作者”:“Pauli S”,“年份”:“2013”},{“key”:“bibr24-1094342016677085”,“doi-asserted-by”:“publisher”,“doi”:“10.1209\/0295-5075\/17\/6\/001”}77085“,”doi-asserted-by“:”publisher“,”DOI“:”10.1088\/1742-6596\/78\/1012022“},{”key“:”bibr27-109434204016677085“,”DOI-asserted-by“:”publisher”,“DOI”:“10.1109\/CLUSTER.2015.106”},“key”:“bibr28-109434016677085”,“DOI-assert-by”:“publisher(出版商),“DOI:”10.1177\/1094342573“}”,{,“卷时间”:“Lattice Boltzmann流体动力学方程及其后解”,“作者”:“Succi S”,“年份”:“2001”},{“键”:“bibr30-1094342016677085”,“doi-asserted-by”:“publisher”,“doi”:“10.1103\/RevModPhys.78.275”}[“《国际高性能计算应用杂志》“],”original-title“:[],”language“:”en“,”link“:[{”URL“:”http://\/journals.sagepub.com/doi\/pdf\/10.1177\/10943420677085“,”content-type“:”application\/pdf“,”content-version“:”vor“,”intended-application“:”text-mining“},”{“URL”:“http://\/journals.sagepub.com/doi\/full-xml\/10.1177\/1094342016677085“,”content-type“:”application\/xml“,”内容-version“:”vor“,”intended-application“:”text-mining“},{”URL“:”http://\/journals.sagepub.com\/doi\/pdf\/10.11177\/109434016677085],“存放“:{“date-parts”:[[2020,12,8]],“date-time”:“2020-12-08T21:02:45Z”,“timestamp”:1607461365000},“score”:1,“resource”:{(主要):{”URL“:”http://\journals.sagepub.com\/doi\/10.1177\/109434216677085“}},”副标题“:[],”短标题“[],“issued”:{“date-ports”:[2016,11,28]]},,“references-count”“:26,”新闻发布“:{”发布“:”5“,”发布发布“:date-parts“:[[2018,9]]}},”alternative-id“:[”10.1177\/1094342016677085“],”URL“:”http://\/dx.doi.org\/10.1177\/109434016677085],“主题”:[],“发布”:{“日期部分”:[[2016,11,28]]}}