{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{“日期部分”:[[2024,5,7]],“日期时间”:“2024-05-07T18:55:14Z”,“时间戳”:1715108114457},“引用-计数”:11,“发布者”:“世界科学出版社私人有限公司”,“问题”:“04”,“内容域”:{-“域”:[],“交叉标记限制”:false},”short-contain惰性物质”:[“Parallel Process.Lett.”],“published-print”:{“date-parts”:[[2013,12]]},“abstract”:“exascale计算之路给高性能计算(HPC)社区带来了许多挑战。exascale路径上的每一步主要是基本构建块(即CPU、内存单元、网络组件等)的更高级别并行性的结果。这些基本组件中的每一个的可靠性增加的速度与硬件并行的速度不同。这将降低整个系统的平均故障时间(MTTF)。因此,容错环境对于在此类集群上运行大型应用程序是必不可少的。检查点\/Restart(C\/R)是最小化故障损害的经典且最流行的方法。它易于实现,因此很有用,但通常会给应用程序带来很大的开销。为了减少C/R开销,已经做出了一些努力。在本文中,我们通过在两类不同的应用程序上实现它们来比较各种C/R技术的开销。这些方法基于并行文件系统(PFS)级检查点(同步/异步)和节点级检查点。我们使用Scalable Checkpoint\/Restart(SCR)库来比较节点级检查点。对于异步PFS级检查点,我们使用Damaris库、SCR异步特性和通过专用线程的基于应用程序的检查点。我们的开销比较基准是基于na\u00efve应用程序的同步PFS级检查点方法。三维格子Boltzmann(LBM)流动求解器和Lanczos特征值求解器被用作原型应用程序,其中可以应用本文考虑的所有技术<\/jats:p>“,”DOI“:”10.1142\/s0129626413400112“,”type“:”journal-article“,”created“:{”date-parts“:[[2013,12,30]],”date-time“:”2013-12-30T03:05:09Z“,”timestamp“:1388372709000},”page“:“],”前缀“:”10.1142“,”卷“:”23“,”作者“:[{“given”:“FAISAL”,“family”:“SHAHZAD”,“sequence”:“first”,“affiliation”:[{“name”:“Erlangen Regional Computing Center,University of Erlangen-Nurmeberg,91058 Erlangen,Germany”}]},{“given”:“MARKUS”,“家族”:“WITTMANN”,”sequence“:”additional“,”affiliance“:[{”name“:”德国埃尔朗根大学埃尔朗根区域计算中心,邮编:91058affiliation“:[{”name“:”Erlangen-Nuremberg大学Erlangen区域计算中心,德国埃尔朗根91058号“}]},{”given“:”GEORG“,”family“:”HAGER“,”sequence“:”additional“,”affiliance“:[[{“name”:”Erlangen-Nurmerberg大学埃尔朗根地区计算中心,91058 Erlangen,Germany“}]neneneep,{“given”:“GERHARD”,“family”:“WELLEIN”,“sequence“:”additional“,”affiliation“:[{”name“:”Erlangen Regional Computing Center,University of Erlangen-Nurmeberg,91058 Erlangen,Germany“}]}],”member“:”219“,”published-online“:{”date-parts“:[[2013,12,29]]},”reference“:[[{“key”:“p_2”,“doi-asserted-by”:“publisher”,“doi”:“10.1177\/109432010391989”},{“key”:”p_3“,”first page“:“1”,“作者”:“穆迪A.“,“年份”:“2010年”,“新闻标题”:“DC,USA”},{“key”:“p_6”,“首页”:“3”,“作者”:“Daly J.”,“年”:“2003”,“日记标题”:”Springer-Verlag“},}“key:”p_11“,”首页“:”284“,”author“:”Cornwell J.“,”year“:”2011“,”新闻标题“:”Industry and Engineering“}”,{”key“:”p_15“,”doi-asserted-by“:“publisher”,“doi”:“10.1109\/IPPS.1997.580928”},{“key”:“p_16”,“首页”:“39”,“作者”:“Abbasi H.”,“年份”:“2009”,“新闻标题”:“USA:ACM”},{“key”:“p_18”,“头版”:“289”,“作家”:“沙哈扎德·F”,“年”:“2012”,“日记标题”:”斯普林格-弗拉格“},}“keys”:“p22”,“doi-asserted-by”:“publisher”,”doi“:”10.1016\/j.compfluid.2005.02.008“}”,{“key”:“p_23”,“doi-asserted-by”:“publisher”,“doi”:“10.1209\/0295-5075\/17\/6\/001“},{“key”:“p_24”,“doi-asserted-by”:“publisher”,“doi”:“10.1142\/S0129626411000254”},}“key:”p_25“,”first page“:”1696“,”author“:”Kreutzer M.“,”year“:”2012“,”journal-title“:”IEEE Computer Society“}],“container-title”:[“Parallel Processing Letters”],“original-tittle”:[],“language”:“en“,”link“:[{”URL“:”https:\/\/www.worldscience.com\/doi\/pdf\/10.1142\/S0129626413400112“,”content-type“:”unspecified“,”content-version“:”vor“,”intended-application“:”similarity-checking“}],”deposed“:{”date-parts“:[[2019,8,6]],”date-time“:“2019-08-06T20:18:40Z”,“timestamp”:1565122720000},“score”:1,“resource”:{“primary”:{“URL”:“https:\/\/www.worldscience.com\/doi\/abs\/10.1142\/S0129626413400112“}},”副标题“:[],”短标题“:[],”已发布“:{”日期部分“:[[2013,12]]},“references-count”:11,“日志发布”:{“issue”:“04”,“published-online”:}“date-parts”:[[2013,12]]}},“alternative-id”:[“10.1142\/S0129626413400112”],“URL”:“http:\/\/dx.doi.org\/10.1142\/s0129626413400112“,”关系“:{},”ISSN“:[”0129-6264“,”1793-642X“],”ISSN-type“:[{”value“:”01296264“,”type“:”print“},{”value“:”1793-442X“,”类型“:”electronic“}],”主题“:[],”发布“:{”日期部分“:[2013,12]]}}}}