工艺 swMATH ID: 32911 软件作者: 费萨尔·沙赫扎德、乔纳斯·蒂斯、莫里茨·克鲁泽、托马斯·泽塞、乔治·黑格、格哈德·韦林 描述: CRAFT:一个更容易实现应用程序级检查点/重启和自动容错的库。为了有效地使用未来几代超级计算机,容错和功耗是高性能计算(HPC)社区预期的两大主要挑战。检查点/重启(CR)一直以来都是处理硬故障最广泛使用的技术。就开销效率而言,应用级CR是最有效的CR技术,但它需要大量的实现工作。这项工作介绍了我们基于C++的库CRAFT(Checkpoint-Restart和Automatic Fault Tolerance)的实现,它有两个目的。首先,它提供了一个可扩展的库,大大简化了应用程序级检查点的实现。最基本和最常用的检查点数据类型已经是CRAFT的一部分,可以直接使用。可以轻松扩展该库以添加更多数据类型。作为减少开销的手段,该库提供了内置的异步检查点机制,还支持用于节点级检查点的可伸缩检查点/重启(SCR)库。其次,CRAFT为基于用户级故障缓解(ULFM)的动态进程恢复提供了一个更简单的接口,大大降低了故障检测和通信恢复机制的复杂性和工作量。通过同时利用这两种功能,应用程序可以编写应用程序级检查点,并在非常有限的编程工作量下从进程故障中动态恢复。这项工作详细介绍了我们图书馆的设计和使用。使用几个基准对相关间接费用进行了彻底分析。 主页: https://arxiv.org/abs/1708.02030 相关软件: 有限元分析;FE2TI公司;流行性腮腺炎;PETSc公司;炒作;BoomerAMG公司;ELSI公司;ELPA公司;STRUMPACK系列;CholQR公司;CIRR公司;SELL_密码;项目参考;宴会 引用于: 2文件 全部的 前5名37位作者引用 1 安德烈亚斯·阿尔弗曼 1 阿希姆·巴瑟曼 1 汉斯·约阿希姆·本加茨 1 克里斯蒂安·卡波尼奥 1 多米尼克·恩斯特 1 霍尔格·费斯克 1 福村,Yasunori 1 马丁·加尔贡 1 乔治·海格 1 莎拉·休伯(Sarah E.Huber)。 1 托马斯·基利安·哈克尔 1 伊达,秋叶茂 1 阿基拉·Imakura 1 Masatoshi卡瓦伊 1 阿克塞尔·克拉翁 1 西蒙·科彻 1 莫里茨·克鲁泽 1 库斯,帕维尔 1 布鲁诺·朗 1 马丁·兰瑟 1 赫尔曼·莱德勒 1 瓦莱里·马宁 1 安德烈亚斯·马雷克 1 中岛贤吾 1 利迪亚·奈梅克 1 路透社,卡斯滕 1 奥利弗·莱因巴赫 1 迈克尔·里普 1 梅尔文·Röhrig-Zöllner 1 日本樱井 1 马蒂亚斯·谢夫勒 1 克里斯托弗·舍勒 1 费萨尔·沙赫扎德 1 Simoes Brambila,达尼洛 1 提斯,乔纳斯 1 乌拉、马提亚斯 1 格哈德·韦林 2篇连载文章中引用 1 计算力学 1 日本工业与应用数学杂志 在2个字段中引用 1 数值分析(65-XX) 1 可变形固体力学(74-XX) 按年份列出的引文