×

工艺

swMATH ID: 32911
软件作者: 费萨尔·沙赫扎德、乔纳斯·蒂斯、莫里茨·克鲁泽、托马斯·泽塞、乔治·黑格、格哈德·韦林
描述: CRAFT:一个更容易实现应用程序级检查点/重启和自动容错的库。为了有效地使用未来几代超级计算机,容错和功耗是高性能计算(HPC)社区预期的两大主要挑战。检查点/重启(CR)一直以来都是处理硬故障最广泛使用的技术。就开销效率而言,应用级CR是最有效的CR技术,但它需要大量的实现工作。这项工作介绍了我们基于C++的库CRAFT(Checkpoint-Restart和Automatic Fault Tolerance)的实现,它有两个目的。首先,它提供了一个可扩展的库,大大简化了应用程序级检查点的实现。最基本和最常用的检查点数据类型已经是CRAFT的一部分,可以直接使用。可以轻松扩展该库以添加更多数据类型。作为减少开销的手段,该库提供了内置的异步检查点机制,还支持用于节点级检查点的可伸缩检查点/重启(SCR)库。其次,CRAFT为基于用户级故障缓解(ULFM)的动态进程恢复提供了一个更简单的接口,大大降低了故障检测和通信恢复机制的复杂性和工作量。通过同时利用这两种功能,应用程序可以编写应用程序级检查点,并在非常有限的编程工作量下从进程故障中动态恢复。这项工作详细介绍了我们图书馆的设计和使用。使用几个基准对相关间接费用进行了彻底分析。
主页: https://arxiv.org/abs/1708.02030
相关软件: 有限元分析;FE2TI公司;流行性腮腺炎;PETSc公司;炒作;BoomerAMG公司;ELSI公司;ELPA公司;STRUMPACK系列;CholQR公司;CIRR公司;SELL_密码;项目参考;宴会
引用于: 2文件

按年份列出的引文