×

CRAFT(手工艺)

swMATH ID: 32911
软件作者: 费萨尔·沙赫扎德、乔纳斯·蒂斯、莫里茨·克鲁泽、托马斯·泽泽、格奥尔格·哈格、格哈德·韦莱因
描述: CRAFT:一个更易于应用程序级检查点/重新启动和自动容错的库。为了有效地使用未来几代超级计算机,容错和功耗是高性能计算(HPC)社区预计的两个主要挑战。检查点/重启(CR)一直以来都是处理硬故障最广泛使用的技术。就开销效率而言,应用级CR是最有效的CR技术,但它需要大量的实现工作。这项工作介绍了我们基于C++的库CRAFT(Checkpoint-Restart和Automatic Fault Tolerance)的实现,它有两个目的。首先,它提供了一个可扩展的库,大大简化了应用程序级检查点的实现。最基本和最常用的检查点数据类型已经是CRAFT的一部分,可以直接使用。可以轻松扩展该库以添加更多数据类型。作为减少开销的手段,该库提供了内置的异步检查点机制,还支持用于节点级检查点的可伸缩检查点/重启(SCR)库。其次,CRAFT为基于用户级故障缓解(ULFM)的动态进程恢复提供了一个更简单的接口,大大降低了故障检测和通信恢复机制的复杂性和工作量。通过同时利用这两种功能,应用程序可以编写应用程序级检查点,并以非常有限的编程工作量从进程故障中动态恢复。这项工作详细介绍了我们图书馆的设计和使用。使用几个基准对相关间接费用进行了彻底分析。
主页: https://arxiv.org/abs/1708.02030
相关软件: 费阿普;FE2TI公司;MUMPS公司;PETSc公司;炒作;BoomerAMG公司;ELSI公司;ELPA公司;STRUMPACK系列;CholQR公司;CIRR公司;SELL_C_西格玛;项目参考;宴会
引用于: 2文件

按年份列出的引文