×

在线-ABFT

swMATH ID: 17489
软件作者: Z.Chen(陈)
描述: Online-ABFT:一种基于在线算法的容错方案,用于迭代方法中的软错误检测。软错误是一次性事件,会破坏计算系统的状态,但不会破坏其整体功能。大型超级计算机由于其组件数量众多,特别容易出现软错误。软错误通常可以通过比较两次重复计算的最终计算结果来进行离线检测,但这种方法通常会带来很大的开销。本文介绍了Online-ABFT,一种简单而有效的在线软错误检测技术,可以在程序执行过程中检测广泛使用的Krylov子空间迭代方法中的软错误,以便在软错误发生后立即终止损坏的计算,从而提高计算效率。基于对正交性和残差的简单验证,Online-ABFT易于实现且高效。实验结果表明,当这种在线错误检测方法与检查点结合使用时,与传统的离线方法相比,它将获得正确结果的时间提高了几个数量级。
主页: http://dl.acm.org/citation.cfm?id=2442533
相关软件: 滴答声;稀疏矩阵;mctoolbox软件;MUMPS公司;DUNE公司;炒作;BoomerAMG公司
引用于: 4文件

按年份列出的引文