皮埃尔·卢伊斯·古尔;张红;汤姆·佩特卡;埃米尔·康斯坦丁斯库;弗兰克·卡佩罗 在常微分方程求解器中轻量级且准确的静默数据损坏检测。 (英语) Zbl 1439.65092号 Dutot、Pierre-François(编辑)等,《2016年欧洲-巴黎:并行处理》。第22届并行和分布式计算国际会议,2016年8月24日至26日,法国格勒诺布尔。诉讼程序。查姆:斯普林格。莱克特。注释计算。科学。9833, 644-656 (2016). 摘要:静默数据损坏(SDC)是指在固件或操作系统未注意到的情况下损坏系统或篡改结果的错误。在数值积分求解器中,影响求解器精度的SDC被认为是重要的。在高性能计算中检测SDC是必要的,因为结果需要可信,并且新兴大规模体系结构中组件数量和复杂性的增加使得SDC更容易发生。直到最近,SDC检测方法还包括复制执行过程或使用校验和(例如基于算法的容错)。最近,人们提出了新的检测方法,这些方法依赖于数值核的数学特性或对应用程序修改的结果进行数据分析。然而,这些方法都没有提供轻量级的解决方案来保证检测到所有重要的SDC。我们提出了一种新方法,称为热棒作为这个问题的解决方案。它检查并可能纠正数值积分求解器生成的数据。我们的理论模型表明,可以检测到所有重要的SDC。我们介绍了两个探测器,并对WRF气象学应用中的流线集成进行了实验。与算法检测方法相比,我们的第一个检测器的准确度提高了52,%,但假检测率相似。第二个检测器的错误检测率比这些检测方法低一个数量级,同时将检测精度提高了\(23\,\%\)。在这两种情况下,计算开销都低于\(5\,\%\)。该模型是为显式Runge-Kutta方法开发的,尽管它可以推广到其他求解器。有关整个系列,请参见[Zbl 1343.68006号]. MSC公司: 65升99 常微分方程的数值方法 2007年7月68日 计算机体系结构的数学问题 关键词:弹性;容错性;伦格-库塔;数值积分求解器;高性能混凝土;SDC公司 PDF格式BibTeX公司 XML格式引用 \textit{P.-L.Guhur}等人,Lect。注释计算。科学。9833、644--656(2016年;Zbl 1439.65092) 全文: 内政部 链接