×

共轭梯度法中的软误差:灵敏度和鲁棒数值检测。 (英语) Zbl 1458.65027号

摘要:当矩阵为对称正定时,共轭梯度(CG)方法是求解大型稀疏线性方程组最常用的迭代格式。虽然已经有60多年的历史,但它仍然是大型计算平台上进行极值计算的一个重要候选者。在技术方面,晶体管几何形状的不断缩小和这些器件日益复杂,极大地影响了它们对自然辐射的敏感性,从而降低了它们的可靠性。自然辐射产生的最常见的影响之一是单事件干扰,它包括存储单元中的位滑动,在应用程序级别产生意外结果。因此,未来的极端规模计算设施在计算过程中更容易出现任何类型的错误,包括位翻转。这些数值和技术观察是这项工作的主要动机,在这里,我们首先通过广泛的数值实验来研究CG对其主要计算密集型核(即矩阵-向量积和预条件应用)中位偏移的敏感性。我们进一步提出了检测此类软错误发生的数值标准,并通过大量的数值实验评估其稳健性。

MSC公司:

65层10 线性系统的迭代数值方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] E.Agullo、S.Cools、E.Fatih-Yetkin、L.Giraud、N.Schenkel和W.Vanroose,《共轭梯度法中的软误差:灵敏度和稳健数值检测——修订》,研究报告RR-9330,Inria Bordeaux Sud-Ouest,2020年。
[2] E.Agullo、S.Cools、E.Fatih-Yetkin、L.Giraud、N.Schenkels和W.Vanroose,《共轭梯度法中软误差的补充说明:持续误差案例》,研究报告RR-9360,Inria Bordeaux Sud-Ouest,2020年8月。
[3] E.Agullo、L.Giraud和L.Poirel,通过混合稀疏线性解算器的广义特征问题实现鲁棒预条件,SIAM J.矩阵分析。申请。,40(2019年),第417-439页·Zbl 1411.65042号
[4] W.Bland、A.Bouteiller、T.Heárault、G.Bosilca和J.J.Dongarra,《MPI通信能力的故障后恢复:设计和原理》,《IJHPCA》,第27期(2013年),第244-254页。
[5] A.Bouras和V.Fraysseñ,解线性系统的Krylov方法中的不精确矩阵向量积:松弛策略,SIAM J.matrix Anal。申请。,26(2005),第660-678页·Zbl 1075.65041号
[6] A.Bouras、V.Fraysseá和L.Giraud,区域分解方法中内外线性解算器的松弛策略,技术报告TR/PA/00/17,CERFACS,法国图卢兹,2000年。
[7] W.L.Briggs、V.E.Henson和S.F.McCormick,《多重电网教程》,SIAM,费城,2000年·Zbl 0958.65128号
[8] J.Elliott、F.Mueller、M.Stoyanov和C.Webster,《量化单比特翻转对浮点运算的影响》,2013年2月技术报告。
[9] J.Elliott、M.Hoemmen和F.Mueller,《评估SDC对GMRES迭代求解器的影响》,第28届国际并行与分布式处理研讨会论文集,IEEE,2014年,第1193-1202页。
[10] J.Elliott、M.Hoemmen和F.Mueller,利用数据表示实现容错,J.Compute。科学。,14(2016),第51-60页。
[11] MPI:消息传递接口标准3.1版,MPI论坛,2015。
[12] M.L.Gallo、A.Sebastian、R.Mathis、M.Manica、H.Giefers、T.Tuma、C.Bekas、A.Curioni和E.Eleftheriou,《混合决策内存计算》,《自然电子》,第1期(2018年),第246-253页。
[13] A.Geist、A.Beguelin、J.Dongarra、W.Jiang、R.Manchek和V.S.Sunderam,《PVM:并行虚拟机:网络并行计算用户指南和教程》。麻省理工学院出版社,马萨诸塞州剑桥,1994年·Zbl 0849.68032号
[14] P.Ghysels和W.Vanroose,在预处理共轭梯度算法中隐藏全局同步延迟,并行计算。,40(2014年),第224-238页。
[15] A.Greenbaum,估算递归计算残差法的可达到精度,SIAM J.矩阵分析。申请。,18(1997),第535-551页·Zbl 0873.65027号
[16] M.H.Gutknecht和Z.Strakoš,Krylov空间解算器的两个三项和三个二项递归的准确性,SIAM J.矩阵分析。申请。,22(2000),第213-229页·Zbl 0976.65030号
[17] N.Halko、P.G.Martinsson和J.A.Tropp,《发现随机结构:构造近似矩阵分解的概率算法》,SIAM Rev.,53(2011),第217-288页·Zbl 1269.65043号
[18] T.Herault和Y.Robert编辑,《高性能计算的容错技术》,Springer,纽约,2015年·兹比尔1330.68026
[19] M.R.Hestenes和E.Stiefel,《求解线性系统的共轭梯度方法》,国家标准局期刊,46(1952),第409-436页·Zbl 0048.09901号
[20] N.J.Higham,《数值算法的准确性和稳定性》,第二版,SIAM,费城,2002年·兹比尔1011.65010
[21] M.Hoemmen和M.A.Heroux,通过选择性可靠性实现容错迭代方法,载于2011年高性能计算、网络、存储和分析国际会议论文集,2011年。
[22] K.-H.Huang和J.a Abraham,matnx操作基于算法的容错,IEEE Trans。《计算机》,C-33(1984),第518-528页·Zbl 0557.68027号
[23] J.Liesen和Z.Strakoš,Krylov子空间方法,数值。数学。科学。计算。,牛津大学出版社,纽约,2013年·Zbl 1263.65034号
[24] G.Meurant和Z.Strakoš,有限精度算术中的Lanczos和共轭梯度算法,Acta Numer。,15(2006年),第471-542页·Zbl 1113.65032号
[25] B.O.Mutlu、G.Kestor、J.Manzano、O.Unsal、S.Chatterjee和S.Krishnamoorthy,《软错误对迭代方法影响的表征》,《第25届高性能计算国际会议论文集》,IEEE,2018年,第203-214页。
[26] L.N.Olson和J.B.Schroder,《PyAMG:Python v4.0中的代数多重网格解算器》,第4.0版,2018年。
[27] B.帕哈米、缺陷、故障、错误,。。。,还是失败?,IEEE传输。可靠性,46(1997),第450-451页。
[28] Y.Saad,《稀疏线性系统的迭代方法》,第2版,SIAM,费城,2003年·Zbl 1031.65046号
[29] P.Sao和R.Vuduc,自稳定迭代求解器,《大型系统可缩放算法最新进展研讨会论文集》,2013年,第1-8页。
[30] M.Shantharam、S.Srinivasmurthy和P.Raghavan,《描述科学计算中软错误对迭代方法的影响》,《超级计算国际会议论文集》,2011年,第152页。
[31] V.Simoncini和D.B.Szyld,不精确Krylov子空间方法理论及其在科学计算中的应用,SIAM J.Sci。计算。,25(2003),第454-477页·Zbl 1048.65032号
[32] Z.Strakoš和P.Tichy,预处理共轭梯度中的误差估计,BIT,45(2005),第789-817页·Zbl 1095.65029号
[33] H.A.Van der Vorst,大型线性系统的迭代Krylov方法。剑桥大学专著。申请。计算。数学。13,剑桥大学出版社,英国剑桥,2003年·Zbl 1023.65027号
[34] H.A.van der Vorst和Q.Ye,真实残差收敛的Krylov子空间迭代方法的残差替换策略,SIAM J.Sci。计算。,22(2000),第835-852页·Zbl 0983.65039号
[35] R.Velazco、P.Fouillat和R.Reis,嵌入式系统的辐射效应。施普林格,纽约,2007年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。