×

PDE的容错域分解预处理程序。 (英语) Zbl 1357.65297号

概要:向极端规模计算平台的发展在许多方面对科学模拟提出了挑战。考虑到计算机体系结构发展的最新趋势,人们需要重新制定遗留代码,以应对大量通信、系统故障和每个内核的低内存使用要求。在这项工作中,我们开发了一个通过区域分解求解PDE的新框架,该框架将解重新构造为具有概率解释的知识状态。这种重新表述允许在不必应用故障检测的情况下对潜在故障进行恢复,避免了不必要的通信,并且通常非常适合严格的不确定性量化研究,以提高科学模型的预测保真度为目标。我们针对一维PDE示例演示了我们的算法,其中人工错误在子域解的二进制表示中被实现为位翻转。

MSC公司:

65纳米55 多重网格方法;偏微分方程边值问题的域分解
35J25型 二阶椭圆方程的边值问题
62J05型 线性回归;混合模型
68米15 网络和计算机系统的可靠性、测试和容错

软件:

LBFGS-B型
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] M.Benzi、A.Frommer、R.Nabben和D.B.Szyld,{乘法Schwarz方法的代数理论},数值。数学。,89(2001),第605-639页·Zbl 0991.65037号
[2] J.M.Bernardo和A.F.M.Smith,《贝叶斯理论》,Wiley Ser。普罗巴伯。Stat.,John Wiley&Sons,英国奇切斯特,2000年·Zbl 0943.62009号
[3] G.Bosilca、R.Delmas、J.Dongarra和J.Langou,{基于算法的容错应用于高性能计算},J.并行分布计算。,69(2009),第410-416页。
[4] P.G.Bridges、K.B.Ferreira、M.A.Heroux和M.Hoemmen,《通过选择性可靠性实现容错线性解算器》,预印本,arXiv:1206.13902012年。
[5] R.H.Byrd、P.Lu、J.Nocedal和C.Zhu,{约束优化的有限内存算法},SIAM J.Sci。计算。,16(1995年),第1190-1208页·Zbl 0836.65080号
[6] X.-C.Cai,{非对称和不定椭圆问题的重叠Schwarz算法族},《计算科学与工程中基于域的并行性和问题分解方法》,D.E.Keyes,Y.Saad和D.G.Truhlar编辑,SIAM,费城,1995年,第1-19页·Zbl 0854.65113号
[7] F.Cappello,{千兆位/千兆位系统中的容错:当前知识、挑战和研究机会},国际。J.高性能计算。申请。,23(2009年),第212-226页。
[8] F.Cappello、A.Geist、B.Gropp、L.Kale、B.Kramer和M.Snir,{\朝着exascale弹性发展},国际出版社。J.高性能计算。申请。,23(2009年),第374-388页。
[9] F.Cappello、A.Geist、W.Gropp、S.Kale、B.Kramer和M.Snir,{迈向exascale弹性:(2014)更新},超级计算机。前面。因诺夫。,1(2014年),第5-28页。
[10] B.P.Carlin和T.A.Louis,《数据分析的贝叶斯方法》,查普曼和霍尔/CRC,佛罗里达州博卡拉顿,2009年·Zbl 1165.62003号
[11] X.-C.Cay,{抛物型对流扩散方程的加法Schwarz算法},数值。数学。,60(1991),第41-61页·Zbl 0737.65078号
[12] R.Chartrand和W.Yin,{压缩传感的迭代重加权算法},IEEE声学、语音和信号处理国际会议,2008年,ICASSP 2008年,IEEE、IEEE、新泽西州皮斯卡塔韦,2008,第3869-3872页。
[13] Y.Chen、J.Jakeman、C.Gittelson和D.Xiu,{\it具有高维随机输入的线性微分方程的局部多项式混沌展开},SIAM J.Sci。计算。,37(2015),第A79-A102页·Zbl 1330.65189号
[14] Z.Chen,{无检查点迭代方法的基于算法的恢复},《第20届高性能分布式计算国际研讨会论文集》,HPDC’11,ACM,纽约,2011年,第73-84页。
[15] I.Daubechies、R.DeVore、M.Fornasier和C.Sinan Gu¨ntu¨rk,{为稀疏恢复迭代重加权最小二乘最小化},Comm.Pure Appl。数学。,63(2010),第1-38页·Zbl 1202.65046号
[16] D.Denison、C.Holmes、B.Mallick和A.Smith,《非线性分类和回归的贝叶斯方法》,John Wiley&Sons,英国奇切斯特,2002年·Zbl 0994.62019号
[17] C.Ding、C.Karlsson、H.Liu、T.Davies和Z.Chen,{it Matrix multiplication on GPUS with online fault tolerance},在2011年IEEE第九届并行和分布式处理与应用国际研讨会(ISPA)上,IEEE计算机学会,加利福尼亚州洛斯阿拉米托斯,2011年,第311-317页。
[18] M.Dryja和O.Widlund,{许多分区情况下Schwarz交替方法的一个加法变体},技术报告339,科朗研究所计算机科学系,纽约,1987年。
[19] P.Du、A.Bouteiller、G.Bosilca、T.Herault和J.Dongarra,{密集矩阵因式分解的基于算法的容错},《第17届ACM SIGPLAN并行编程原理与实践研讨会论文集》,PPoPP’12,ACM,纽约,2012年,第225-234页。
[20] K.Ferreira、J.Stearley、J.H.Laros、III、R.Oldfield、K.Pedretti、R.Brightwell、R.Riesen、P.G.Bridges和D.Arnold,{评估exascale系统的过程复制可靠性的可行性},《2011年高性能计算、网络、存储和分析国际会议论文集》,SC'11,ACM,纽约, 2011, 44.
[21] M.Garbey,{椭圆问题Schwarz方法的加速},SIAM J.Sci。计算。,26(2005),第1871-1893页·Zbl 1081.65116号
[22] M.Garbey和D.Tromeur Dervout,关于Schwarz方法的某些Aitken类加速度,国际。J.数字。方法流体,40(2001),第1493-1513页·Zbl 1025.76043号
[23] M.Griebel和P.Oswald,《关于加法和乘法Schwarz算法的抽象理论》,Numer。数学。,70(1995年),第163-180页·Zbl 0826.65098号
[24] M.Griebel和P.Oswald,乘法Schwarz方法的贪婪和随机版本,线性代数应用。,437(2012),第1596-1610页·Zbl 1251.65048号
[25] M.Holst,{代数Schwarz理论},技术报告CRPC-994-10,加州理工学院,加州帕萨迪纳,1994年。
[27] E.T.Jaynes,{先验概率},IEEE Trans。系统。科学。网络。,4(1968年),第227-241页·Zbl 0181.21901号
[28] D.Keyes,{领域分解在实践中的可扩展性如何?},摘自《第11届领域分解方法国际会议论文集》,领域分解出版社,挪威卑尔根,1999年,第286-297页。
[29] S.Kotz和S.Nadarajah,{多元t-分布及其应用},剑桥大学出版社,剑桥,2004年·Zbl 1100.62059号
[30] J.W.Larson、M.Hegland、B.Harding、S.Roberts、L.Stals、A.P.Rendell、P.Strazdins、M.M.Ali、C.Kowitz、R.Nobes、J.Southern、N.Wilson、M.Li和Y.Oishi,《容错网格解算器:结合稀疏网格和MapReduce的概念》,Procedia Comput。科学。,18(2013),第130-139页。
[31] D.Li、J.S.Vetter和W.Yu,{使用二进制工具对极端规模科学应用中的软错误漏洞进行分类},《高性能计算、网络、存储和分析国际会议论文集》,SC'12,IEEE计算机学会,加利福尼亚州洛斯阿拉米托斯,2012,57。
[32] M.-L.Li、P.Ramachandran、S.K.Sahoo、S.V.Adve、V.S.Adve和Y.Zhou,{理解硬错误对软件的传播以及对弹性系统设计的影响},SIGOPS Oper。系统。第42版(2008年),第265-276页。
[33] K.Malkowski、P.Raghavan和M.Kandimir,《分析多核多处理器上线性解算器的软错误弹性》,2010年IEEE并行与分布式处理国际研讨会(IPDPS),IEEE,新泽西州皮斯卡塔韦,2010年,第1-12页。
[34] A.Quarteroni和A.Valli,{偏微分方程的区域分解方法},《数值数学和科学计算》,克拉伦登出版社,牛津,1999年·Zbl 0931.65118号
[35] F.Rizzi、K.Morris、K.Sargsyan、P.Mycek、C.Safta、B.J.Debusschere、O.Le Ma itre、H.N.Najm和O.M.Knio,{it偏微分方程解算器对软故障和硬故障的恢复能力},《大系统可缩放算法最新进展研讨会论文集》(ScalA15),提交日期,2015年·Zbl 1357.65297号
[36] A.Savino、S.D.Carlo、G.Politano、A.Benso、A.Bosio和G.Di Natale,《基于微处理器的系统的统计可靠性估计》,IEEE Trans。计算。,61(2012),第1521-1534页·Zbl 1365.62395号
[37] B.Schroeder和G.A.Gibson,《高性能计算系统故障的大规模研究》,IEEE Trans。依赖。安全计算。,7(2010年),第337-350页。
[38] J.Shalf、S.Dosanjh和J.Morrison,{Exascale计算技术挑战},《计算科学的高性能计算》,《计算讲义》。科学。6449,施普林格,柏林,2011年,第1-25页。
[39] A.Shye、T.Moseley、V.J.Reddi、J.Blomstedt和D.A.Connors,{\it Using process-level redundancy to explose multiple core for transient fault tolerance},第37届IEEE/IFIP可靠系统和网络国际会议,DSN’07,IEEE Computer Society,Los Alamitos,CA,2007,第297-306页。
[40] D.S.Sivia,《数据分析:贝叶斯教程》,克拉伦登出版社,牛津,1996年·Zbl 0884.62033号
[41] B.F.Smith,{偏微分方程的区域分解方法},《并行数值算法》,Kluwer,Dordrecht,1997年,第225-243页·Zbl 0865.65089号
[42] K.H.Tan和M.J.A.Borsboom,{关于广义Schwarz耦合应用于对流占优问题},Contemp。数学。,180(1994年),第125-125页·兹伯利0817.65076
[43] K.Teranishi和M.A.Heroux,《使用MPI-ULFM实现局部故障局部恢复弹性模型》,第21届欧洲MPI用户小组会议,ACM,纽约,2014年,第51-56页。
[44] A.Toselli和O.B.Widlund,{域分解方法-算法和理论},Springer Ser。计算。数学。,施普林格,柏林,2005年·Zbl 1069.65138号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。