多米尼克·哥德克;罗伯特·斯特佐德卡;斯特凡·图雷克 FEM模拟中面向硬件的本机、仿真和混合精度求解器的性能和准确性。 (英语) 兹比尔1188.68084 国际J.并行紧急配送系统。 22,第4期,221-256(2007). 摘要:在这篇综述文章中,我们比较了线性方程组的本地双精度解算器与仿真解算器和混合解算器,因为它们通常出现在有限元离散化中。仿真使用两个单浮点数实现更高的精度,而混合精度迭代精化计算残差并以双精度更新解向量,但以单精度求解残差系统。这两种技术自20世纪60年代以来就已为人所知,但很少有人关注它们的性能方面。由于处理器技术范式的改变和具有卓越单浮点性能的高并行设备的出现,我们将仿真和混合精度技术应用于耦合硬件配置,其中并行设备充当科学协处理器。从加速比本地双精度实现(时间方面)和芯片的缩小面积要求(空间方面)来看,性能优势得到了检验。本文首先概述了理论背景、算法方法和合适的硬件架构。然后我们使用了几个共轭梯度(CG)和多重网格求解器,并研究了它们在迭代求精技术的不同参数设置下的行为。在通用CPU和图形处理器的耦合硬件配置上评估了具体的加速因子。在现场可编程门阵列上评估潜在面积节省的双重性能。在最后一部分,我们用条件矩阵测试了所提出的混合精度格式的适用性。我们的结论是,混合精度方法非常适用于并行协处理器,其加速因子为4到5,面积节省为3到4,同时保持与参考解算器以双精度执行所有操作相同的精度。 引用于17文件 MSC公司: 68平方米 计算机系统环境下的性能评估、排队和调度 68M99型 计算机系统组织 关键词:混合精度迭代精化;模拟精度;图形硬件;可重构硬件;大型稀疏线性方程组;有限元法 软件:伦敦北卡罗来纳州;mctoolbox软件;FEATFLOW公司 PDF格式BibTeX公司 XML格式引用 \textit{D.Göddeke}等人,《国际期刊》,《并行紧急分发系统》。22,第4号,221--256(2007;Zbl 1188.68084) 全文: 内政部 参考文献: [1] Wilkes M.,解决记忆墙问题研讨会(2000年) [2] Ho C.H.,IEEE现场可编程定制计算机研讨会(FCCM’06)(2006) [3] 内政部:10.1007/BF01397083·Zbl 0226.65034号 ·doi:10.1007/BF01397083 [4] Knuth D.E.,《计算机编程艺术》,第2卷(第3版):半数值算法(1997年)·Zbl 0895.68055号 [5] 内政部:10.1007/BF01975722·Zbl 0131.5805号 ·doi:10.1007/BF01975722 [6] Hida Y.,第15届计算机算术研讨会论文集第155页-(2001) [7] 内政部:10.1145/567806.567808·Zbl 1070.65523号 ·数字对象标识代码:10.1145/567806.567808 [8] 内政部:10.1109/ARITH.1991.145549·doi:10.10109/亚利桑那州.1991.145549 [9] 内政部:10.1007/PL00009321·Zbl 0892.68098号 ·doi:10.1007/PL00009321 [10] Wilkinson J.H.,代数过程中的舍入误差(1963)·Zbl 1041.65502号 [11] DOI:10.1007/BF02162558·Zbl 0158.33804号 ·doi:10.1007/BF02162558 [12] 内政部:10.1007/BF02162559·Zbl 0158.33805号 ·doi:10.1007/BF02162559 [13] 内政部:10.1145/1141885.1141894·Zbl 1365.65082号 ·数字对象标识代码:10.1145/1141885.1141894 [14] Zielke G.,GAMM-Mitteilungen 2,第7页–(2003年) [15] DOI:10.1137/0913048·Zbl 0758.65029号 ·doi:10.1137/0913048 [16] 内政部:10.1145/860854.860886·doi:10.1145/860854.860886 [17] Langou J.,2006年ACM/IEEE超级计算会议记录(SC'06)(2006) [18] Stewart G.W.,矩阵计算导论(1973)·Zbl 0302.65021号 [19] 内政部:10.1137/1.9780898718027·Zbl 1011.65010号 ·数字对象标识代码:10.1137/1.9780898718027 [20] Hartenstein R.,《欧洲的设计、自动化和测试——日期》,第2001页–(2001) [21] Hartenstein R.,微电子、器件和材料国际会议(MIDEM 2003)(2003) [22] 内政部:10.1145/859618.859667·数字对象标识代码:10.1145/859618.859667 [23] 郭忠,ACM/IEEE现场可编程门阵列国际研讨会(2004) [24] 内政部:10.1109/MM.2002.997877·doi:10.1109/MM.2002.997877 [25] DOI:10.1145/859618.859665·doi:10.1145/859618.859665 [26] Strzodka,R.,2004,量化图像处理中的硬件高效PDE解算器。杜伊斯堡大学博士论文·Zbl 1232.94004号 [27] Fatahalian K.,《2006年ACM/IEEE超级计算会议录》(SC’06)(2006) [28] 数字对象标识码:10.1145/1128022.1128027·doi:10.1145/1128022.1128027 [29] Göddeke,D.和Strzodka,R.《图形硬件的科学计算》,第六届国际计算科学会议(ICCS 2006)教程 [30] 欧文斯J.D.,《2005年欧洲制图》,《最新报告》第21页–(2005) [31] DOI:10.1016/j.simpat.2005.08.001·doi:10.1016/j.simpat.2005.08.001 [32] Hillesland K.,《GP2会议录》(2004年) [33] Daumas M.,机器体系结构研讨会(2006) [34] Da Graça G.,第七届实数与计算机会议,RNC7第23页–(2006) [35] Hitz M.A.,ACM SIGGRAPH会议摘要和应用(2006) [36] Thall A.,ACM SIGGRAPH会议摘要和应用(2006) [37] Dale K.,应用可重构计算国际研讨会论文集(ARC2006)(2006) [38] 内政部:10.1007/3-540-46117-5_68·doi:10.1007/3-540-46117-568 [39] Fang F.,EURASIP信号处理期刊,DSP和通信系统的应用实现特刊,第879页-(2002)·Zbl 1065.94512号 ·doi:10.1155/S1110865702205090 [40] 内政部:10.1109/FCCM.2004.59·doi:10.1109/FCCM.2004.59 [41] 内政部:10.1109/FPGA.2003.1227254·doi:10.1109/FPGA.2003.1227254 [42] 内政部:10.1145/503048.503056·数字标识代码:10.1145/503048.503056 [43] 内政部:10.1109/IPDPS.2004.1303135·doi:10.1109/IPDPS.2004.1303135 [44] Matousek R.,第12届现场可编程逻辑和应用国际会议,第627页–(2002年) [45] 内政部:10.1109/FCCM.2005.6·doi:10.1109/FCCM.2005.6 [46] Bondalapati K.,IEEE会议记录(2002) [47] 内政部:10.1145/508352.508353·数字对象标识代码:10.1145/508352.508353 [48] Turek S.,《不可压缩流问题的高效求解器:算法和计算方法》(1999年)·兹比尔0930.76002 ·doi:10.1007/978-3-642-58393-3 [49] Grajewski,M.、Köster,M.,Kilian,S.和Turek,S.,2005年,《有限元环境下稳健高效网格变形方法的数值分析和实践方面》,Ergebnisberichte des Institutes für Angewandte Mathematik,Nr.294,FB Mathematak,Universityät Dortmund·Zbl 1211.65160号 [50] Industrial Light&Magic、OpenEXR、半数据类型的实现。 [51] Strzodka R.,IEEE现场可编程定制计算机研讨会(FCCM 2006)(2006) [52] Göddeke D.,第18届模拟技术研讨会,第139页–(2005) [53] Göddeke D.,第19届模拟技术研讨会论文集第277页–(2006) [54] Altieri M.,《高性能科学与工程计算:HPSEC国际FORTWIHR会议论文集》,计算科学与工程第8卷,第3页–(1999) [55] Kilian,S.,2001,Ein verallgemeinentes Gebietszerlegungs-/Mehrgitterkonzept auf Parallelrechnern。多特蒙德大学博士论文·Zbl 1095.65110号 [56] Becker Ch.,FUTURE 1095第1页–(2002年) [57] Strzodka R.,《使用新商品架构的边缘计算研讨会论文集》(2006年) 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。