×

高阶有限元数值积分的矢量化OpenCL实现。 (英语) Zbl 1350.65126号

摘要:在我们的工作中,我们分析了有限元计算中数值积分问题的计算方面,并考虑了具有宽向量寄存器的处理器的相关算法的OpenCL实现。
作为测试实现的平台,我们选择PowerXCell处理器,作为蜂窝宽带引擎(CellBE)架构的一个示例。虽然按照今天的标准,处理器被认为是老式的(其设计可追溯到2001年),但我们调查它的性能是因为它与最近的Xeon Phi系列协处理器有两个共同的特点:宽矢量单元和计算核心与主全局内存的连接相对较慢。对并行化选项进行的分析还可以用于为具有向量寄存器的其他处理器(如当代x86微处理器)设计数值积分算法。
我们考虑了高阶有限元近似,并实现了棱柱体单元数值积分的标准算法。本文的原始贡献包括分析代码执行期间执行的数据移动和向量操作。开发了该实现的几个版本,并在实践中进行了测试。

MSC公司:

65N30型 含偏微分方程边值问题的有限元、Rayleigh-Ritz和Galerkin方法
2005年5月 并行数值计算
65日元10 特定类别建筑的数值算法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] NVIDIA,NVIDIA-CUDA C编程指南5.0版(2012)
[2] AMD,AMD加速并行处理。OpenCL编程指南(2012)
[3] 杰弗斯,J。;Reinders,J.,Intel Xeon Phi协处理器高性能编程(2013),Morgan Kaufmann
[4] IBM,《Cell Broadband Engine Programming Handbook Including the PowerXCell 8i Processor》(2008年)
[5] 威廉姆斯,S。;沙尔夫,J。;Oliker,L。;卡米勒,S。;丈夫,P。;Yelick,K.,《细胞处理器上的科学计算内核》,《国际并行编程杂志》,35,3,263-298(2007)
[6] 罗杰克,K。;Szustak,L.,《双精度矩阵乘法对蜂窝宽带引擎架构的适应性》,(PPAM’09:第八届并行处理和应用数学国际会议论文集(2010),施普林格出版社:施普林格出版社,海德堡),535-546
[7] Kushida,N.,单元处理器上有限元问题迭代求解器的元素级实现,(Cotronis,Y.;Danaloto,M.;Papadopoulos,G.A.,《第19届并行、分布式和基于网络的处理国际欧洲微会议论文集》,2011年PDP,塞浦路斯阿亚纳帕,2011年2月9日至11日(2011年),IEEE计算机学会), 401-408
[8] 威廉姆斯。;Oliker,L。;Vuduc,R。;沙尔夫,J。;Yelick,K。;Demmel,J.,新兴多核平台上稀疏矩阵向量乘法的优化,并行计算,35,3,178-194(2009)
[9] Govindaraju,N.K。;Larsen,S。;格雷,J。;Manocha,D.,内存——图形处理器上科学算法的内存模型,(SC(2006),ACM出版社),89
[11] Göddeke,D。;Wobker,H。;斯特佐德卡,R。;Mohd-Yusof,J。;McCormick,P。;Turek,S.,使用FEASTGPU对未修改的并行实体力学代码进行协处理器加速,国际计算科学与工程杂志,4,4,254-269(2009)
[12] Göddeke,D。;斯特佐德卡,R。;Mohd-Yusof,J。;McCormick,P。;Buijssen,S.H。;Grajewski,M。;Turek,S.,探索GPU增强集群上FEM计算的弱可扩展性,并行计算,33,10-11,685-699(2007)
[13] 沃尔科夫,V。;Demmel,J.W.,调整密集线性代数的基准GPU,(2008年ACM/IEEE超级计算会议论文集。2008年ACM/IEEE超级计算机会议论文集,SC'08(2008),IEEE出版社:美国新泽西州皮斯卡塔韦IEEE出版社),31:1-31:11
[14] Dubiner,M.,三角形和其他域上的谱方法,科学计算杂志,6,4,345-390(1991)·Zbl 0742.76059号
[15] Sherwin,S。;Karniadakis,G.,四面体hp有限元:算法和流动模拟,计算物理杂志,124,14-45(1996)·Zbl 0847.76038号
[16] Demkowicz,L。;Kurtz,J。;帕尔多,D。;帕辛斯基,M。;Rachowicz,W。;Zdunk,A.,用hp自适应有限元进行计算,第2卷:前沿。三维椭圆和麦克斯韦问题及其应用(2007),查普曼和霍尔/CRC·兹比尔1111.65103
[17] 梅伦克,J。;Gerdes,K。;Schwab,C.,《全离散hp-有限元I:快速求积》,《应用力学和工程中的计算机方法》,1904339-4364(2001)·兹伯利0985.65141
[18] Vos,P.E.J。;Sherwin,S.J。;Kirby,R.M.,《从h到p的有效性:实现有限元和谱/hp元方法以实现低阶和高阶离散化的最佳性能》,计算物理杂志,2295161-5181(2010)·Zbl 1194.65138号
[19] Markall,G.R。;Ham,D.A。;Kelly,P.H.,《从高级规范为GPU生成优化的有限元解算器》,iCCS 2010。iCCS 2010,《Procedia Computer Science》,第1期,第1815-1823页(2010年)
[20] 塞卡,C。;Lew,A.J。;Darve,E.,《有限元方法在图形处理器上的组装》,《国际工程数值方法杂志》,85,5,640-669(2011)·Zbl 1217.80146号
[21] 塞卡,C。;Lew,A.J。;Darve,E.,《有限元方法在实时弹性动力学图形处理器上的应用》(Hwu,W.-M.W.,GPU Computing Gems(2011),Morgan Kaufmann),187-205
[22] Markall,G.R。;Slemmer,A。;Ham,D.A。;Kelly,P.H.J。;坎特韦尔,C.D。;Sherwin,S.J.,《多核和多核结构的有限元组装策略》,《流体数值方法国际期刊》,71,1,80-97(2013)·Zbl 1431.65217号
[23] Knepley,M.G。;Terrel,A.R.,GPU上的有限元积分,ACM数学软件汇刊,39,2,10:1-10:13(2013)·Zbl 1298.65176号
[24] Komatitsch,D。;Michéa,D。;Erlebacher,G.,使用CUDA将高阶有限元地震建模应用程序移植到NVIDIA图形卡,并行与分布式计算杂志,69,5,451-460(2009)
[25] 科克纳,A。;沃伯顿,T。;布里奇,J。;Hesthaven,J.S.,图形处理器上的节点非连续Galerkin方法,计算物理杂志,2287863-7882(2009)·Zbl 1175.65111号
[27] Dziekonski,A。;Sypek,P。;拉梅基,A。;Mrozowski,M.,《在多图形处理器上生成大型有限元矩阵》,《国际工程数值方法杂志》(2012年)·Zbl 1352.65494号
[28] Dziekonski,A。;Sypek,P。;拉梅基,A。;Mrozowski,M.,基于GPU的有限元矩阵生成,电磁学研究进展,128,249-265(2012)
[29] 柯比,R.C。;Logg,A.,《变分形式编译器》,《ACM数学软件汇刊》,32,3(2006)
[30] 罗格,A。;Wells,G.N.,Dolfin:自动化有限元计算,美国计算机学会数学软件汇刊,37,2,20:1-20:28(2010)·Zbl 1364.65254号
[31] 罗格,A。;马尔达尔,K.-A。;Wells,G.N.,《用有限元法自动求解微分方程》(2012),Springer·Zbl 1247.65105号
[32] 艾伊霍特,V。;比伦蒂内西,P。;van de Geijn,R.A.,《朝向Krylov解算器库的机械推导》,《Procedia Computer Science》,第1期,第1805-1813页(2010年)
[33] 标记,B。;Poulson,J。;Batory,D.S。;van de Geijn,R.A.,《通过变换设计线性代数算法:专家开发人员的机械化》(Daydé,M.J.;Marques,O。;Nakajima,K.,《计算科学的高性能计算——2012年第十届国际会议》,日本神户,2012年7月17日至20日,修订论文集。计算科学的高性能计算——2012年第十届国际会议,日本神户,2012年7月17日至20日,修订论文集,计算机科学讲义,第7851卷(2013),Springer),362-378
[34] 克鲁埃尔,F。;Bana sh,K.,PowerXCell处理器上的有限元数值积分,(PPAM’09:第八届并行处理和应用数学国际会议论文集(2010),Springer-Verlag:Springer-Verlag Berlin,Heidelberg),517-524
[35] Bana sh,K.,并行自适应有限元计算内核的模块化设计,(Bubak,M.;van Albada,G.;Sloot,P。;Dongarra,J.,《计算科学—ICCS 2004》,第四届国际会议,波兰克拉科夫,2004年6月,会议记录,第二部分。计算科学-ICCS 2004,第四届国际会议,波兰克拉科夫,2004年6月,会议记录,第二部分,计算机科学讲稿,第3037卷(2004),斯普林格),155-162·Zbl 1086.65534号
[36] 巴纳西,K。;Michalik,K.,用于流动详细FEM模拟的自适应网格操作模块的设计与开发,《Procedia Computer Science》,1,12043-2051(2010)
[37] Michalik,K。;巴纳西,K。;Płaszewski,P。;Cybułka,P.,ModFEM-并行自适应有限元模拟的计算框架,材料科学中的计算机方法,13,1,38(2013)
[38] Bana sh,K.,《大规模自适应有限元计算的并行化》,(Wyrzykowski,R.;Dongarra,J.;Paprzycki,M.;Wa sh niewski,J.,《并行处理与应用数学》,第五届国际会议论文集,PPAM 2003,Czȩstochowa,波兰,2003。并行处理和应用数学,第五届国际会议论文集,PPAM 2003,Czȩstochowa,波兰,2003,计算机科学讲义,第3019卷(2004),Springer),431-438·Zbl 1128.65312号
[39] Bana sh,K.,并行自适应有限元软件的模型,(Kornhuber,R.;Hoppe,R.,Périaux,J.;Pironneau,O.;Widlund,O..;Xu,J.,《科学与工程领域分解方法》,《计算科学与工程讲义》,第40卷(2004),Springer), 159-166 ·Zbl 1066.65119号
[40] Demkowicz,L.,使用Hp-自适应有限元进行计算:第1卷。一维和二维椭圆和麦克斯韦问题(2006),Taylor&Francis Group
[41] Ciarlet,P.,《椭圆问题的有限元方法》(1978),北荷兰:北荷兰阿姆斯特丹·Zbl 0383.65058号
[42] 什奥林,P。;Segeth,K。;Doleíel,I.,(高阶有限元方法。高阶有限元素方法,高等数学研究,第1卷(2004),Chapman&Hall/CRC)·Zbl 1032.65132号
[43] 帕辛斯基,M。;帕尔多,D。;帕辛斯卡,A。;Demkowicz,L.F.,多物理hp自适应问题的外核多前沿求解器,《Procedia计算机科学》,41788-1797(2011)
[44] Calo,V.M。;科利尔,N.O。;帕尔多,D。;Paszynski,M.,用于p有限元分析的多前沿直接求解器的计算复杂性和内存使用,Procedia计算机科学,41854-1861(2011)
[45] 巴纳西,K。;Płaszewski,P。;Macioł,P.,高阶有限元GPU的数值积分,计算机和数学应用(2013),提交出版
[46] Wyrzykowski,R。;Rojek,K。;Szustak,L.,双精度矩阵乘法对单元处理器架构的模型驱动适应,并行计算,38,4-5,260-276(2012)
[47] Group,K.O.W.,OpenCL规范,1.1版(2010年)
[49] 马西奥,P。;Płaszewski,P。;Bana si,K.,GPU上的三维有限元数值积分,《Procedia Computer Science》,第1期,第1093-1100页(2010年)
[50] Płaszewski,P。;马西奥,P。;Bana sh,K.,GPU上的有限元数值积分,(PPAM’09:第八届并行处理和应用数学国际会议论文集(2010),Springer-Verlag:Springer-Verlag Berlin,Heidelberg),411-420
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。