×

图形处理器上的节点间断Galerkin方法。 (英语) Zbl 1175.65111号

摘要:用于偏微分方程数值解的间断Galerkin(DG)方法因其灵活性和鲁棒性而获得了相当大的成功:它们允许任意的非结构化几何形状,并且易于控制精度,而不会影响仿真稳定性。最近,DG的另一个特性变得越来越重要:DG算子的大多数是以元素-局部的方式应用的,具有微弱的基于惩罚的元素-元素耦合。
由此产生的内存局部性访问是使DG能够在离线、大规模并行图形处理器(GPU)上运行的因素之一。此外,DG的高阶特性使其每个代表波长需要更少的数据点,从而减少内存访问,以换取更高的算术强度。这两个因素都有利于DG的GPU实现。
使用一个400美元的Nvidia GTX 280 GPU,我们将通用3D非结构化网格上的Maxwell方程求解器的速度提高了约50倍,相对于当前一代CPU上的串行计算。在许多情况下,我们的算法充分利用了设备的可用内存带宽。示例计算实现并超过200千兆浮点/秒的网络应用级浮点运算。
在本文中,我们描述并推导了用于达到此性能水平的技术。此外,我们还提供了关于该方法准确性和运行时行为的全面数据。

MSC公司:

65M60毫米 涉及偏微分方程初值和初边值问题的有限元、Rayleigh-Ritz和Galerkin方法
35升65 双曲守恒律
65年20月 数值算法的复杂性和性能
2005年5月 并行数值计算
35Q61问题 麦克斯韦方程组
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Timothy Barth,Timothy Knight,不连续伽辽金方法的流媒体语言实现,技术报告20050184165,美国航空航天局艾姆斯研究中心,2005年。;蒂莫西·巴特(Timothy Barth)、蒂莫西·奈特(Timoth Knight),《间断伽辽金方法的流式语言实现》(A Streaming Language Implementation of the Discontinuous Galerkin Method),技术报告20050184165,NASA艾姆斯研究中心,2005年。
[2] 巴克,I。;福利,T。;霍恩,D。;苏格曼,J。;Fatahalian,K。;马萨诸塞州休斯顿。;Hanrahan,P.,Brook for GPU:图形硬件上的流计算,(计算机图形和交互技术国际会议(2004),ACM:美国纽约州纽约市ACM),777-786
[3] M.H.Carpenter,C.A.Kennedy,《四阶2N储存龙格库塔方案》,技术报告,NASA兰利研究中心,1994年。;M.H.Carpenter,C.A.Kennedy,《四阶2N存储Runge-Kutta方案》,技术报告,美国航空航天局兰利研究中心,1994年。
[4] Cockburn,B。;Hou,S。;Shu,C.W.,守恒定律的Runge-Kutta局部投影间断Galerkin有限元方法。四: 多维案例,数学。计算。,54, 545-581 (1990) ·Zbl 0695.65066号
[5] 国际电工委员会,《电气技术中使用的字母符号——第2部分:电信和电子技术》,技术报告,国际电工委员会(瑞士日内瓦),2000年11月。;国际电工委员会,《电气技术中使用的字母符号——第2部分:电信和电子技术》,技术报告,国际电工委员会(瑞士日内瓦),2000年11月。
[6] W.J.Dally、P.Hanrahan、M.Erez、T.J.Knight、F.Labonté、J.H.Ahn、N.Jayasena、U.J.Kapasi、A.Das、J.Gummaraju、Merrimac:用流进行超级计算,收录于:ACM/IEEE SC2003会议论文集(SC'03),第1卷,2003年。;W.J.Dally、P.Hanrahan、M.Erez、T.J.Knight、F.Labonté、J.H.Ahn、N.Jayasena、U.J.Kapasi、A.Das、J.Gummaraju、Merrimac:用流进行超级计算,收录于:ACM/IEEE SC2003会议论文集(SC'03),第1卷,2003年。
[7] D.Göddeke,R.Strzodka,S.Turek,用GPU加速双精度FEM模拟,载于:ASIM学报,2005年。;D.Göddeke,R.Strzodka,S.Turek,《用GPU加速双精度FEM模拟》,载于:ASIM学报,2005年。
[8] Khronos OpenCL工作组,OpenCL 1.0规范。Khronos集团,2008年12月。;Khronos OpenCL工作组,OpenCL 1.0规范。Khronos Group,2008年12月。
[9] Gumerov,Nail A。;Duraiswami,Ramani,图形处理器上的快速多极方法,J.Compute。物理。,9月227日,8290-8313(2008)·Zbl 1147.65012号
[10] 赫塞文,J.S。;Warburton,T.,《非结构化网格上的节点高阶方法:I.麦克斯韦方程的时域解》,J.Compute。物理。,186-221年9月181日(2002年)·Zbl 1014.78016号
[11] 赫塞文,J.S。;Warburton,T.,《节点非连续Galerkin方法:算法、分析和应用》(2007),Springer·Zbl 1078.78014号
[12] 赫塞文,J.S。;哥特利布,S。;Gottlieb,D.,《时间相关问题的谱方法》(2007),剑桥大学出版社·Zbl 1111.65093号
[13] Jackson,J.D.,《经典电动力学》(1998),威利·Zbl 0114.42903号
[14] Karypis,G。;Kumar,V.,《划分不规则图的快速高质量多级方案》,SIAM J.Sci。计算。,20, 359-392 (1999) ·Zbl 0915.68129号
[15] S.E.Krakiwsky,L.E.Turner,M.M.Okoniewski,使用图形处理器单元(GPU)加速时域有限差分(FDTD),收录于:2004 IEEE MTT-S国际微波研讨会摘要,第2卷,第1033-1036页,2004年。国际标准书号0149-645X。doi:10.1109/MWSYM.2004.1339160;S.E.Krakiwsky,L.E.Turner,M.M.Okoniewski,使用图形处理器单元(GPU)加速时域有限差分(FDTD),收录于:2004 IEEE MTT-S国际微波研讨会摘要,第2卷,第1033-1036页,2004年。国际标准书号0149-645X。doi:10.1109/MWSYM.2004.1339160
[16] 李伟(Li,W.)。;魏,X。;考夫曼,A.,在图形硬件上实现格子波尔兹曼计算,可视化计算。,19444-456(2003年)
[17] Lindholm,E。;Nickolls,J。;Oberman,S。;Montrym,J.,Nvidia Tesla:统一图形和计算架构,Micro。IEEE,28,39-55(2008)
[18] Nvidia Corporation,Nvidia CUDA 2.0 Compute Unified Device Architecture Programming Guide,英伟达公司,美国圣克拉拉,2008年6月。;Nvidia Corporation,Nvidia CUDA 2.0 Compute Unified Device Architecture Programming Guide,英伟达公司,美国圣克拉拉,2008年6月。
[19] W.H.Reed,T.R.Hill,《中子输运方程的三角形网格方法》,技术报告,洛斯阿拉莫斯科学实验室,洛斯阿拉莫斯,1973年。;W.H.Reed,T.R.Hill,《中子输运方程的三角网格法》,技术报告,洛斯阿拉莫斯科学实验室,洛斯阿拉斯莫斯,1973年。
[20] Si,H。;Gaertner,K.,通过约束delaunay四面体化对分段线性复合体进行网格化,(第14届国际网格圆桌会议论文集(2005),Springer),147-163
[21] J.Stratton,S.Stone,W.Hwu,MCUDA:多核上CUDA内核的有效实现。技术报告,伊利诺伊大学厄本纳-香槟分校,厄本纳-Champaign,IL,美国,2008年3月。;J.Stratton,S.Stone,W.Hwu,MCUDA:多核上CUDA内核的有效实现。技术报告,伊利诺伊大学厄巴纳-香槟分校,厄巴纳-Champaign,IL,美国,2008年3月。
[22] 不同作者,Nvidia图形处理单元比较-维基百科,自由百科全书<http://en.wikipedia.org/w/index.php?title=Comparison_of_Nvidia_graphics_processing_units&oldid=248858931>; 不同作者,Nvidia图形处理单元比较-维基百科,自由百科全书<http://en.wikipedia.org/w/index.php?title=Comparison_of_Nvidia_graphics_processing_units&oldid=248858931>
[23] Warburton,T.,单纯形上插值节点的显式构造,J.工程数学。,56, 247-262 (2006) ·Zbl 1110.65014号
[24] 沃伯顿,T。;Hagstrom,T.,《结构网格上间断Galerkin方法的CFL数驯服》,SIAM J.Numer。分析。,46, 3151-3180 (2008) ·兹比尔1181.35010
[25] R.C.惠利。;佩蒂特,A。;Dongarra,J.J.,软件和ATLAS项目的自动经验优化,并行计算。,27, 3-35 (2001) ·Zbl 0971.68033号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。