×

在多个图形处理器上生成大型有限元矩阵。 (英语) Zbl 1352.65494号

摘要:本文介绍了在配备多个图形处理单元(GPU)的多核工作站上生成超大有限元矩阵的技术。为了克服GPU的低内存大小限制,同时加快生成过程,我们建议在多个GPU上以迭代方式生成有限元分析中出现的大型稀疏线性系统,并使用图形加速器与CPU并行,使用快速多线程过程执行矩阵片段的收集和添加。线程调度的组织方式应确保CPU操作不会影响进程的性能,并且只有当数据从GPU传输到CPU时,GPU才处于空闲状态。这种方法在两个工作站上进行了验证:第一个工作站由两个6核Intel Xeon X5690处理器和两个费米GPU组成:每个GPU都是一个GeForce GTX 590,带有两个图形处理器和1.5GB的快速RAM;第二个工作站配有两块特斯拉C2075板,板上装有6个每GB RAM和两个12核Opteron 6174。对于后一种设置,我们演示了如何快速生成多达1000万个未知数的稀疏有限元矩阵,其中包含超过10亿个非零项。{}与单线程和多线程CPU实现相比,基于本文所述思想的基于GPU的算法版本将有限元矩阵的生成时间分别减少了100和30倍。

MSC公司:

65N30型 含偏微分方程边值问题的有限元、Rayleigh-Ritz和Galerkin方法
65日元10 特定类别建筑的数值算法

软件:

MKL公司CUDA公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Corrigan,在现代图形硬件上运行基于非结构化网格的CFD解算器,《流体数值方法国际期刊》66(2),第221页–(2011)·Zbl 1394.76084号 ·doi:10.1002/fld.2254
[2] Elsen,使用GPU对高超声速飞行器绕流的大型计算,计算物理杂志227(24)pp 10148–(2008)·Zbl 1218.76035号 ·doi:10.1016/j.jcp.2008.08.023
[3] Mossaiby,基于OpenCL的非结构化边缘有限元对流扩散求解器在图形硬件上的实现,《国际工程数值方法杂志》89第1635页–(2011)·Zbl 1242.76131号 ·doi:10.1002/nme.3302
[4] Göddeke,使用FEASTGPU对未修改的并行实体力学代码进行协处理器加速,国际计算科学与工程杂志4(4),第254页–(2009)·doi:10.1504/IJCSE.2009.029162
[5] Brad,使用图形处理器加速液-液界面水离子的分子动力学模拟,《计算化学杂志》32(3),第375页–(2011)·doi:10.1002/jcc.21578
[6] Ganesan,通过图形处理单元(GPU)加速的分子动力学模拟得出的完全水合DMPC双层的结构、动态和静电特性,计算化学杂志32(14),第2958页–(2011)·doi:10.1002/jcc.21871
[7] Inman MJ Elsherbeni AZ GPU计算电磁模拟线性系统加速天线与传播学会国际研讨会,2009年6月1日至5日。09年的阿珀斯。电气与电子工程师协会14
[8] Tao,从CPU到GPU:基于GPU的电磁计算(GPUECO),《电磁学研究进展》81第1页–(2008)·doi:10.2528/PIER07121302
[9] Tubbs,用于浅水流动和质量传输的GPU加速晶格Boltzmann模型,《国际工程数值方法杂志》86(3),第316页–(2011)·Zbl 1235.76129号 ·doi:10.1002/nme.3066
[10] 高桥,三维亥姆霍兹方程的GPU加速边界元法,《国际工程数值方法杂志》80(10),第1295页–(2009)·兹比尔1183.76829 ·doi:10.1002/nme.2661
[11] 高桥,在图形处理单元的快速多极方法中优化多极-局部算子,国际工程数值方法杂志89(1),第105页–(2012)·Zbl 1242.68364号 ·数字对象标识代码:10.1002/nme.3240
[12] Sypek,《如何使用图形加速器使FDTD计算更有效》,IEEE磁学汇刊45(3)第1324页–(2009)·doi:10.1109/TMAG.2009.2012614
[13] Weldon,GPU加速FDTD性能的实用研究,应用计算电磁学学会杂志25(4)第315页–(2010)
[14] Markall,多核和多核结构的有限元组装策略,《流体数值方法国际期刊》71(1),第80页–(2013)·doi:10.1002/fld.3648
[15] Dziekonski,调节混合GPU-CPU V-Cycle多级预处理器以求解大型实际和复杂的FEM方程组,IEEE天线和无线传播快报10 pp 619–(2011)·doi:10.1109/LAWP.2011.2159769
[16] Dziekonski,GPU用有限元法分析微波元件的多级求解器加速,IEEE微波和无线元件快报21(1)pp 1–(2011)·doi:10.1109/LMWC.2010.2089974
[17] Klockner,图形处理器上的节点非连续Galerkin方法,计算物理杂志228(21),第7863页–(2009)·Zbl 1175.65111号 ·doi:10.1016/j.jcp.2009.06.041
[18] Zienkiewicz,有限元方法第1卷-基础,5。编辑(2000)·Zbl 0991.74002号
[19] 金,电磁学中的有限元方法,2。编辑(2002)·Zbl 1001.78001号
[20] Asghar Bhatti,《基本有限元分析与应用:与Mathematica和Matlab计算》(2005)·Zbl 1321.65002号
[21] Antoine,电场积分方程的分析预条件,国际工程数值方法杂志61(8)pp 1310–(2004)·Zbl 1210.65193号 ·数字对象标识代码:10.1002/nme.1106
[22] Liu,解三维散射有限元边界积分矩阵方程的高效预处理程序,IEEE天线与传播学报50(9)pp 1212–(2002)·doi:10.1109/TAP.2002.801377
[23] Dziekonski,GPU上的高效内存快速稀疏矩阵向量乘积,《电磁学研究进展》116页49–(2011)·doi:10.2528/PIER11031607
[24] Dehnavi,图形处理单元上的有限元稀疏矩阵向量乘法,IEEE磁学汇刊46(8),第2982页–(2010)·doi:10.1109/TMAG.2010.2043511
[25] Maciol,GPU上的三维有限元数值积分,Procedia Computer Science 1(1)第1093页–(2010)·doi:10.1016/j.procs.2010.04.121
[26] Plaszewski P Banas K Maciol P GPU上的高阶有限元数值积分与OpenCL 2010年国际计算机科学和信息技术多会议(IMCSIT)会议记录337 342
[27] Cecka,图形处理器上有限元方法的组装,《国际工程数值方法杂志》85(5),第640页–(2011)·Zbl 1217.80146号 ·doi:10.1002/nme.2989
[28] Cecka C Lew AJ Darve E有限元方法在实时弹性动力学图形处理器上的组装应用GPU计算Gems Emerald Edition Elsevier Inc.Burlington 187 205
[29] Dziekonski,基于GPU的有限元矩阵生成,《电磁学研究进展》128页249–(2012)·doi:10.2528/PIER12040301
[30] 白皮书NVIDIA的下一代CUDA计算架构Fermihttp://www.nvidia.com/content/PDF/fermi_white_papers/nvidia_fermi_Compute_Architecture_Whitepaper.PDF
[31] Saad,稀疏线性系统的迭代方法(2004)
[32] 英特尔数学内核库(英特尔MKL)的网站http://software.intel.com/en-us/intel-mkl
[33] Sanders,CUDA示例:通用GPU编程简介(2011)
[34] NVIDIA Corporation,CUDA API参考手册2011
[35] UMFPACK(非对称多额叶稀疏LU因子分解包)的网站http://www.cise.ufl.edu/research/sparse/umfpack
[36] 白皮书-新VIDIA的下一代CUDA计算架构开普勒GK110http://www.nvidia.com/content/PDF/kepler/nvidia-kepler-GK110-Architecture-Whitepaper.PDF
[37] 张,三角形和四面体上的一组对称求积规则,计算数学杂志27(1),第89页–(2009)·Zbl 1199.65081号
[38] Ingelstrom,四面体网格的一组新的H(curl)协调层次基函数,IEEE微波理论与技术汇刊54(1)pp 106–(2006)·doi:10.1109/TMTT.2005.860295
[39] 推力图书馆网站http://code.google.com/p/thrush/
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。