×

在图形处理器上组装有限元方法。 (英语) Zbl 1217.80146号

摘要:最近,图形处理单元(GPU)在加速许多数值计算方面取得了巨大成功。我们将其应用于非结构化网格的计算,如有限元方法中的计算。创建并分析了使用NVIDIA GPU和计算统一设备体系结构(CUDA)组装和求解稀疏线性系统的多种方法。介绍了有效使用全局、共享和本地内存的多种策略、实现内存合并的方法以及参数的最佳选择。我们发现,与优化良好的双精度单核实现相比,使用单精度算法的GPU协处理器在适当的预处理和支持数据安排下,可以实现30以上的加速比。我们还发现,最佳装配策略取决于有限元离散化中使用的多项式的阶数。

MSC公司:

80万M10 有限元、伽辽金及相关方法在热力学和传热问题中的应用
80A20型 传热传质、热流(MSC2010)
65年20月 数值算法的复杂性和性能
65D18天 计算机图形、图像分析和计算几何的数值方面

软件:

CUDA公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Vogt,《使用图形处理单元加速分辨率f-the-identity二阶Möller-Plesset量子化学计算》,《物理化学杂志》A 112(10)第2049页–(2008)
[2] Anderson,在图形处理单元上完全实现的通用分子动力学模拟,计算物理杂志227(10)pp 5342–(2008)·Zbl 1148.81301号
[3] Hardy,使用图形处理单元的静电势多级求和,并行计算35(3),第164页–(2009)
[4] Elsen,使用GPU对高超声速飞行器绕流的大型计算,计算物理杂志227(24)pp 10148–(2008)·Zbl 1218.76035号
[5] Göddeke D Buijssen SH Wobker H Turek S未修改并行有限元Navier-Stokes解算器的GPU加速度2009 12 21
[6] Rodriguez-Navarro J Susin使用FEM 2006 1 7进行布料GPU模拟的非结构化网格
[7] Göddeke D Strzodka R Turek S用GPU加速双精度有限元模拟
[8] Göddeke,《使用GPU提高集群上的多重网格解算器性能》,《国际计算机系统科学与工程杂志》4(1),第36页–(2008)·doi:10.10504/IJCSE.2008.021111
[9] Bolz,GPU上的稀疏矩阵解算器:共轭梯度和多重网格,ACM图形汇刊22,第917页–(2003)
[10] Klöckner,图形处理器上的节点非连续Galerkin方法,计算物理杂志228(21)pp 7863–(2009)·Zbl 1175.65111号
[11] Komatitsch,使用CUDA将高阶有限元地震建模应用程序移植到NVIDIA图形卡,并行与分布式计算杂志69(5),第451页–(2009)
[12] Tejada,基于GPU的可变形体模拟的大步骤,模拟建模实践和理论13(8),第703页–(2005)
[13] Natarajan,共享内存多处理器上的有限元应用:算法和实验结果,计算物理杂志94(2),第352页–(1991)·Zbl 0717.76079号
[14] 共享内存多处理机上非线性有限元计算的一般方法,应用力学与工程中的计算机方法72(2)pp 153–(1989)
[15] NVIDIA公司2008
[16] Volkov V Demmel J LU、QR和Cholesky因子分解使用GPU 2008的向量功能
[17] Hughes,《有限元法:线性静态和动态有限元分析》(1987)·Zbl 0634.73056号
[18] Brezzi,二阶椭圆问题的两类混合有限元,Numerische Mathematik 47 pp 217–(1985)·Zbl 0599.65072号
[19] Kubale,图形着色(2004)·Zbl 1064.05061号 ·doi:10.1090/conm/352
[20] Karypis G Kumar V 1998年
[21] Graham,《多处理时间异常的界限》,《SIAM应用数学杂志》17页263–(1969)·Zbl 0188.23101号
[22] Rumpf,计算科学与工程讲稿,in:并行计算机上偏微分方程的数值解第89页–(2005)
[23] Galoppo N Govindaraju N Henson M Manocha D LU-GPU:在图形硬件上求解密集线性系统的高效算法3 3
[24] Strzodka Röddeke D FPGA上的流水线混合精度算法,用于来自低精度组件的快速和准确PDE求解器259 268
[25] Buatois,并发数字运算器:GPU上的高效稀疏线性解算器(2007)·doi:10.1007/978-3-540-75444-2_37
[26] Bell N Garland M CUDA 2008上的高效稀疏矩阵向量乘法
[27] Baskaran M Bordawekar R使用编译时和运行时策略2008优化GPU上的稀疏矩阵向量乘法
[28] He B Govindaraju NK Luo Q Smith B图形处理器上的高效收集和分散操作1 12
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。