克里斯·塞卡;阿德里安·J·卢。;E·达夫。 在图形处理器上组装有限元方法。 (英语) Zbl 1217.80146号 国际期刊数字。方法工程。 85,第5号,640-669(2011). 摘要:最近,图形处理单元(GPU)在加速许多数值计算方面取得了巨大成功。我们将其应用于非结构化网格的计算,如有限元方法中的计算。创建并分析了使用NVIDIA GPU和计算统一设备体系结构(CUDA)组装和求解稀疏线性系统的多种方法。介绍了有效使用全局、共享和本地内存的多种策略、实现内存合并的方法以及参数的最佳选择。我们发现,与优化良好的双精度单核实现相比,使用单精度算法的GPU协处理器在适当的预处理和支持数据安排下,可以实现30以上的加速比。我们还发现,最佳装配策略取决于有限元离散化中使用的多项式的阶数。 引用于37文件 MSC公司: 80万M10 有限元、伽辽金及相关方法在热力学和传热问题中的应用 80A20型 传热传质、热流(MSC2010) 65年20月 数值算法的复杂性和性能 65D18天 计算机图形、图像分析和计算几何的数值方面 关键词:有限元法;有限元法;GPGPU(通用图形处理器);通用分组;CUDA公司;多芯;高性能计算 软件:CUDA公司 PDF格式BibTeX公司 XML格式引用 \textit{C.Cecka}等人,《国际数学家杂志》。方法工程85,No.5,640--669(2011;Zbl 1217.80146) 全文: 内政部 参考文献: [1] Vogt,《使用图形处理单元加速分辨率f-the-identity二阶Möller-Plesset量子化学计算》,《物理化学杂志》A 112(10)第2049页–(2008) [2] Anderson,在图形处理单元上完全实现的通用分子动力学模拟,计算物理杂志227(10)pp 5342–(2008)·Zbl 1148.81301号 [3] Hardy,使用图形处理单元的静电势多级求和,并行计算35(3),第164页–(2009) [4] Elsen,使用GPU对高超声速飞行器绕流的大型计算,计算物理杂志227(24)pp 10148–(2008)·Zbl 1218.76035号 [5] Göddeke D Buijssen SH Wobker H Turek S未修改并行有限元Navier-Stokes解算器的GPU加速度2009 12 21 [6] Rodriguez-Navarro J Susin使用FEM 2006 1 7进行布料GPU模拟的非结构化网格 [7] Göddeke D Strzodka R Turek S用GPU加速双精度有限元模拟 [8] Göddeke,《使用GPU提高集群上的多重网格解算器性能》,《国际计算机系统科学与工程杂志》4(1),第36页–(2008)·doi:10.10504/IJCSE.2008.021111 [9] Bolz,GPU上的稀疏矩阵解算器:共轭梯度和多重网格,ACM图形汇刊22,第917页–(2003) [10] Klöckner,图形处理器上的节点非连续Galerkin方法,计算物理杂志228(21)pp 7863–(2009)·Zbl 1175.65111号 [11] Komatitsch,使用CUDA将高阶有限元地震建模应用程序移植到NVIDIA图形卡,并行与分布式计算杂志69(5),第451页–(2009) [12] Tejada,基于GPU的可变形体模拟的大步骤,模拟建模实践和理论13(8),第703页–(2005) [13] Natarajan,共享内存多处理器上的有限元应用:算法和实验结果,计算物理杂志94(2),第352页–(1991)·Zbl 0717.76079号 [14] 共享内存多处理机上非线性有限元计算的一般方法,应用力学与工程中的计算机方法72(2)pp 153–(1989) [15] NVIDIA公司2008 [16] Volkov V Demmel J LU、QR和Cholesky因子分解使用GPU 2008的向量功能 [17] Hughes,《有限元法:线性静态和动态有限元分析》(1987)·Zbl 0634.73056号 [18] Brezzi,二阶椭圆问题的两类混合有限元,Numerische Mathematik 47 pp 217–(1985)·Zbl 0599.65072号 [19] Kubale,图形着色(2004)·Zbl 1064.05061号 ·doi:10.1090/conm/352 [20] Karypis G Kumar V 1998年 [21] Graham,《多处理时间异常的界限》,《SIAM应用数学杂志》17页263–(1969)·Zbl 0188.23101号 [22] Rumpf,计算科学与工程讲稿,in:并行计算机上偏微分方程的数值解第89页–(2005) [23] Galoppo N Govindaraju N Henson M Manocha D LU-GPU:在图形硬件上求解密集线性系统的高效算法3 3 [24] Strzodka Röddeke D FPGA上的流水线混合精度算法,用于来自低精度组件的快速和准确PDE求解器259 268 [25] Buatois,并发数字运算器:GPU上的高效稀疏线性解算器(2007)·doi:10.1007/978-3-540-75444-2_37 [26] Bell N Garland M CUDA 2008上的高效稀疏矩阵向量乘法 [27] Baskaran M Bordawekar R使用编译时和运行时策略2008优化GPU上的稀疏矩阵向量乘法 [28] He B Govindaraju NK Luo Q Smith B图形处理器上的高效收集和分散操作1 12 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。