文件Zbl 1217.80146-zbMATH Open

在图形处理器上组装有限元方法。（英语） Zbl 1217.80146号

国际期刊数字。方法工程。 85，第5号，640-669（2011）.

摘要：最近，图形处理单元（GPU）在加速许多数值计算方面取得了巨大成功。我们将其应用于非结构化网格的计算，如有限元方法中的计算。创建并分析了使用NVIDIA GPU和计算统一设备体系结构（CUDA）组装和求解稀疏线性系统的多种方法。介绍了有效使用全局、共享和本地内存的多种策略、实现内存合并的方法以及参数的最佳选择。我们发现，与优化良好的双精度单核实现相比，使用单精度算法的GPU协处理器在适当的预处理和支持数据安排下，可以实现30以上的加速比。我们还发现，最佳装配策略取决于有限元离散化中使用的多项式的阶数。

引用于37文件

MSC公司：

80万M10	有限元、伽辽金及相关方法在热力学和传热问题中的应用
80A20型	传热传质、热流（MSC2010）
65年20月	数值算法的复杂性和性能
65D18天	计算机图形、图像分析和计算几何的数值方面

关键词：

有限元法;有限元法;GPGPU（通用图形处理器）;通用分组;CUDA公司;多芯;高性能计算

软件：

CUDA公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Vogt，《使用图形处理单元加速分辨率f-the-identity二阶Möller-Plesset量子化学计算》，《物理化学杂志》A 112（10）第2049页–（2008）
[2]	Anderson，在图形处理单元上完全实现的通用分子动力学模拟，计算物理杂志227（10）pp 5342–（2008）·Zbl 1148.81301号
[3]	Hardy，使用图形处理单元的静电势多级求和，并行计算35（3），第164页–（2009）
[4]	Elsen，使用GPU对高超声速飞行器绕流的大型计算，计算物理杂志227（24）pp 10148–（2008）·Zbl 1218.76035号
[5]	Göddeke D Buijssen SH Wobker H Turek S未修改并行有限元Navier-Stokes解算器的GPU加速度2009 12 21
[6]	Rodriguez-Navarro J Susin使用FEM 2006 1 7进行布料GPU模拟的非结构化网格
[7]	Göddeke D Strzodka R Turek S用GPU加速双精度有限元模拟
[8]	Göddeke，《使用GPU提高集群上的多重网格解算器性能》，《国际计算机系统科学与工程杂志》4（1），第36页–（2008）·doi:10.10504/IJCSE.2008.021111
[9]	Bolz，GPU上的稀疏矩阵解算器：共轭梯度和多重网格，ACM图形汇刊22，第917页–（2003）
[10]	Klöckner，图形处理器上的节点非连续Galerkin方法，计算物理杂志228（21）pp 7863–（2009）·Zbl 1175.65111号
[11]	Komatitsch，使用CUDA将高阶有限元地震建模应用程序移植到NVIDIA图形卡，并行与分布式计算杂志69（5），第451页–（2009）
[12]	Tejada，基于GPU的可变形体模拟的大步骤，模拟建模实践和理论13（8），第703页–（2005）
[13]	Natarajan，共享内存多处理器上的有限元应用：算法和实验结果，计算物理杂志94（2），第352页–（1991）·Zbl 0717.76079号
[14]	共享内存多处理机上非线性有限元计算的一般方法，应用力学与工程中的计算机方法72（2）pp 153–（1989）
[15]	NVIDIA公司2008
[16]	Volkov V Demmel J LU、QR和Cholesky因子分解使用GPU 2008的向量功能
[17]	Hughes，《有限元法：线性静态和动态有限元分析》（1987）·Zbl 0634.73056号
[18]	Brezzi，二阶椭圆问题的两类混合有限元，Numerische Mathematik 47 pp 217–（1985）·Zbl 0599.65072号
[19]	Kubale，图形着色（2004）·Zbl 1064.05061号 ·doi:10.1090/conm/352
[20]	Karypis G Kumar V 1998年
[21]	Graham，《多处理时间异常的界限》，《SIAM应用数学杂志》17页263–（1969）·Zbl 0188.23101号
[22]	Rumpf，计算科学与工程讲稿，in：并行计算机上偏微分方程的数值解第89页–（2005）
[23]	Galoppo N Govindaraju N Henson M Manocha D LU-GPU：在图形硬件上求解密集线性系统的高效算法3 3
[24]	Strzodka Röddeke D FPGA上的流水线混合精度算法，用于来自低精度组件的快速和准确PDE求解器259 268
[25]	Buatois，并发数字运算器：GPU上的高效稀疏线性解算器（2007）·doi:10.1007/978-3-540-75444-2_37
[26]	Bell N Garland M CUDA 2008上的高效稀疏矩阵向量乘法
[27]	Baskaran M Bordawekar R使用编译时和运行时策略2008优化GPU上的稀疏矩阵向量乘法
[28]	He B Govindaraju NK Luo Q Smith B图形处理器上的高效收集和分散操作1 12

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
右心室	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文件类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

在图形处理器上组装有限元方法。（英语） Zbl 1217.80146号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

在图形处理器上组装有限元方法。 （英语） Zbl 1217.80146号

MSC公司：

关键词：

软件：

参考文献：

在图形处理器上组装有限元方法。（英语） Zbl 1217.80146号