文件Zbl 1352.65494-zbMATH Open

Dziekonski，A。；西佩克，P。；A.拉梅基。；Mrozowski，M。

在多个图形处理器上生成大型有限元矩阵。（英语） Zbl 1352.65494号

国际期刊数字。方法工程。 94，第2期，204-220（2013）.

摘要：本文介绍了在配备多个图形处理单元（GPU）的多核工作站上生成超大有限元矩阵的技术。为了克服GPU的低内存大小限制，同时加快生成过程，我们建议在多个GPU上以迭代方式生成有限元分析中出现的大型稀疏线性系统，并使用图形加速器与CPU并行，使用快速多线程过程执行矩阵片段的收集和添加。线程调度的组织方式应确保CPU操作不会影响进程的性能，并且只有当数据从GPU传输到CPU时，GPU才处于空闲状态。这种方法在两个工作站上进行了验证：第一个工作站由两个6核Intel Xeon X5690处理器和两个费米GPU组成：每个GPU都是一个GeForce GTX 590，带有两个图形处理器和1.5GB的快速RAM；第二个工作站配有两块特斯拉C2075板，板上装有6个每GB RAM和两个12核Opteron 6174。对于后一种设置，我们演示了如何快速生成多达1000万个未知数的稀疏有限元矩阵，其中包含超过10亿个非零项。{}与单线程和多线程CPU实现相比，基于本文所述思想的基于GPU的算法版本将有限元矩阵的生成时间分别减少了100和30倍。

引用于14文件

MSC公司：

65N30型	含偏微分方程边值问题的有限元、Rayleigh-Ritz和Galerkin方法
65日元10	特定类别建筑的数值算法

关键词：

有限元法；矩阵生成；多个GPU；费米；多核CPU；并行计算

软件：

MKL公司；CUDA公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Corrigan，在现代图形硬件上运行基于非结构化网格的CFD解算器，《流体数值方法国际期刊》66（2），第221页–（2011）·Zbl 1394.76084号 ·doi:10.1002/fld.2254
[2]	Elsen，使用GPU对高超声速飞行器绕流的大型计算，计算物理杂志227（24）pp 10148–（2008）·Zbl 1218.76035号 ·doi:10.1016/j.jcp.2008.08.023
[3]	Mossaiby，基于OpenCL的非结构化边缘有限元对流扩散求解器在图形硬件上的实现，《国际工程数值方法杂志》89第1635页–（2011）·Zbl 1242.76131号 ·doi:10.1002/nme.3302
[4]	Göddeke，使用FEASTGPU对未修改的并行实体力学代码进行协处理器加速，国际计算科学与工程杂志4（4），第254页–（2009）·doi:10.1504/IJCSE.2009.029162
[5]	Brad，使用图形处理器加速液-液界面水离子的分子动力学模拟，《计算化学杂志》32（3），第375页–（2011）·doi:10.1002/jcc.21578
[6]	Ganesan，通过图形处理单元（GPU）加速的分子动力学模拟得出的完全水合DMPC双层的结构、动态和静电特性，计算化学杂志32（14），第2958页–（2011）·doi:10.1002/jcc.21871
[7]	Inman MJ Elsherbeni AZ GPU计算电磁模拟线性系统加速天线与传播学会国际研讨会，2009年6月1日至5日。09年的阿珀斯。电气与电子工程师协会14
[8]	Tao，从CPU到GPU：基于GPU的电磁计算（GPUECO），《电磁学研究进展》81第1页–（2008）·doi:10.2528/PIER07121302
[9]	Tubbs，用于浅水流动和质量传输的GPU加速晶格Boltzmann模型，《国际工程数值方法杂志》86（3），第316页–（2011）·Zbl 1235.76129号 ·doi:10.1002/nme.3066
[10]	高桥，三维亥姆霍兹方程的GPU加速边界元法，《国际工程数值方法杂志》80（10），第1295页–（2009）·兹比尔1183.76829 ·doi:10.1002/nme.2661
[11]	高桥，在图形处理单元的快速多极方法中优化多极-局部算子，国际工程数值方法杂志89（1），第105页–（2012）·Zbl 1242.68364号 ·数字对象标识代码：10.1002/nme.3240
[12]	Sypek，《如何使用图形加速器使FDTD计算更有效》，IEEE磁学汇刊45（3）第1324页–（2009）·doi:10.1109/TMAG.2009.2012614
[13]	Weldon，GPU加速FDTD性能的实用研究，应用计算电磁学学会杂志25（4）第315页–（2010）
[14]	Markall，多核和多核结构的有限元组装策略，《流体数值方法国际期刊》71（1），第80页–（2013）·doi:10.1002/fld.3648
[15]	Dziekonski，调节混合GPU-CPU V-Cycle多级预处理器以求解大型实际和复杂的FEM方程组，IEEE天线和无线传播快报10 pp 619–（2011）·doi:10.1109/LAWP.2011.2159769
[16]	Dziekonski，GPU用有限元法分析微波元件的多级求解器加速，IEEE微波和无线元件快报21（1）pp 1–（2011）·doi:10.1109/LMWC.2010.2089974
[17]	Klockner，图形处理器上的节点非连续Galerkin方法，计算物理杂志228（21），第7863页–（2009）·Zbl 1175.65111号 ·doi:10.1016/j.jcp.2009.06.041
[18]	Zienkiewicz，有限元方法第1卷-基础，5。编辑（2000）·Zbl 0991.74002号
[19]	金，电磁学中的有限元方法，2。编辑（2002）·Zbl 1001.78001号
[20]	Asghar Bhatti，《基本有限元分析与应用：与Mathematica和Matlab计算》（2005）·Zbl 1321.65002号
[21]	Antoine，电场积分方程的分析预条件，国际工程数值方法杂志61（8）pp 1310–（2004）·Zbl 1210.65193号 ·数字对象标识代码：10.1002/nme.1106
[22]	Liu，解三维散射有限元边界积分矩阵方程的高效预处理程序，IEEE天线与传播学报50（9）pp 1212–（2002）·doi:10.1109/TAP.2002.801377
[23]	Dziekonski，GPU上的高效内存快速稀疏矩阵向量乘积，《电磁学研究进展》116页49–（2011）·doi:10.2528/PIER11031607
[24]	Dehnavi，图形处理单元上的有限元稀疏矩阵向量乘法，IEEE磁学汇刊46（8），第2982页–（2010）·doi:10.1109/TMAG.2010.2043511
[25]	Maciol，GPU上的三维有限元数值积分，Procedia Computer Science 1（1）第1093页–（2010）·doi:10.1016/j.procs.2010.04.121
[26]	Plaszewski P Banas K Maciol P GPU上的高阶有限元数值积分与OpenCL 2010年国际计算机科学和信息技术多会议（IMCSIT）会议记录337 342
[27]	Cecka，图形处理器上有限元方法的组装，《国际工程数值方法杂志》85（5），第640页–（2011）·Zbl 1217.80146号 ·doi:10.1002/nme.2989
[28]	Cecka C Lew AJ Darve E有限元方法在实时弹性动力学图形处理器上的组装应用GPU计算Gems Emerald Edition Elsevier Inc.Burlington 187 205
[29]	Dziekonski，基于GPU的有限元矩阵生成，《电磁学研究进展》128页249–（2012）·doi:10.2528/PIER12040301
[30]	白皮书NVIDIA的下一代CUDA计算架构Fermihttp://www.nvidia.com/content/PDF/fermi_white_papers/nvidia_fermi_Compute_Architecture_Whitepaper.PDF
[31]	Saad，稀疏线性系统的迭代方法（2004）
[32]	英特尔数学内核库（英特尔MKL）的网站http://software.intel.com/en-us/intel-mkl
[33]	Sanders，CUDA示例：通用GPU编程简介（2011）
[34]	NVIDIA Corporation，CUDA API参考手册2011
[35]	UMFPACK（非对称多额叶稀疏LU因子分解包）的网站http://www.cise.ufl.edu/research/sparse/umfpack
[36]	白皮书-新VIDIA的下一代CUDA计算架构开普勒GK110http://www.nvidia.com/content/PDF/kepler/nvidia-kepler-GK110-Architecture-Whitepaper.PDF
[37]	张，三角形和四面体上的一组对称求积规则，计算数学杂志27（1），第89页–（2009）·Zbl 1199.65081号
[38]	Ingelstrom，四面体网格的一组新的H（curl）协调层次基函数，IEEE微波理论与技术汇刊54（1）pp 106–（2006）·doi:10.1109/TMTT.2005.860295
[39]	推力图书馆网站http://code.google.com/p/thrush/

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

在多个图形处理器上生成大型有限元矩阵。（英语） Zbl 1352.65494号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

在多个图形处理器上生成大型有限元矩阵。 （英语） Zbl 1352.65494号

MSC公司：

关键词：

软件：

参考文献：

在多个图形处理器上生成大型有限元矩阵。（英语） Zbl 1352.65494号