×

在多个GPU上进行大涡模拟的并行格子Boltzmann方法。 (英语) 兹比尔1348.76086

摘要:为了提高大涡动力学下高雷诺数湍流流动的模拟效率,提出了一种基于CUDA的格子Boltzmann方法的多图形处理单元(GPU)大涡模拟仿真解决方案。我们的解决方案采用“先碰撞后传播”的晶格演化方式,并将未对齐的传播阶段置于全局内存读取过程中。最新的GPU平台允许单个CPU线程控制最多四个并行运行的GPU。为了利用多个GPU,将整个工作集均匀划分为多个子域。我们分别实现了Smagorinsky模型和Vreman模型来验证我们的多GPU解决方案。这两种LES模型具有不同的弛豫时间计算行为,导致CUDA实现特性不同。基于Smagorinsky模型的实现比CPU上的顺序实现速度提高了190倍,而基于Vreman模型的实现则提高了90倍以上。实验结果表明,我们的多GPU解决方案在多个GPU上的并行性能可以很好地扩展。因此,即使使用双精度浮点计算,大规模(高达10240乘以10240)格)LES-LBM模拟也可以以低成本进行。

MSC公司:

76英尺65英寸 湍流的直接数值模拟和大涡模拟
76米28 粒子法和晶格气体法

软件:

CUDA公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Benzi R,Succi S,Vergassola M(1992)晶格玻尔兹曼方程:理论与应用。物理报告222(3):145-197·doi:10.1016/0370-1573(92)90090-M
[2] Chu X,Zhao K,Wang M(2008)基于gpu的大规模并行网络编码。参加:2008年性能、计算和通信会议。2008年政府间气候变化专门委员会。IEEE国际。IEEE,第144-151页·1184.76800兹罗提
[3] Habich J(2008)《nvidia gpu上数值计算内核的性能评估》。爱尔兰根-恩伯格大学硕士论文·Zbl 1225.76237号
[4] Hou S,Sterling J,Chen S,Doolen G(1996)高雷诺数流动的格子boltzmann子网格模型。模式形式格子气体自动机6:151-166·Zbl 0923.76275号
[5] Kuznik F、Obrecht C、Rusaouen G、Roux J(2010)使用gpu计算处理器进行基于Lbm的流动模拟。计算数学应用59(7):380-2392·Zbl 1193.76112号 ·doi:10.1016/j.camwa.2009.08.052
[6] Li Y,Zhao K,Chu X,Liu J(2012)通过gpu加速K-means算法。计算机系统科学杂志·Zbl 1323.65141号
[7] Maier R,Bernard R,Grunau D(1996)格子boltzmann方法的边界条件。物理流体8(7):1788-1801·兹比尔1027.76632 ·数字对象标识代码:10.1063/1.868961
[8] Micikevicius P(2011)《多用途编程》。http://www.nvidia.com/docs/IO/116711/sc11-multi-gpu.pdf ·Zbl 1027.76632号
[9] 英伟达C(2011)《英伟达(Nvidia cuda)编程指南》。http://developer.download.nvidia.com/compute/DevZone/docs/html/C/doc/CUDA_C_Programming_Guide.pdf ·Zbl 0923.76275号
[10] 英伟达C(2011)英伟达公司。http://developer.nvidia.com/gpudirect
[11] Obrecht C,Kuznik F,Touracheau B,Roux J(2011)在图形处理单元上高效实现格子boltzmann方法的全局内存访问建模。高性能计算计算科学-VECPAR 2010:151-161·Zbl 1323.65141号
[12] Obrecht C、Kuznik F、Touracheau B、Roux J(2011)《格子boltzmann方法的多谱实现》。计算数学应用程序·兹比尔1268.76048
[13] Obrecht C,Kuznik F,Touracheau B,Roux J(2011)图形处理单元的格子boltzmann方法的新方法。计算数学应用61(12):3628-3638·Zbl 1225.76237号 ·doi:10.1016/j.camwa.2010.01.054
[14] Qian Y,d’Humieres d,Lallemand P(2007)navier-stokes方程的格子bgk模型。EPL(Europhys Lett)17(6):479·Zbl 1116.76419号 ·doi:10.1209/0295-5075/17/6/001
[15] Rosales C(2011)多相lbm分布在多个gpu上。2011年IEEE集群计算国际会议(cluster)。IEEE,第1-7页
[16] Smagorinsky J(1963)原始方程的一般循环实验。每月天气评论91(3):99-164·doi:10.1175/1520-0493(1963)091<0099:GCEWTP>2.3.CO;2
[17] Tölke J(2010)使用nvidia开发的计算统一设备架构实现格子boltzmann内核。计算V科学13(1):29-39
[18] Tölke J,Krafczyk M(2008)桌面pc上的Teraflop计算,带有用于三维cfd的gpu。国际J计算流体动力学22(7):443-456·1184.76800兹罗提 ·doi:10.1080/10618560802238275
[19] Vreman A(2004)湍流剪切流的涡流粘性次脊尺度模型:代数理论和应用。物理流体16:3670·Zbl 1187.76543号 ·doi:10.1063/1.1785131
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。