×

集群上的并行双曲线PDE模拟:细胞与GPU。 (英语) Zbl 1432.35002号

概要:高性能计算越来越倾向于使用数据并行计算设备来提高计算性能。两项备受关注的技术是IBM的Cell Processor和NVIDIA的用于图形处理单元(GPU)计算的CUDA编程模型。在本文中,我们研究了在具有Cell和GPU后端的集群上显式时间积分的结构化网格上并行双曲型偏微分方程模拟的加速。消息传递接口(MPI)用于在最粗并行级别的节点之间进行通信。从数据布局、数据流和数据并行指令方面描述了模拟代码在数据并行设备提供的几个更精细的并行级别上的优化。将优化的Cell和GPU性能与单个x86中央处理器(CPU)内核上的参考代码性能进行单精度和双精度比较。我们进一步比较了CPU、Cell和GPU平台在芯片对芯片基础上的性能,并比较了具有两个CPU、两个Cell处理器或共享内存配置(无MPI)中的两个GPU的单集群节点上的性能。最后,我们使用MPI比较了32个CPU、32个Cell处理器和32个GPU的集群的性能。我们的GPU集群结果使用具有GT200架构的NVIDIA Tesla GPU,但也包括最近引入的具有下一代费米架构的NVIDIA GPU的一些初步结果。本文为正在考虑将代码移植到加速器环境的计算科学家和工程师提供了深入了解如何使用Cell和GPU加速器为集群优化基于结构化网格的显式算法的见解。它还提供了对此类应用程序当前和未来加速器体系结构可能获得的加速的深入了解。

MSC公司:

35-04 偏微分方程相关问题的软件、源代码等
35L99型 双曲方程和双曲系统
2005年5月 并行数值计算
65年20月 数值算法的复杂性和性能
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Lindholm,E。;Nickolls,J。;Oberman,S。;Montrym,J.,《NVIDIA tesla:统一图形和计算架构》,IEEE Micro,28,39-55(2008)
[2] J.D.欧文斯。;马萨诸塞州休斯顿。;Luebke博士。;格林,S。;斯通,J.E。;Phillips,J.C.,GPU计算,IEEE会议录,96,879-899(2008)
[3] Pham,D.C。;Aipperspach,T。;Boerstler,D。;Bolliger,M。;乔杜里。;考克斯·D。;哈维,P。;哈维,P.M。;Hofstee,H.P。;Johns,C。;Kahle,J。;Kameyama,A。;基蒂,J。;Masubuchi,Y。;Pham,M。;皮勒,J。;Posluszny,S。;莱利,M。;Stasiak博士。;铃木,M。;O.高桥。;沃诺克,J。;Weitzel,S。;温德尔,D。;Yazawa,K.,第一代Cell处理器的架构、电路设计和物理实现概述,IEEE固态电路杂志,41179-196(2006)
[4] 阿雷瓦洛,A。;马蒂纳塔,R.M。;潘迪安,M。;佩里,E。;鲁比,K。;托马斯·F。;Almond,C.,《为蜂窝宽带引擎架构编程:示例和最佳实践》(2008),IBM红皮书
[5] LeVeque,R.J.,《双曲问题的有限体积方法》(2002),剑桥大学出版社·Zbl 1010.65040号
[7] De Fabritis,G.,生物分子模拟细胞处理器的性能,计算机物理通信,176660-664(2007)
[8] Stuermer,M。;戈茨,J。;Richter,G。;Doerfler,A。;Ruede,U.,《使用格子Boltzmann方法对Cell宽带发动机进行流体流动模拟》,《计算机和数学及其应用》,581062-1070(2009)·Zbl 1189.76811号
[9] 威廉姆斯。;沙尔夫,J。;Oliker,L。;卡米勒,S。;丈夫,P。;Yelick,K.,《Cell处理器上的科学计算内核》,《国际并行编程》,35,263-298(2007)
[10] 弗里德里希斯,M.S。;伊士曼,P。;Vaidyanathan,V。;马萨诸塞州休斯顿。;罗格朗,S。;Beberg,A.L。;Ensign,D.L。;布伦斯,C.M。;Pande,V.S.,《在图形处理单元上加速分子动力学模拟》,《计算化学杂志》,30864-872(2009)
[11] 滨田,T。;Iitaka,T.,《洋甘菊方案:可编程图形处理器上人体模拟的优化算法》(2007)
[12] 尼兰,拉尔斯;Mark Harris;Prins,Jan,《使用CUDA快速N体模拟》(GPU Gems,第3卷(2008),Addison-Wesley),677-696,第31章
[13] 斯通,S.S。;Haldar,J.P。;曹,S.C。;Hwu,W。;萨顿,B.P。;梁振平,在GPU上加速高级MRI重建,J.并行分布计算。,68, 1307-1318 (2008)
[14] 徐,F。;Mueller,K.,《使用商品图形硬件的实时3D计算机断层重建》,《医学和生物物理》,52,3405-3419(2007)
[16] Brandvik,T。;Pullan,G.,《使用商品图形硬件加速二维Euler流解算器》,机械工程师学会论文集,第C部分,机械工程师协会论文集,C部分,《机械工程科学杂志》,2211745-1748(2007)
[17] 哈根,T.R。;Lie,K.-A。;Natvig,J.R.,在图形处理单元上求解欧拉方程,计算机科学讲义,3994220-227(2006)·兹比尔1157.76358
[18] Kloeckner,A。;沃伯顿,T。;布里奇,J。;Hesthaven,J.S.,图形处理器上的高阶非连续Galerkin方法,计算物理杂志,2287863-7882(2009)·Zbl 1175.65111号
[20] van Dyk,D。;Geveler,M。;马拉赫,S。;里布洛克,D。;戈代克,D。;Gutwenger,C.,HONEI:面向多处理器体系结构的数值计算库集合,《计算机物理通信》,1802534-2543(2009)·Zbl 1197.65007号
[30] Nickolls,J。;巴克,I。;加兰,M。;Skadron,K.,《使用CUDA的可扩展并行编程》,Queue,6,40-53(2008)
[35] 卡拉汉,D。;卡尔·S。;Kennedy,K.,《改进下标变量的寄存器分配》,SIGPLAN Not。,39、4、328-342(2004年4月)
[37] 斯通,J.E。;菲利普斯,J.C。;Freddolino,P.L。;哈代,D.J。;Trabuco,L.G。;Schulten,K.,用图形处理器加速分子建模应用,计算化学杂志,282618-2640(2007)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。