×

快速评估图形处理单元(GPU)上的亥姆霍兹电位。 (英语) Zbl 1202.78020号

摘要:本文提出了一种在图形处理单元(GPU)上实现的并行算法,用于快速评估亥姆霍兹势和大规模源分布之间的空间卷积。该算法实现了一种非均匀网格插值方法(NGIM),该方法使用振幅和相位补偿以及稀疏网格的空间插值来计算源域外的场。NGIM减少了在(N)个观测器处直接场评估的计算时间成本,这是因为在静态和低频区,共定位源从(O(N^{2})到(O(N)),在高频区,共位置源从(N)到(N),在混合频率区,共位源从(0(N^2}。在所有频率范围内,内存需求的比例为\(O(N)\)。NGIM的CPU和GPU实现之间的几个重要差异需要在各自的平台上产生最佳性能。特别是,在CPU实现中,所有操作都会在预处理阶段进行预计算并存储在内存中。这减少了计算时间,但显著增加了内存消耗。在GPU实现中,处理内存通常是一个关键瓶颈,因此使用了几种特殊的内存处理技术来加速计算。通过实现联合读取,GPU全局内存访问的显著延迟被隐藏了,这需要在内存的连续部分中排列许多阵列元素。与CPU版本相反,GPU实现中的大多数步骤都是动态执行的,并且只有必要的阵列保留在内存中。这大大减少了内存消耗,增加了可以处理的问题大小,并减少了GPU上的计算时间。根据所需的精度和问题大小,获得的GPU-CPU加速比从150到400。该方法及其CPU和GPU实现可以在物理和工程的各个领域中找到重要的应用。

MSC公司:

78年5月 光学和电磁理论的技术应用
65日元10 特定类别建筑的数值算法

软件:

CUDA公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 彼得森,A.F。;Ray,S.L。;Mittra,R.,《电磁学计算方法》(1998),IEEE出版社:IEEE出版社,纽约·Zbl 0896.65086号
[2] Bleszynski,E。;Bleszynski,M。;Jaroszewicz,T.,AIM:解决大规模电磁散射和辐射问题的自适应积分方法,《射电科学》,311225-1251(1996)
[3] 菲利普斯,J.R。;White,J.K.,《复杂三维结构静电分析的预校正傅里叶变换法》,IEEE《集成电路和系统计算机辅助设计汇刊》,第16期,第1059-1072页(1997年)
[4] Yilmaz,A.E。;建明,J。;Michielssen,E.,表面积分方程的时域自适应积分法,IEEE天线与传播学报,522692-2708(2004)·Zbl 1368.78198号
[5] Bagci,H。;Yilmaz,A。;洛马金,V。;Michielssen,E.,半空间环境混合势时域积分方程的快速求解,IEEE地球科学遥感汇刊,43,269-279(2005)
[6] J.Mahaffey,K.Sertel,J.Volakis,《图形处理器单元上快速迭代求解器的实现》,载于:2010年国家无线电科学会议,科罗拉多州博尔德,2010年。;J.Mahafey,K.Sertel,J.Volakis,《关于图形处理器上快速迭代求解器的实现》,载于:2010年美国国家无线电科学会议,科罗拉多州博尔德,2010年。
[7] 格林加德。;Rokhlin,V.,《粒子模拟的快速算法》,《计算物理杂志》,73325-348(1987)·Zbl 0629.65005号
[8] 格林加德。;黄,J。;Rokhlin,V。;Wandzura,S.,《在低频下加速亥姆霍兹方程的快速多极子方法》,IEEE计算科学与工程,5,32-38(1998)
[9] Rokhlin,V.,二维散射理论积分方程的快速求解,计算物理杂志,86414-439(1990)·兹伯利0686.65079
[10] Chew,W.C。;Jin,J.-M。;卢,C.-C。;Michielssen,E。;Song,J.M.,电磁学中的快速求解方法,IEEE天线和传播汇刊,45533-543(1997)
[11] Cheng,H。;格林加德。;Rokhlin,V.,三维快速自适应多极算法,计算物理杂志,155468-498(1999)·Zbl 0937.65126号
[12] Chew,W.C。;胡,B。;潘,Y.C。;赵J.S.,复杂结构的快速算法,微波会议,175-78(2001)
[13] Shanker,B。;Huang,H.,加速笛卡尔展开-一种快速计算所有实型势的方法,计算物理杂志,226732-753(2007)·Zbl 1139.78009号
[14] 维克兰,M。;Shanker,B.,使用加速笛卡尔展开(ACE)快速评估亚波长源/观测器分布中的时域场,计算物理杂志,2271007-1023(2007)·Zbl 1134.78019号
[15] 埃尔金,A.A。;Shanker,B。;Michielssen,E.,使用对角线平移算子快速评估三维瞬态波场,计算物理杂志,146157-180(1998)·Zbl 0916.65092号
[16] Jandhyala,V。;Michielssen,E。;Shanker,B。;Chew,W.C.,用于分析粗糙表面三维散射的组合最陡下降快速多极算法,IEEE地球科学与遥感汇刊,36738-748(1998)
[17] 布朗,G。;Schulthess,T.C。;阿帕尔科夫,D.M。;Visscher,P.B.,用于磁模拟的灵活快速多极子方法,IEEE磁学汇刊,40,2146-2148(2004)
[18] Cheng,H.W。;克拉奇菲尔德,W.Y。;Gimbutas,Z。;Greengard,L.F。;埃塞里奇,J.F。;黄J.F。;Rokhlin,V。;Yarvin,N。;Zhao,J.S.,三维亥姆霍兹方程的宽带快速多极子方法,计算物理杂志,216300-325(2006)·Zbl 1093.65117号
[19] 哈克布什,W。;Khoromskij,B.,基于H-矩阵的稀疏矩阵算法。第一部分:H矩阵简介,计算,62,89-108(1999)·Zbl 0927.65063号
[20] Hackbusch,W。;Khoromskij,B.N.,稀疏H矩阵算法。第二部分:多维问题的应用,计算,64,21-47(2000)·兹伯利0962.65029
[21] Hackbusch,W。;Khoromskij,B。;Sauter,S.,《关于H2-矩阵》(Bungartz,H.;Hoppe,R.;Zenger,C.,《应用数学讲座》(2000),施普林格:施普林格慕尼黑,德国),9-29·Zbl 0963.65043号
[22] W.Chai,D.Jiao,一种基于H矩阵的方法,用于降低基于积分方程的电磁问题解决方案的复杂性,收录于:IEEE天线与传播国际研讨会,2008年。;W.Chai,D.Jiao,一种基于H矩阵的方法,用于降低基于积分方程的电磁问题解决方案的复杂性,收录于:IEEE天线与传播国际研讨会,2008年。
[23] Chai,W。;Jiao,D.,一种基于H2-矩阵的积分方程求解器,用于解决电动力学问题,具有降低复杂性和控制精度,IEEE天线与传播学报,573147-3159(2009)·Zbl 1369.78879号
[24] 博格,A。;Michielssen,E。;Brandt,A.,用于快速场评估的非均匀极性网格算法,IEEE天线和无线传播快报,1142-145(2002)
[25] 博格,A。;洛马金,V。;Michielssen,E.,快速评估瞬态波场的非均匀网格时域(NGTD)算法,IEEE天线与传播学报,54,1943-1951(2006)·Zbl 1369.78740号
[26] 博格,A。;Livshitz,B.,用于快速电容提取的自适应非均匀网格(NG)算法,IEEE微波理论与技术汇刊,54,3565-3570(2006)
[27] B.利夫希茨。;博格,A。;Bertram,H.N。;Lomakin,V.,微磁学中快速静磁相互作用计算的非均匀网格算法,应用物理杂志,105(2009)
[28] 孟,J。;博格,A。;洛马金,V。;Michielssen,E.,多层笛卡尔非均匀网格时域算法,计算物理杂志,2298430-8444(2010)·兹比尔1202.78025
[29] 博格,A。;Shemer,美国。;Kastner,R.,基于非凸散射体快速非均匀网格积分的混合吸收边界条件,《微波与光学技术快报》,43,102-106(2004)
[30] S.Li,B.Livshitz,V.Lomakin,基于图形处理单元的多层非均匀网格快速场评估算法,收录于:天线与传播学会国际研讨会和USNC/URSI国家无线电科学会议,南卡罗来纳州查尔斯顿,2009年。;S.Li,B.Livshitz,V.Lomakin,用于快速场评估的基于图形处理单元的多级非均匀网格算法,在:天线和传播学会国际研讨会和USNC/URSI国家无线电科学会议,南卡罗来纳州查尔斯顿,2009年。
[31] 格林加德。;Gropp,W.D.,快速多极方法的并行版本,《计算机和数学及其应用》,第2063-71页(1990年)·Zbl 0715.65015号
[32] N.Liu,M.Lu,B.Shanker,E.Michielssen,《平行平面波时域算法加速推进大规模电磁散射问题的时间求解器》,收录于:IEEE天线与传播学会研讨会,2004年,文摘,第1-4卷,2004,第4212-4215页。;N.Liu,M.Lu,B.Shanker,E.Michielssen,《平行平面波时域算法加速推进大规模电磁散射问题的时间解算器》,收录于:IEEE天线与传播学会研讨会,2004年,文摘,第1-4卷,2004,第4212-4215页。
[33] Velaparambil,S。;Chew,W.C.,分布式存储器多层快速多极算法的分析和性能,IEEE天线和传播学报,532719-2727(2005)
[34] M.Vikram,A.Baczewzki,B.Shanker,S.Aluru,粒子动力学模拟的并行加速笛卡尔展开,载于:2009年IEEE并行与分布式处理国际研讨会(IPDPS),2009年,第11页。;M.Vikram、A.Baczewzki、B.Shanker、S.Aluru,粒子动力学模拟的并行加速笛卡尔展开,载于:2009 IEEE并行和分布式处理国际研讨会(IPDPS),2009年,第11页。
[35] 斯通,J.E。;菲利普斯,J.C。;Freddolino,P.L.(弗雷德里克多利诺,P.L.)。;哈代,D.J。;Trabuco,L.G。;Schulten,K.,《用图形处理器加速分子建模应用》,《计算化学杂志》,2007年12月28日,2618-2640页
[36] Belleman,R.G。;贝多夫,J。;Portegies Zwart,S.F.,《图形处理单元II上的高性能直接引力N体模拟:CUDA中的实现》,《新天文学》,第13期,第103-112页(2008年)
[37] Gumerov,N.A。;Duraiswami,R.,图形处理器上的快速多极方法,计算物理杂志,2278290-8313(2008)·Zbl 1147.65012号
[38] 李,S。;B.利夫希茨。;Lomakin,V.,图形处理单元加速微磁求解器,IEEE磁学汇刊,46,2373-2375(2010)
[39] NVIDIA,CUDA计算统一设备架构编程指南,V2.32009。;NVIDIA,CUDA Compute Unified Device Architecture Programming Guide,2009年第2.3版。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。