×

基于GPGPU规则结构的细粒度块ILU方案。 (英语) Zbl 1390.65139号

摘要:基于块不完全LU(BILU)分解的迭代方法被认为是求解由带有(n)方程的耦合PDE系统产生的大规模块解析线性系统的高效方法。然而,将隐式PDE解算器移植到大规模并行共享内存异构体系结构(如通用图形处理单元(GPGPU))的工作在很大程度上避免了BILU,在许多应用中,隐式方案和BILU型预条件器/解算器的使用受到高度青睐,因此它们的巨大性能潜力无法实现。事实上,块矩阵运算所需的强大的固有数据依赖性和高内存带宽使得对现有顺序BILU算法的天真采用在GPGPU上效率极低。在本研究中,我们提出了一种对GPGPU特别有效的细粒度BILU(FGBILU)方案。采用简单的单扫描波前排序来解决数据相关性。由于块矩阵操作是以真正的元素方式执行的,因此粒度得到了极大的改进。特别是,对角块的反演是一个众所周知的瓶颈,它是通过并行的同位高斯-乔丹消元来实现的。因此,FGBILU能够在线性范围为\(n)的3D PDE域上以\(O(n^2 n^2)\)规模提供低开销的并发计算。FGBILU已经用OpenACC和CUDA实现,并在结构化3D网格上作为块解析线性解算器进行了测试。虽然FGBILUs在数学上与顺序全局BILU相同,但数值实验证实了其在Nvidia GPGPU上的卓越性能。

MSC公司:

65N22型 偏微分方程边值问题离散方程的数值解
65F08个 迭代方法的前置条件
2005年5月 并行数值计算
65日元10 特定类别体系结构的数值算法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Chan,T.F。;van der Vorst,H.A.,近似和不完全因式分解,(Keyes,D.;Sameh,A.;Venkatakrishnan,V.,并行数值算法,ICASE/LaRC Interdiscipl Ser Sci Eng,第4卷,(1997),施普林格荷兰),167-202·Zbl 0865.65015号
[2] Hysom博士。;Pothen,A.,不完全因子预处理的可扩展并行算法,SIAM科学计算杂志,22,6,2194-2215,(2001)·Zbl 0986.65048号
[3] Hénon,P。;Saad,Y.,一种基于层次图分解的并行多级ILU分解,SIAM J Sci-Comput,28,62226-2293,(2006)·Zbl 1126.65028号
[4] 蒙加制造,M.M。;van der Vorst,H.A.,带伪重叠子域的并行不完全因式分解,并行计算,27,8,989-1008,(2001)·Zbl 0971.68060号
[5] Thies J,Wubs F.CFD问题并行混合直接/迭代求解器的设计。In:IEEE第七届电子科学国际会议;2011年,第387-94页。
[6] 尤夫林,V。;卢卡斯基,D。;北卡罗来纳州特罗斯特。;Weiss,J.-P.,《使用多核CPU和gpu在局部细化网格上实现基于矩阵的几何多重网格方法的并行平滑器》,(Keller,R.;Kramer,D.;Weiss,J.-P,《面对多核挑战II》,Lect Notes Compute Sci,第7174卷,(2012),Springer Berlin,Heidelberg),158-171
[7] 萨阿德,Y。;van der Vorst,H.A.,《20世纪线性系统的迭代解》,《计算应用数学杂志》,123,1-33,(2000),数值分析2000。第三卷:线性代数·Zbl 0965.65051号
[8] 达夫,I。;Meurant,G.A.,排序对预处理共轭梯度的影响,BIT数值数学,29,4,635-657,(1989)·Zbl 0687.65037号
[9] 多伊,S。;Washio,T.,在不完全因式分解中克服并行性和收敛性之间权衡的排序策略和相关技术,并行计算,251995-2014,(1999)
[10] 乔治斯库,S。;周,P。;Okuda,H.,基于FEM的结构分析的GPU加速度,Arch Comput Meth Eng,20,2,111-121,(2013)·Zbl 1354.65246号
[11] Xia Y,Luo H,Luo L,Edwards J,Lou J,Mueller F.基于OpenACC的三维非结构间断galerkin方法的GPU加速。参加:第52届AIAA航空航天科学会议;2014
[12] Jacobsen DA,Thibault JC,Senocak I.多GPU集群上大规模并行不可压缩流计算的MPI-CUDA实现。在:第48届美国航空航天协会航空航天科学会议和展览,第16卷;2010
[13] Brandvik T,Pullan G.使用商品图形硬件加速3D Euler解算器。参加:第46届美国航空航天协会航空科学会议和展览;2008年,第607页。
[14] 科里根,A。;卡梅利,F。;Löhner,R。;Mut,F.,《大规模Fortran CFD代码到gpu的半自动移植》,《国际数值计算流体杂志》,69,2,314-331,(2012)·Zbl 1245.76003号
[15] Duffy AC、Hammond DP、Nielsen EJ。混合多核架构的生产级CFD代码加速,技术代表,NASA/TM-2012-217770;2012
[16] Fu,L。;高,Z。;Xu,K。;Xu,F.,基于GPU并行方法的多块粘性流求解器,计算流体,95,19-39,(2014)·兹比尔1391.76218
[17] Luo L、Edwards JR、Luo H、Mueller F.基于OpenACC和MVAPICH2的并行不可压缩Navier-Stokestokes解算器的GPU端口。参加:美国航空与航天协会航空与航天论坛和博览会;2014
[18] van der Vorst,H.,高性能预处理,SIAM科学统计计算杂志,10,6,1174-1185,(1989)·Zbl 0693.65027号
[19] OpenACC应用程序编程接口;2013
[20] CAPS企业。OpenHMPP开放标准;2009
[21] Beyer,J。;斯托泽,E。;哈特,A。;de Supinski,B.,加速器Openmp,(Chapman,B.;Gropp,W.;Kumaran,K.;M uller,M.,《Petascale时代的Openmp》,Lect Notes Compute Sci,第6665卷,(2011),斯普林格-柏林,海德堡),108-121
[22] Meijerink,J。;van der Vorst,H.A.,系数矩阵为对称m矩阵的线性系统的迭代解法,数学计算,31,137,148-162,(1977)·Zbl 0349.65020号
[23] O.阿克塞尔森。;Brinkkempe,S。;Iln,V.,关于不完全块矩阵分解迭代方法的一些版本,线性代数应用,58,3-15,(1984)·Zbl 0548.65016号
[24] Wittum,G.,关于ILU平滑的鲁棒性,SIAM J Sci Statist Comput,10,4699-717,(1989)·Zbl 0677.65096号
[25] Meurant,G.,向量计算机上的块预处理共轭梯度法,BIT数值数学,24,4,623-633,(1984)·Zbl 0556.65023号
[26] Concus,P。;Golub,G.等人。;Meurant,G.,共轭梯度法的块预处理,SIAM科学统计计算杂志,6,1,220-252,(1985)·Zbl 0556.65022号
[27] Edwards,J.R。;Liou,M.-S.,《全速流动的低扩散通量分裂方法》,AIAA J,36,9,1610-1617,(1998)
[28] Choi,J.-I。;奥伯罗伊,R.C。;Edwards,J.R。;Rosati,J.A.,《复杂不可压缩流动的浸没边界法》,《计算物理杂志》,224,2,757-784,(2007)·Zbl 1123.76351号
[29] Chorin,A.J.,Navier-Stokes方程的数值解,数学计算,22,104,745-762,(1968)·Zbl 0198.50103号
[30] 拉梅什,K。;Gopalarathnam,A。;Edwards,J.R。;Ol,M.V。;Granlund,K.,《应用于俯仰运动的非定常翼型理论》,理论计算流体动力学,27,6,843-864,(2013)
[31] McGowan,G.Z。;格兰伦德,K。;Ol,M.V。;Gopalarathnam,A。;Edwards,J.R.,《低雷诺数下翼型基于升力的俯仰-冲刺当量研究》,美国航空航天协会J,49,7,1511-1524,(2011)
[32] 卡西迪,D.A。;Edwards,J.R。;Tian,M.,《多相混合流界面锐化方案的研究》,《计算物理杂志》,228,16,5628-5649,(2009)·Zbl 1280.76033号
[33] Choi,J.-I。;Edwards,J.R.,《人为污染物迁移的大涡模拟和分区建模》,《室内空气》,18,3,233-249,(2008)
[34] Choi,J.-I。;Edwards,J.R.,《室内室内人为污染物传输的大涡模拟》,《室内空气》,22,1,77-87,(2012)
[35] Narsipur,S。;Gopalarathnam,A。;Edwards,J.R.,《预测非定常流动中后缘分离的时滞方法》(AIAA航空和航空论坛与博览会,(2014),AIAA)
[36] Forsythe,G.E。;Moler,C.B.,线性代数系统的计算机解,(1967),新泽西州普伦蒂斯·霍尔·恩格伍德克利夫斯,第7卷·Zbl 0154.40401号
[37] 肖,S。;Feng,W.,通过快速屏障同步的块间GPU通信,(2010年IEEE并行与分布式处理国际研讨会(IPDPS),(2010年),IEEE),1-12
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。