×

兹马思-数学第一资源

计算流体力学应用的生产力、性能和可移植性。(英语) Zbl 07163727
摘要:过去十年的硬件趋势表明,高性能计算架构的复杂性和异构性不断增加,这给CFD应用程序的开发人员带来了三个关键挑战:实现良好性能的需要,能够通过便携性利用当前和未来的硬件,并以富有成效的方式这样做。在使用传统编程方法时,这三种方法似乎相互矛盾,但近年来,一些策略(如模板库和特定领域语言)已成为一种潜在的解决方案;通过放弃通用性并专注于较窄的问题领域,这三种策略都可以实现。
本文概述了为CFD应用程序提供性能、可移植性和生产力的最新技术,从允许pde符号化描述的高级库到针对单个算法模式的低级技术。我们讨论了使用每种方法的优点和挑战,并回顾了性能基准文献,这些文献比较了硬件体系结构的实现及其编程方法,给出了关键应用程序及其比较性能的概述。
理学硕士:
76 流体力学
PDF格式 BibTeX公司 XML 引用
全文: 内政部
参考文献:
[1] Patterson,D.,《多核问题》,IEEE Spectr,47,7,28-32(2010)
[2] Asanović,K.;Bodik,R.;Catanzaro,B.C.;Gebis,J.J.;Husbands,P.;Keutzer,K.,《并行计算研究的前景:来自伯克利的观点,技术代表》(2006),加州大学伯克利分校EECS系
[3] Alimirzadeh,S.;Jahanbakhsh,E.;Maertens,A.;Leguizamón,S.;Avellan,F.,GPU加速三维有限体积粒子法,Comput Fluids,171,79-93(2018)·Zbl 1410.65337
[4] Diaz,M.A.;Solovchuk,M.A.;Sheu,T.W.,用于描述均质热粘性介质中非线性声波的高性能多GPU解算器,计算流体,173195-205(2018)·Zbl 1410.76283号
[5] Gorobets,A.;Soukov,S.;Bogdanov,P.,《在大多数混合型超级计算机上模拟可压缩湍流的多级并行化》,Comput Fluids,173171-177(2018年)·Zbl 1410.76229
[6] Ren,F.;Song,B.;Zhang,Y.;Hu,H.,基于晶格玻尔兹曼方法的湍流和标量输运的GPU加速解算器,《计算流体》,173,29-36(2018)·Zbl 1410.76047
[7] Liu,R.K.-S.;Wu,C.-T.;Kao,N.S.-C.;Sheu,T.W.-H.,一种改进的混合拉格朗日-欧拉法(IMLE)在多个GPU上用CUDA程序模拟不可压缩Navier-Stokes流,Comput Fluids,184,99-106(2019)·Zbl 1411.76103
[8] Lee,Y.-H.;Huang,L.-M.;Zou,Y.-S.;Huang,S-C.;Lin,C.-A.,GPU集群上用格子Boltzmann方法模拟湍流管道流动,Comput Fluids,168,14-20(2018)·兹布1390.76736
[9] Hashimoto,T.;Yasuda,T.;Tanno,I.;Tanaka,Y.;Morinishi,K.;Satofuka,N.,《使用运动简化局部navier-Stokes方程的非定常不可压缩流的多GPU并行计算》,Comput Fluids,167215-220(2018)·Zbl 1390.76571
[10] Kao,N.S.-C.;Sheu,T.W.-H.,《在多个GPU卡上求解三维不可压缩Navier-Stokes解的有限元流解算器的开发》,Comput Fluids,167285-291(2018年)·Zbl 1390.76327
[11] Singh,J.P.;Hennessy,J.L.,《自动并行化的有效性和局限性的实证研究》,共享内存多处理,203-207(1992)
[12] 黄M.,理查兹A.,罗瓦特苏M.,雷耶斯R。。Khronos的openclsycl支持C++的异构设备。2016
[13] Rul,S.;Vandierendonck,H.;D'Haene,J.;De Bosschere,K.,《OpenCL内核性能可移植性的实验研究》,2010年高性能计算应用加速器研讨会(SAAHPC'10)(2010年)
[14] Komatsu,K.;Sato,K.;Arai,Y.;Koyama,K.;Takizawa,H.;Kobayashi,H.《OpenCL程序的性能和可移植性评估》,第五届自动性能调整国际研讨会,66,1(2010)
[15] Pennycook,S.J.;Hammond,S.D.;Wright,S.A.;Herdman,J.;Miller,I.;Jarvis,S.A.,《OpenCL性能可移植性调查》,J Parallel Distrib Comput,73,11,1439-1450(2013)
[16] 其官方消息:极光有望在2021年成为美国第一台Exascale电脑。2019https://www.hpcwire.com/2019/03/18/its-officer-aurora-on-track-to-be-first-u-s-exascale-computer-in-2021/。
[17] He,Q.;Chen,H.;Feng,J.,使用图形处理单元加速基于OpenFOAM的MHD解算器,Fusion Eng Design,10188-93(2015)
[18] Malecha,Z.;Mirosław,Ł;Tomczak,T.;Koza,Z.;Matyka,M.;Tarnawski,W.,基于GPU的使用OpenFOAM模拟腹主动脉三维血流,Arch Mech,63,2,137-161(2011)·Zbl 1301.76086号
[19] Heroux,M.A.;Bartlett,R.A.;Howle,V.E.;Hoekstra,R.J.;Hu,J.J.;Kolda,T.G.,《Trilinos项目概述》,ACM Trans Math Softw(TOMS),31,3,397-423(2005)·Zbl 1136.65354号
[20] Hoemmen,M.F.,Trilinos'线性代数和解算器中当前线程并行化工作的总结,技术代表(2017年),Sandia国家实验室(SNL-NM),阿尔伯克基,NM(美国)
[21] Balay S.,Abhyankar S.,Adams M.F.,Brown J.,Brune P.,Buschelman K.等,PETSc网页。2019http://www.mcs.anl.gov/petsc;http://www.mcs.anl.gov/petsc。
[22] Anderson,E.;Bai,Z.;Bischof,C.;Blackford,S.;Demmel,J.;Dongarra,J.,《LAPACK用户指南》(1999年),《工业与应用数学学会:费城工业与应用数学学会》·Zbl 0934.65030
[23] Blackford,L.S.;Choi,J.;Cleary,A.;D'Azevedo,E.;Demmel,J.;Dhillon,I.,ScaLAPACK用户指南(1997年),工业和应用数学学会:宾夕法尼亚州费城工业和应用数学学会·Zbl 0886.65022
[24] Buttari,A.;Langou,J.;Kurzak,J.;Dongarra,J.,《用于多核体系结构的并行分片线性代数算法》,parallel Comput,35,1,38-53(2009)
[25] Tomov,S.;Dongarra,J.;Baboulin,M.,《混合GPU加速多核系统的稠密线性代数》,并行计算,36,5-6,232-240(2010)·Zbl 1204.68268号
[26] Sanderson,C.;Curtin,R.,《犰狳:基于模板的线性代数C++库》,开源软件杂志,1,2,26(2016)
[27] Guennebaud G.,Jacob B.,et al.,Eigen v3。2010http://eigen.tuxfamily.org。
[28] 戴维斯·T.,海格·W.,达夫一世。。西装帕斯。2014http://faculty.cse.tamu.edu/davis/suitesparse.html。
[29] Falgout,R.D.;Jones,J.E.;Yang,U.M.,hypre的设计与实现,并行高性能预处理程序库,并行计算机上偏微分方程数值解,267-294(2006),Springer·Zbl 1097.65059
[30] Notay,Y.,一种基于聚合的代数多重网格方法,电子传输数字分析,37,6,123-146(2010)·Zbl 1206.65133
[31] Naumov,M.;Arsaev,M.;Castonguay,P.;Cohen,J.;Demouth,J.;Eaton,J.,AmgX:GPU加速代数多重网格和预处理迭代方法库,SIAM J Sci Comput,37,5,S602-S626(2015)·Zbl 1325.65065
[32] Gupta,A.,WSMP:Watson稀疏矩阵包(第一部分:对称稀疏系统的直接解决方案),技术代表RC 21886(2000),IBM TJ Watson研究中心,约克敦高地,纽约
[33] SUPERAN,SUPERAN,SUPERAN,SUPERAN,SUPER,SUPER,SUPER,SUPER SUPER INTERFACES,SUPERAN SUPER INTERFACES,SUPER SUPER SUPER interface,SUPERAN SUPER INTERFACES,SUPERAN SUPER user interface·Zbl 1136.65312
[34] Hénon,P.;Ramet,P.;Roman,J.,PaStiX:稀疏对称定系统的高性能并行直接求解器,并行计算,28,2301-321(2002)·Zbl 0984.68208
[35] Amestoy,P.R.;Duff,I.S.;L'Excellent,J.-Y.;Koster,J.,《流行性腮腺炎:通用分布式内存稀疏解算器》,应用并行计算国际研讨会,121-130(2000),Springer
[36] Raghavan,P.,DSCPACK:解稀疏线性系统的域分隔码,技术代表(2002),技术代表CSE-02-004。计算机科学与工程系。。。
[37] Sao,P.;Vuduc,R.;Li,X.S.,分布式CPU-GPU稀疏直接求解器,(Silva,F.;Dutra,I.;Santos-Costa,V.,Euro par 2014并行处理(2014),Springer International Publishing:Springer International Publishing Cham),487-498
[38] https://hal.inria.fr/hal-00700066。
[39] Plauger,P.;Lee,M.;Musser,D.;Stepanov,A.A.,C++标准模板库(2000年),Prentice Hall PTR:Prentice Hall PTR Upper Saddle River,NJ,USA
[40] Schling,B.,boost C++库(2011),XML出版社
[41] Kaiser H.,Lelbach B.A.,Heller T.,BergéA.,Simberg M.,Biddiscombe J.等,STEllAR GROUP/hpx:hpx V1.2.1:C++并行和并发标准库。2019https://doi.org/10.5281/zenodo.2573213。
[42] 领域特定语言和高性能计算的高级框架。doi:10.1016/j.jpdc.2014.07.003。
[43] Hornung,R.;Jones,H.;Keasler,J.;Neely,R.;Pearce,O.;Hammond,S.,ASC Tri lab Co design Level 2 Milestone Report 2015,技术代表(2015),劳伦斯利弗莫尔国家实验室(LLNL),加利福尼亚州利弗莫尔(Livermore,CA)(美国)
[44] 霍伯洛克J.,贝尔N。。并行库:一个并行的库。2010http://code.google.com/p/stress/。
[45] Enmyren,J.;Kessler,C.W.,SkePU:多GPU系统的多后端骨架编程库,第四届高级并行编程与应用国际研讨会论文集,HLPP'10,5-14(2010),ACM:美国纽约ACM
[46] doi:10.1002/9781119332015.ch13。
[47] Ernsting,S.;Kuchen,H.,《多核、多GPU系统和集群的算法框架》,Int J High-Perform Comput Netw,7,2,129-138(2012年)
[48] Steuwer,M.;Kegel,P.;Gorlatch,S.,SkelCL-用于高级GPU编程的便携式骨架库,2011 IEEE并行和分布式处理研讨会国际研讨会和博士论坛,1176-1182(2011)
[49] Chakravarty,M.M.T.;Keller,G.;Lee,S.;McDonell,T.L.;Grover,V.《用多核GPU加速Haskell数组代码》,DAMP'11:第六届多核编程声明性方面研讨会(2011),ACM
[50] Keller,G.;Chakravarty,M.M.;Leshchinskiy,R.;Peyton Jones,S.;Lippmeier,B.,《haskell中的规则形状多态性平行阵列》,SIGPLAN Not,45,9,261-272(2010)·Zbl 1323.68127号
[51] 鲁伊斯A。。hmatrix简介。2012
[52] DeVito,Z.;Joubert,N.;Palacios,F.;Oakley,S.;Medina,M.;Barrientos,M.,Liszt:用于构建基于便携式网格的PDE解算器的特定领域语言,2011年高性能计算、网络、存储和分析国际会议论文集,9(2011),ACM
[53] Bernstein,G.L.;Shah,C.;Lemire,C.;Devito,Z.;Fisher,M.;Levis,P.,Ebb:CPU和GPU上物理模拟的DSL,ACM Trans Graph,35,2(2016),21:1-21:12
[54] Earl,C.;May,M.;Bagusetty,A.;Sutherland,J.C.,Nebo:一种用于数值求解偏微分方程的高效、并行和可移植的领域专用语言,J Syst Softw,125389-400(2017)
[55] Ragan Kelley,J.;Barnes,C.;Adams,A.;Paris,S.;Durand,F.;Amarasinghe,S.,Halide:用于优化图像处理管道中并行性、局部性和重新计算的语言和编译器,第34届ACM SIGPLAN编程语言设计与实现会议论文集,PLDI'13519-530(2013),ACM:ACM纽约,NY,美国
[56] Mostafazadeh,B.;Marti,F.;Liu,F.;Chandramowlishwaran,A.,《用于多核性能的多模板CFD求解器的屋顶线导向设计和分析》,2018 IEEE国际并行和分布式处理研讨会(IPDPS),753-762(2018)
[57] Yount,C.;Tobin,J.;Breuer,A.;Duran,A.,Yaskyet another stencil kernel:A framework for HPC stencil code generation and tuning,2016第六届高性能计算领域特定语言和高级框架国际研讨会(WOLFHPC),30-39(2016)
[58] http://dl.acm.org/citation.cfm?身份证号=2867549.2868136。
[59] e4062 e4062 cpe.4062 doi:10.1002/cpe.4062。
[60] Zhao,T.;Williams,S.;Hall,M.;Johansen,H.,《使用砖块在CPU和GPU上进行性能便携式模板计算》,2018年IEEE/ACM HPC(P3HPC)性能、可移植性和生产力国际研讨会,59-70(2018年)
[61] Mudalige,G.R.;Giles,M.B.;Reguly,I.;Bertolli,C.;Kelly,P.H.J.,OP2:一个用于解决基于多核和多核架构的非结构化网格应用的主动库框架》,2012创新并行计算(InPar),1-12(2012)
[62] Rathgeber,F.;Markall,G.R.;Mitchell,L.;Loriant,N.;Ham,D.A.;Bertolli,C.,PyOP2:非结构化网格上性能便携模拟的高级框架,2012 SC companion:高性能计算、网络存储和分析,1116-1123(2012),IEEE
[63] Intrandona,P.;Leo,A.;Zaluzhnyi,Y.;Ramaswamy,R.;Sbalzarini,I.F.,OpenFPM:并行计算机上粒子和粒子网格代码的可扩展开放框架》,Comput Phys Common,241,155-177(2019年)
[64] http://superfri.org/superfri/article/view/17。
〔65〕 PSyclone项目。2018http://psyclone.readthedocs.io/。
[66] Baldauf,M.;Seifert,A.;Förstner,J.;Majewski,D.;Raschendorfer,M.;Reinhardt,T.,《使用宇宙模式的对流尺度数值天气预报:描述和敏感性》,Mon weather Rev,139,12,3887-3905(2011)
[67] Clement,V.;Ferrachat,S.;Fuhrer,O.;Lapillonne,X.;Osuna,C.E.;Pincus,R.,《爪形DSL:性能便携式天气和气候模型的摘要》,《高级科学计算平台会议论文集》,PASC'18(2018),ACM:ACM美国纽约,2:1-2:10
[68] Clément,V.;Marti,P.;Fuhrer,O.;Sawyer,W.《GPU和CPU性能可移植性与图标全球气候模型》,EGU大会会议摘要。EGU大会摘要,EGU大会会议摘要,2013435(2018)
〔69〕 Alnæs,M.s.;Blechta,J.;Hake,J.;Johansson,A.;Kehlet,B.;Logg,A.《FEniCS项目1.5版》,Arch Numer Softw,3100(2015年)
[70] Rathgeber,F.;Ham,D.A.;Mitchell,L.;Lange,M.;Luporini,F.;Mcrae,A.T.T.,Firedrake:通过编写摘要自动化有限元方法,ACM Trans Math Softw,43,3(2016),24:1-24:27·Zbl 1396.65144
[71] Lengauer,C.;Apel,S.;Bolten,M.;Grö223; linger,A.;Hannig,F.;Köstler,H.,ExaStencils:advanced stencil code engineering,(Lopes,L.;Žilinskas,J.;Costan,A.;Cascella,R.G.;Kecskemeti,G.;Jeannot,E.;等人,《欧洲par 2014:并行处理研讨会(2014年)》,Springer International Publishing:Springer International Publishing Cham),553-564年
[72] Maciáa,S.;Mateo,S.;Martínez-Ferrer,P.J.;Beltran,V.;Mira,D.;Ayguadé,E.,Saiph:面向高性能计算流体动力学的DSL,2018年真实世界领域特定语言研讨会论文集,RWDSL2018(2018),ACM:ACM纽约,美国纽约,6:1-6:10
[73] Rink,N.A.;Huismann,I.;Susungi,A.;Castrillon,J.;Stiller,J.;Fröhlich,J.,Cfdlang:流体动力学中高阶方法的高级代码生成,2018年真实世界领域特定语言研讨会论文集,RWDSL2018(2018),ACM:ACM纽约,美国纽约,5:1-5:10
[74] Bastian,P.;Blatt,M.;Dedner,A.;Engwer,C.;Klöfkorn,R.;Ohlberger,M.,用于并行和自适应科学计算的通用网格接口。第一部分:抽象框架,计算,822103-119(2008)·Zbl 1151.65089
[75] Lusher,D.J.;Jammy,S.P.;Sandham,N.D.,《自动源代码生成框架中的冲击波/边界层相互作用》,OpenSBLI,Comput Fluids,173,17-21(2018)·Zbl 1410.76299
[76] Lange,M.;Kukreja,N.;Louboutin,M.;Luporini,F.;Vieira,F.;Pandolfo,V.《Devito:使用符号python实现通用有限差分DSL》,2016年第6期python高性能和科学计算研讨会(PyHPC),67-75(2016年)
[77] Williams,S.;Waterman,A.;Patterson,D.,《Roofline:浮点程序和多核体系结构的有洞察力的视觉性能模型》,技术代表(2009年),劳伦斯伯克利国家实验室(LBNL),加利福尼亚州伯克利市(美国)
[78] Pennycook,S.J.;Sewall,J.D.;Lee,V.W.,《性能可移植性指标的影响》,Future Gener Comput System,92947-958(2017年)
[79] Harrell,S.L.;Kitson,J.;Bird,R.;Pennycook,S.J.;Sewall,J.;Jacobsen,D.《高效性能可移植性》,2018 IEEE/ACM高性能、可移植性和生产力国际研讨会(P3HPC),24-36(2018)
[80] 英特尔。代码库调查员。https://github.com/intel/code-base-investigator。
[81] McIntosh Smith,S.,《跨不同计算机体系结构的性能可移植性》,P3MA:4届多核或加速器性能便携编程模型国际研讨会(2019年)
[82] Reguly,I.Z.;Mudalige,G.R.;Giles,M.B.,《运行时大规模模板代码中的循环平铺》,IEEE Trans Parallel Distrib System,29,4,873-886(2018年)
[83] Siklosi,B.;Reguly,I.Z.;Mudalige,G.R.,《模板应用程序的异构CPU-GPU执行》,2018 IEEE/ACM HPC(P3HPC)性能、可移植性和生产力国际研讨会,71-80(2018)
[84] Law,T.R.;Kevis,R.;Powell,S.;Dickson,J.;Maheswaran,S.;Herdman,J.A.;Jarvis,S.A.,《非结构流体力学微型应用程序的性能可移植性》,2018 IEEE/ACM HPC性能、便携性和生产力国际研讨会,0-12(2018)
[85] Kirk,R.O.;Mudalige,G.R.;Reguly,I.Z.;Wright,S.A.;Martineau,M.J.;Jarvis,S.A.,《在现代多核系统上实现热传导求解器微型应用的性能可移植性》,2017 IEEE集群计算国际会议(集群),834-841(2017)
[86] 2017年,可移植性会议;DHBEER性能
[87] Ferenbaugh,C.R.,PENNANT mini应用程序中的粗线程与细线程,2016年DOE COE性能可移植性会议(2016年)
[88] Brunini,V.;Clausen,J.;Hoemmen,M.;Kucala,A.;Phillips,M.;Trott,C.《性能便携式SIERRA/aria的进展》,2019年美国能源部绩效、便携性和生产力年会(2019年)
[89] Stan Moore,A.S.,使用Kokkos在斯巴达获得线程性能可移植性,2019年DOE性能、可移植性和生产力年会(2019年)
[90] Watkins,J.;Tezaur,I.;Demeshko,I.,《奥尔巴尼陆地冰求解器有限元装配过程性能可移植性研究》,美国能源部2019年性能、可移植性和生产力年会(2019年)
[91] Howard,M.,《SPARC sandias高超音速CFD代码下一代平台的性能可移植性》,2017年DOE COE性能可移植性会议(2017年)
[92] Howard,M.;Fisher,T.C.;Hoemmen,M.F.;Dinzl,D.J.;Overfelt,J.R.;Bradley,A.M.,《在下一代高性能计算平台上对CFD在大尺度上的多层次并行性》,第十届计算流体力学国际会议(ICCFD10)(2018年)
[93] Holmen,J.K.;Humphrey,A.;Sanderland,D.;Berzins,M.,《通过使用基于Kokkos的便携式数据并行任务提高uintah的可扩展性》,《高级研究计算实践与经验》2017年第27期(2017年),ACM
[94] Padioloau,T.;Tremblin,P.;Audit,E.;Kestener,P.;Kokh,S.,一个具有良好平衡重力的高性能和便携式全马赫流求解器代码。可压缩对流的应用,天体物理学杂志,875,22128(2019)
[95] Prez,F.E.H.;Mukhadiyev,N.;Xu,X.;Sow,A.;Lee,B.J.;Sankaran,R.,《使用许多堆芯/GPU加速对化学反应流进行直接数值模拟》,Comput Fluids,173,73-79(2018年)·Zbl 1410.76466
[96] David Beckingsale Johann Dahm,P.W.,将SAMRAI移植到sierra,2019年DOE性能、便携性和生产力年会(2019年)
[97] Pearce,O.,探索多物理模拟中异构体系结构的利用选项,并行计算,87,35-45(2019)
[98] Mudalige,G.;Reguly,I.;Jammy,S.;Jacobs,C.;Giles,M.;Sandham,N.,《基于DSL的多块结构网格应用的大规模性能直接数值模拟》,J Parallel Distrib Comput,131130-146(2019年)
[99] Reguly,I.Z.;Giles,D.;Gopinathan,D.;Quivy,L.;Beck,J.H.;Giles,M.B.,《VOLNA-OP2海啸代码》(1.5版),Geosci Model Dev,11,11,4621-4635(2018年)
[100] Reguly,I.Z.;Mudalige,G.R.;Bertolli,C.;Giles,M.B.;Betts,A.;Kelly,P.H.J.,《用OP2加速全面工业CFD应用》,IEEE Trans Parallel Distrib System,27,5,1265-1278(2016年)
[101] Mudalige,G.R.;Reguly,I.Z.;Giles,M.B.,《大规模生产非结构网格CFD应用的自动矢量化》,第三届SIMD/矢量处理编程模型研讨会论文集,WPMVP'16(2016),ACM:ACM,纽约,美国,5:1-5:8
[102] Truby,D.;Wright,S.;Kevis,R.;Maheswaran,S.;Herdman,A.;Jarvis,S.,BookLeaf:非结构化流体力学小型应用程序,2018 IEEE集群计算国际会议(集群),615-622(2018)
[103] TeaLeaf:英国小型应用程序联盟。2015https://github.com/UK-MAC/TeaLeaf。
[104] Daley,C.,通过微观基准评估OpenMP在GPU上的性能,2019年DOE性能、可移植性和生产力年会(2019年)
[105] OP-DSL:牛津并行领域专用语言。2015https://op-dsl.github.io。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。