×

PittPack公司:使用加速器进行极值计算的开源泊松方程解算器。 (英语) Zbl 07687573号

摘要:我们提出了一种在带有加速器的极值超级计算机上并行实现泊松方程直接求解器的方法。我们引入了分块铅笔分解作为域分解策略,在处理元素之间分配工作,以在大量加速器上实现改进的可伸缩性。分块铅笔分解可实现重叠磁粉探伤中央处理器(CPU)和图形处理单元(GPU)之间的通信和数据传输。它支持节点之间的连续消息传输,并通过将相邻元素保留在相邻内存位置来改进数据局部性,同时允许在可能的情况下对算法的某些部分使用共享内存。我们研究了分块铅笔分解中的两种不同通信模式。第一种模式将通信与数据传输完全重叠,旨在加快整体周转时间。第二种模式专注于低内存使用率,并且比第一种模式更适合在极端规模下进行计算。在并行实现中,我们交错OpenACC(开放ACC)具有磁粉探伤支持GPU或CPU上的计算。使用各种边界条件组合的制造解方法验证了数值解及其形式二阶精度。此外,我们使用PittPack公司在不可压缩流求解器中进一步验证其准确性,并演示其作为软件包的多功能性。我们在PB级领导级超级计算机上对分布在16384个GPU上的多达1.1万亿笛卡尔网格点进行了弱标度分析。

理学硕士:

65-XX岁 数值分析
76倍 流体力学
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 乔治·卡尼亚达基斯(George Karniadakis);Sherwin,Spencer,《计算流体动力学的谱/Hp元素方法》(2013),牛津大学出版社·Zbl 1256.76003号
[2] Shewchuk,Jonathan R.,《没有痛苦的共轭梯度法导论》(1994),卡内基梅隆大学:美国卡内基梅隆大学
[3] 萨阿德、优素福;Schultz、Martin H.、SIAM J.科学。统计计算。,856-869年7月3日(1986年)·Zbl 0599.65018号
[4] Saad,Yousef,稀疏线性系统的迭代方法,第82卷(2003),SIAM·Zbl 1031.65046号
[5] 伊丽莎白·卡希尔;James McKee,(1969年第24届全国会议(1969),ACM),157-172
[6] 沃纳,德克,功能分析(2006),施普林格·Zbl 1108.46001号
[7] 曼弗雷德·艾西德勒;Ward,Thomas,《函数分析、谱理论与应用》,第276卷(2017年),施普林格出版社·Zbl 1387.46001号
[8] 詹姆斯·库利(James W.Cooley)。;Tukey,John W.,数学。公司。,19, 90, 297-301 (1965) ·Zbl 0127.09002号
[9] 霍克尼,Roger W.,J.美国计算机学会,12,1,95-113(1965)·Zbl 0139.10902号
[10] Swarztrauber,Paul N.,SIAM J.Numer。分析。,11, 6, 1136-1150 (1974) ·Zbl 0292.65054号
[11] Robert B.Wilhelmson。;埃里克森、詹姆斯·H·J·计算机。物理。,25, 4, 319-331 (1977) ·Zbl 0373.65052号
[12] Paul N.Swarztrauber,SIAM Rev.,第19、3、490-501页(1977年)·Zbl 0358.65088号
[13] Buzbee,Billy L.,IEEE翻译。计算。,100, 8, 793-796 (1973) ·Zbl 0262.65025号
[14] Frigo,Matteo;Steven G.Johnson,程序。IEEE,93,2,216-231a(2005),程序生成、优化和平台适配专刊
[15] 詹姆斯·库利(James W.Cooley)。;刘易斯(Peter A.W.Lewis)。;彼得·D·韦尔奇(Peter D.Welch),IEEE Trans。教育。,12, 1, 27-34 (1969)
[16] 詹姆斯·库利(James W.Cooley)。;刘易斯,P.A.W。;P.D.韦尔奇,J.Sound Vib。,12, 3, 315-337 (1970) ·兹比尔0195.46301
[17] Pekurovsky,Dmitry,SIAM科学杂志。计算。,34、4、C192-C209(2012)·Zbl 1253.65205号
[18] 李宁;Laizet,Sylvain(Cray用户组2010年会议(2010)),1-13
[19] 朱晓觉;菲利普斯,埃弗雷特;Vamsi Spandan;约翰·唐纳斯(John Donners);格雷戈里·鲁特施(Gregory Ruetsch);约书亚·罗梅罗(Joshua Romero);奥斯蒂拉·莫尼科(Ostilla-Mónico),鲁道夫(Rodolfo);杨彦涛;Lohse,Detlef公司;Verzicco,Roberto,计算机。物理学。Comm.,229,199-210(2018)
[20] Michael Pippig,SIAM J.科学。计算。,35、3、C213-C236(2013)·Zbl 1275.65098号
[21] 阿米尔·戈拉米;朱迪思·希尔;Dhairya Malhotra;Biros,George,AccFFT:CPU和GPU架构上的分布式内存FFT库(2015),arXiv预打印arXiv:1506.07933
[22] 袖珍图书馆(2010),[2014-2-13]。http://docs(http://docs),网址:nvidia.com/cuda/cuft
[23] CUDA工具包。4.0库布拉斯图书馆,第2701卷,59-60(2011),NVIDIA公司
[24] Frigo,Matteo;Steven G.Johnson,程序。IEEE,93,2,216-231b(2005)
[25] 拉杰夫·塔库尔;罗尔夫·拉本塞夫纳(Rolf Rabenseifner);William Gropp,Int.J.高性能计算。,19, 1, 49-66 (2005)
[26] 乌尔里希·舒曼;Sweet,Roland A.,J.计算机。物理。,75, 1, 123-137 (1988) ·Zbl 0642.65070号
[27] 哈斯贝斯坦,贾比尔·J。;Senocak,Inanc,(流体工程,第7卷(2018),美国机械工程师协会)
[28] Stephen A.Martucci,IEEE翻译。信号处理。,42, 5, 1038-1051 (1994)
[29] John Makhoul,IEEE翻译。阿库斯特。语音信号处理。,28, 1, 27-34 (1980) ·Zbl 0522.65092号
[30] Mike Giles;兰斯洛,恩德雷;伊斯特万·雷古利;杰里米·阿普利亚德;Julien Demouth,(第七届高性能计算金融研讨会论文集(2014),IEEE出版社),1-8
[31] 兰斯洛,恩德雷;迈克尔·贾尔斯(Michael B.Giles)。;杰瑞米·阿普里亚德;Szolgay,Péter(2014年第14届细胞纳米网络及其应用国际研讨会(CNNA)(2014年),IEEE),1-2
[32] 张立文;Wen-mei,W.Hwu,(GPU数值计算(2014),Springer),第29-44页·Zbl 1317.65076号
[33] 阿尔布雷赫特·伯特彻;Grudsky,Sergei M.,Toeplitz矩阵,渐近线性代数和泛函分析,第67卷(2000年),Springer·Zbl 0969.47022号
[34] 杰克·谢尔曼;莫里森、维尼弗雷德·J·安、数学。Stat.,21,1,124-127(1950)·Zbl 0037.00901号
[35] Sweet,Roland A.,SIAM J.Numer。分析。,11, 3, 506-520 (1974) ·Zbl 0253.65061号
[36] Bondeli,Stefan,并行计算。,17, 4-5, 419-434 (1991) ·Zbl 0739.65016号
[37] 张,姚;乔纳森·科恩(Jonathan Cohen);Owens、John D.、ACM Sigplan Not.、。,45, 5, 127-136 (2010)
[38] Naumov,M。;Chien,L.S。;Vandermersch,P。;Kapasi,U.(GPU技术会议(2010))
[39] Foster,Ian,《设计和构建并行程序:并行软件工程的概念和工具》(1995),Addison Wesley Longman出版公司·Zbl 0844.68040号
[40] 巴文·巴拉吉;大流士邦蒂纳斯;David Goodell;威廉·格罗普(William Gropp);萨米尔·库马尔(Sameer Kumar);卢斯克,尤因;拉杰夫·塔库尔;Träff,Jesper Larsson,(欧洲并行虚拟机/消息传递接口用户小组会议(2009),Springer),20-30
[41] OpenACC应用程序编程接口(2011)
[42] 马修·诺曼;杰弗里·拉金;亚伦·沃斯;凯瑟琳·埃文斯,J.Comput。科学。,9, 1-6 (2015)
[43] 雅各布森(Dana A.Jacobsen)。;Senocak,Inanc,并行计算。,39, 1, 1-20 (2013)
[44] 卡姆比兹萨拉里;Patrick Knupp,《通过制造解决方案的方法进行代码验证技术报告》(2000年),Sandia国家实验室。,桑迪亚国家实验室:桑迪亚国家实验室。,桑迪亚国家实验室。新墨西哥州阿尔伯克基(美国);加利福尼亚州利弗莫尔(美国)
[45] Patrick J.Roache,J.流体工程,124,1,4-10(2002)
[46] Oberkampf,William L。;特鲁卡诺,蒂莫西·G。Aerosp.航空公司。科学。,38, 3, 209-272 (2002)
[47] 叶涛;拉贾特·米塔尔;Udaykumar,H.S。;Shyy,Wei,J.计算。物理。,156, 2, 209-240 (1999) ·Zbl 0957.76043号
[48] 克里希南·马赫什;乔治·康斯坦丁斯库(George Constantinescu);Moin,Parviz,J.计算机。物理。,197, 1, 215-240 (2004) ·Zbl 1059.76033号
[49] Ghia,美国。;Ghia,K.N。;Shin,C.T.,计算机杂志。物理。,48387-411(1982年)·Zbl 0511.76031号
[50] 基兰·拉维库马尔;戴维·阿佩尔汉斯(David Appelhans);Yeung,P.K.,(《SC'19(2019)高性能计算、网络、存储和分析国际会议论文集》)
[51] 巴迪·布兰德(2012 SC Companion:High Performance Computing,Networking Storage and Analysis,2012),IEEE)
[52] 沃尔夫冈·普雷(Wolfgang Pree);Gamma,Erich,面向对象软件开发的设计模式,第183卷(1995),Addison-wesley:Addison-wesley Reading,MA·Zbl 0844.68022号
[53] Towns,John;蒂莫西·科克尔;Maytal Dahan;伊恩·福斯特(Ian Foster);凯莉·盖瑟(Kelly Gaither);安德鲁·格里姆肖;维克托·哈兹伍德(Victor Hazlewood);斯科特·拉思罗普(Scott Lathrop);Dave Lifka;Gregory D.Peterson,计算。科学。工程,16,5,62-74(2014)
[54] 尼斯特罗姆,尼古拉斯A。;迈克尔·J·莱文。;拉尔夫·罗斯基斯。;Scott,J.,(《2015年XSEDE会议论文集:增强网络基础设施带来的科学进步》(2015),ACM),30
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。