×

MPI+X:基于任务的并行化和有限元装配的动态负载平衡。 (英语) Zbl 07474475号

摘要:求解偏微分方程数值方法的主要计算阶段是代数系统汇编和迭代求解器。这项工作的重点是第一个任务,在混合MPI+X范式的上下文中。矩阵集合由MPI分区的元素、面、边或节点上的循环组成,用于计算元素矩阵和向量,然后计算它们的集合。在MPI+X混合并行上下文中,X传统上由使用OpenMP的循环并行组成,使用不同的技术来避免竞争条件,但存在效率或实现缺陷。我们提出了一种替代方案,基于使用OpenMP编程模型的一些扩展的任务并行性。此外,还将应用动态负载平衡,特别是在存在混合网格的情况下。本文介绍了所提出的方法,并通过解决高达16k核的大型计算力学问题进行了验证。

MSC公司:

65-XX岁 数值分析
74倍 可变形固体力学
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 奥布里,R。;Houzeaux,G。;瓦兹奎兹,M。;Cela,J.M.,共享内存机器上基于非结构化边的解算器的一些有用策略,国际工程数值方法杂志,85,5,537-561(2011)·Zbl 1217.76066号 ·doi:10.1002/nme.2973
[2] 巴塞罗那超级计算中心。2018.汞。https://pm.bsc.es/mcxx。
[3] 巴塞罗那超级计算中心。2018.OmpSs规范。https://pm.bsc.es/ompss-docs/spec。
[4] Basermann,A。;Clinckemaillie,J。;库佩兹,T。;Fingberg,J。;Digonnet,H。;杜克鲁斯,R。;格拉廷,J.-M;美国哈特曼。;Lonsdale,G。;Maerten,B。;Roose,D。;Walshaw,C.,《利用DRAMA库进行有限元应用的动态荷载平衡》,应用数学建模,25,2,83-98(2000)·Zbl 1076.65534号 ·doi:10.1016/S0307-904X(00)00043-3
[5] Belytschko,T。;刘伟凯。;Moran,B.,《连续体和结构的非线性有限元》(2014),奇切斯特:J.Wiley&Sons
[6] Bull,M.2013年10月。“UEABS:统一欧洲应用程序基准套件。”http://www.prace-rieu/IMG/pdf/d7.4_3ip.pdf。
[7] Calmet,H。;甘巴鲁托,A。;贝茨,A。;巴斯克斯,M。;Houzeaux,G。;Doorly,D.,《快速吸入期间大型人气道过渡和湍流状态的大规模CFD模拟》,《生物和医学中的计算机》,69,166-180(2016)·doi:10.1016/j.compbiomed.2015.12.003
[8] 卡索尼,E。;Jérusalem,A。;Samaniego,C。;Eguzkitza,B。;Lafortune,P。;Tjahjanto,D。;Sáez,X。;Houzeaux,G。;Vázquez,M.,Alya:超级计算机的计算固体力学,工程计算方法档案,22,4,557-576(2015)·Zbl 1348.74007号 ·doi:10.1007/s11831-014-9126-8
[9] 塞卡,C。;Lew,A.J。;Darve,E.,《有限元方法在图形处理器上的组装》,《工程数值方法国际期刊》,85,5,640-669(2011)·Zbl 1217.80146号 ·doi:10.1002/nme.2989
[10] 杜兰,A。;伊瓜德,E。;巴迪亚·R·M。;拉巴塔,J。;马丁内尔。;Martorell,X。;Planas,J.,OmpSs:编程异构多核架构的提案,并行处理快报,21,2,173-193(2011)
[11] Farhat,C。;Crivelli,L.,共享内存多处理器非线性有限元计算的一般方法,应用力学和工程中的计算机方法,72,2,153-171(1989)·Zbl 0677.68031号 ·doi:10.1016/0045-7825(89)90157-6
[12] Garcia,M.、Corbalan,J.和Labarta,J.,2009年。“LeWI:嵌套并行的运行时平衡算法”,《并行处理国际会议论文集》(ICPP09)。IEEE计算机学会,维也纳(奥地利),9月22日至25日。2019
[13] Houzeaux,G。;奥布里,R。;Vázquez,M.,《不可压缩流分步技术的扩展:压力Schur补体的预处理正交函数(1)》,计算机与流体,44,297-313(2011)·Zbl 1271.76208号 ·doi:10.1016/j.compfluid.2011.01.017
[14] Houzeaux,G。;德拉克鲁兹,R。;欧文,H。;Vázquez,M.,应用于Navier-Stokes解算器的平行均匀网格乘法,计算机与流体,80142-151(2013)·Zbl 1284.76250号 ·doi:10.1016/j.compfluid.2012.04.017
[15] Houzeaux,G。;Garcia-Gasulla,M。;卡哈斯,J.C。;Artigues,A。;Olivares,E。;拉巴塔,J。;Vázquez,M.,应用于流体中颗粒传输的动态负载平衡,国际计算流体动力学杂志,30,408-418(2016)·Zbl 1497.76057号 ·doi:10.1080/10618562.2016.1227070
[16] Houzeaux,G。;Principe,J.,《瞬态不可压缩流动的变分网格尺度模型》,国际计算流体动力学杂志,22,3,135-152(2008)·Zbl 1184.76802号 ·doi:10.1080/106186560701816387
[17] Houzeaux,G。;瓦兹奎兹,M。;奥布里,R。;Cela,J.M.,《不可压缩流的大规模并行分步求解器》,计算物理杂志,228,17,6316-6332(2009)·Zbl 1261.76030号 ·doi:10.1016/j.jcp.2009.05.019
[18] Karypis,G.和Kumar,V.,1995年。非结构化图划分和稀疏矩阵排序系统,2.0版。http://glaros.dtc.umn.edu/gkhome/metis/metis/overview。
[19] Koros˘ec,P。;s˘ilc,J。;Robic˘,B.,用蚁群算法解决网格划分问题,并行计算,30,5,785-801(2004)·doi:10.1016/j.parco.2003.12.016
[20] Kubale,M.和Dyskretna,Optymalizacja。2004.图形着色。当代数学(美国数学学会)第352卷。美国普罗维登斯:美国数学学会。https://books.google.es/books?id=fokbCAAAQBAJ。 ·Zbl 1064.05061号
[21] Llort,G.、Servat,H.、González,J.、Giménez,J..和Labarta,J..2013年11月。“关于对象跟踪技术在性能分析中的作用”,2013年SC——高性能计算、网络、存储和分析国际会议(SC)。
[22] Löhner,R.,在共享内存上运行的非结构化网格解算器的重新编号策略,基于缓存的并行机,应用力学和工程中的计算机方法,163,95-109(1998)·兹伯利0960.76075 ·doi:10.1016/S0045-7825(98)00005-X
[23] Löhner,R.,《应用计算流体动力学技术:基于有限元方法的简介》(2008),新泽西州霍博肯:John Wiley&Sons·Zbl 1151.76002号
[24] Löhner,R。;静音,F。;塞布拉尔,J。;奥布里,R。;Houzeaux,G.,压力-泊松方程的偏转预处理共轭梯度解算器:扩展和改进,国际工程数值方法杂志,87,2-14(2011)·Zbl 1242.76128号 ·doi:10.1002/nme.2932
[25] Misra,J。;Gries,D.,维辛定理的构造性证明,《信息处理快报》,41,31-133(1992)·Zbl 0795.68157号 ·doi:10.1016/0020-0190(92)90041-S
[26] 摩尔,S。;Ralph,J.,《硬件性能监控的用户定义事件》,Procedia Computer Science,42096-2104(2011)·doi:10.1016/j.procs.2011.04.229
[27] Pearce,R.、Gokhale,M.和Amato,N.M.,2013年。“分布式(外部)存储器中大规模无标度图的缩放技术”,2013年IEEE第27届并行和分布式处理国际研讨会论文集,IPDPS’13,美国华盛顿特区,825-836。IEEE计算机学会。
[28] Pillet,V.、Labarta,J.、Cortes,T.和Girona,S.,1995年。“Paraver:可视化和分析并行代码的工具”,《WoTUG-18:Transputer和Occam开发论文集》,第44卷,第17-31页。阿姆斯特丹:IOS出版社。
[29] Saad,Y.,《稀疏线性系统的迭代方法》(2003),宾夕法尼亚州费城:SIAM·兹比尔1002.65042
[30] 索托,O。;Löhner,R。;Camelli,F.,《不可压缩流动解算器的Linelet预处理器》,《热流和流体流动数值方法国际期刊》,13,1,133-147(2003)·Zbl 1059.76037号 ·doi:10.1108/09615530310456796
[31] 斯特拉茨马,T.P。;Antypas,K.B。;Williams,T.J.,Exascale Scientific Applications:Scalability and Performance Portability(2017),美国纽约:查普曼和霍尔/CRC·Zbl 1386.00064号
[32] Terpstra,D.、Jagode,H.、You,H.和Dongarra,J.,2010年。“使用PAPI-C收集性能数据”,《2009年高性能计算工具》,第三届并行工具研讨会,德国德累斯顿,157-173。柏林施普林格。精密路径指示器:http://icl.cs.utk.edu/papi/index.html-上次访问日期:2018年12月。
[33] Thébault,L.、Petit,E.、Tchiboukdjian,M.、Dinh,Q.和Jalby,W.,2013年9月10日至13日。“有限元方法装配的分治并行化”,并行计算国际会议-ParCo2013,第25卷,并行计算进展,Muncih(德国),753-762。
[34] 瓦兹奎兹,M。;胡索,G。;科里克,S。;Artigues,A。;Aguado-Sierra,J。;Arís,R。;Mira,D.,Alya:面向Exascale的多物理工程模拟,计算科学杂志,14,15-27(2016)·doi:10.1016/j.jocs.2015.12.007
[35] Vidal,R.,Casas,M.,Moretó,M.、Chasapis,D.、Ferrer,R.、Martorell,X.、Ayguadé,E.、Labarta,J.和Valero,M.2015年。“评估OpenMP 4.0扩展对相关并行工作负载的影响”。OpenMP:异构执行和数据移动。2015年IWOMP。计算机科学课堂讲稿,由Terboven C.、de Supinski B.、Reble P.、Chapman B.、Müller M编辑,第9342卷。查姆施普林格。
[36] 沃尔肖,C。;Cross,M.,《网格划分:多级平衡和优化算法》,SIAM科学计算杂志,22,1,63-80(2000)·Zbl 0968.05074号 ·doi:10.1137/S1064827598337373
[37] Wang,M.、Ren,X.、Li,C.和Li,Z.2016年。“DMRPar:OpenFOAM中溃坝模拟的动态网格划分方案”,2016年第17届并行与分布式计算、应用与技术国际会议(PDCAT),12月210-215日。
[38] 周,M。;沙尼,O。;谢泼德,M.S。;Carothers,C.D。;Jansen,K.E.,《有限元计算加速的基于邻接的数据重排序算法》,科学编程,18,2,107-123(2010)·doi:10.1155/2010/273921
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。