×

一种在大规模并行高性能多重网格代码中实现高效在轨操作员组装的双尺度方法。 (英语) Zbl 1375.65168号

摘要:大规模无矩阵有限元实现节省内存,通常比使用经典稀疏矩阵技术的实现速度快得多。它们特别适合于大规模并行几何多重网格解算器与多面体域上的分层混合网格相结合。在系数不变的情况下,不同模具条目的数量仅取决于粗略网格,并且不随细化级别的数量增加而增加。然而,对于非多面体域,情况发生了变化。然后,即使对于拉普拉斯操作符,元素映射也会产生精细的网格模板,这些模板可以随网格点的不同而变化。传统的无矩阵技术基于元素级组装,因此计算成本大大增加。为了弥补这一不足,我们引入了一种新的双尺度方法,该方法使用代理运算符。它利用了精细网格操作符的模板条目相对于粗网格大小的分段多项式近似。这些替代多项式的低成本评估导致了非多面体域的有效模具装配。我们讨论并用数字说明了两个尺度的先验界。如果结合双重离散化技术,近似解的精度可以进一步提高。仔细的性能分析结合基于Execution-Cache-Memory模型的硬件代码优化可以显著提高速度。弱标度和强标度结果说明了这种新的双标度方法在大规模PDE模拟中的潜力。

MSC公司:

65号55 多重网格方法;偏微分方程边值问题的域分解
65纳米30 含偏微分方程边值问题的有限元、Rayleigh-Ritz和Galerkin方法
35J25型 二阶椭圆方程的边值问题
第65年 并行数值计算
65日元 数值算法的封装方法
65层35 矩阵范数、条件、缩放的数值计算
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿本茨,P。;范·伦特,G.H。;Mennel,美国。;穆勒,R。;Sala,M.,《人体骨骼结构无矩阵有限元分析的可扩展多级预处理程序》,国际期刊编号。方法工程,73,927-947(2008)·Zbl 1262.74031号
[2] 贝克,A。;法尔古特,R。;科列夫,T。;Yang,U.M.,《高性能科学计算——算法和应用》,261-279(2012),施普林格出版社
[3] 贝克,A.H。;Klawonn,A。;科列夫,T。;Lanser,M。;莱因巴赫,O。;Yang,U.M.,经典代数多重网格的可伸缩性,以实现50万并行任务的弹性,(Exascale Computing软件-SPPEXA 2013-2015)。Exascale计算软件——SPPEXA 2013-2015,计算科学与工程讲义,第113卷(2016),Springer),113-140
[4] 巴雷特·R。;贝里,M。;Chan,T.F。;德梅尔,J。;多纳托,J。;Dongarra,J.J。;埃伊霍特,V。;波佐,R。;罗明,C。;van der Vorst,H.,《线性系统解的模板:迭代方法的构建块》(1994),SIAM
[5] Bastian,P。;恩格尔,C。;Göddeke,D。;伊利耶夫,O。;O.伊普西奇。;Ohlberger,M。;Turek,S。;法尔克,J。;考尔曼,S。;缪兴,S。;Ribbrock,D.,Exa-dune:灵活的PDE解算器、数值方法和应用,(Euro-Par 2014:并行处理研讨会:Euro-Par2014国际研讨会。Euro-Pard 2014:并行加工研讨会:Euo-Par 2014国际研讨会,葡萄牙波尔图,2014年8月25-26日(2014),Springer International Publishing:Springer国际出版公司Cham),530-541,修订论文集,第二部分
[6] 鲍姆加德纳,J.R。;Frederickson,P.O.,两个球体的二十面体离散化,SIAM J.Numer。分析。,22, 1107-1115 (1985) ·Zbl 0601.65084号
[7] Bazilevs,Y。;Takizawa,K。;Tezduyar,T.,《计算流体-结构相互作用:方法和应用》(2013),John Wiley&Sons,Ltd·兹比尔1286.74001
[8] Bergen,B.,《分层混合网格:超级计算机上高效有限元模拟的数据结构和核心算法》(2005年),Technische Fakultät der Friedrich-Alexander-Universität Erlangen:Technische-Fakultät der-Friedrich_Alexander-Universitát Erlangen Nürnberg博士论文
[9] 卑尔根,B。;Hülsemann,F.,《分层混合网格:多重网格的数据结构和核心算法》,Numer。线性代数应用。,11, 279-291 (2004) ·兹比尔1164.65517
[10] Bey,J.,四面体网格细化,计算,55,355-378(1995)·Zbl 0839.65135号
[11] Bienz,A。;法尔古特,R。;格罗普,W。;奥尔森,L。;Schroder,J.,《通过稀疏化减少代数多重网格中的并行通信》,SIAM J.Sci。计算。,38,S332-S357(2016)·Zbl 1352.65102号
[12] Brandt,A。;Livne,O.,《多重网格技术:1984年流体动力学应用指南》,《应用数学经典》(2011年),工业和应用数学学会·Zbl 1227.65121号
[13] Comer,D.E.,《计算机体系结构要领》(2005),皮尔森·普伦蒂斯·霍尔:新泽西州皮尔森·普伦蒂斯霍尔
[14] 科特雷尔,J。;休斯·T。;Bazilevs,Y.,《等几何分析:走向CAD和FEA的集成》(2009),John Wiley&Sons,Ltd·Zbl 1378.65009号
[15] 道尔顿,S。;奥尔森,L。;Bell,N.,为GPU优化稀疏矩阵-矩阵乘法,ACM Trans。数学。软质。,41, 25:1-25:20 (2015) ·Zbl 1347.65085号
[16] C.C.道格拉斯。;胡,J。;科瓦希克,M。;吕德,美国。;Weiß,C.,结构化和非结构化网格多重网格的缓存优化,Electron。事务处理。数字。分析。,10, 21-40 (2000) ·Zbl 0949.65099号
[17] 法尔古特,R。;Meier-Yang,U.,hypre:一个高性能预处理程序库,Compute。科学-ICCS,2002,632-641(2002)·Zbl 1056.65046号
[18] 弗莱米什,B。;Melenk,J.M。;Wohlmuth,B.I.,《曲面界面砂浆法》,应用。数字。数学。,54, 339-361 (2005) ·兹比尔1078.65119
[19] 格梅纳,B。;吕德,美国。;斯坦格尔,H。;瓦卢加,C。;Wohlmuth,B.,Stokes系统的分层混合多网格求解器的性能和可扩展性,SIAM J.Sci。计算。,37,C143-C168(2015)·Zbl 1320.65188号
[20] 郭,D。;格罗普,W。;Olson,L.N.,《在GPU上提高稀疏矩阵-向量乘法性能的混合格式》,《国际高性能计算》。申请。,30, 103-120 (2016)
[21] Hackbusch,W.,《带缺陷修正的多网格迭代》(On multi-grid iterations with defect correction),(Hackbush,W.;Trottenberg,U.,《多网格方法:在科伦·波茨举行的会议记录》,《数学讲义》,第960卷(1982),斯普林格出版社),461-473·Zbl 0505.65045号
[22] 海格·G。;Treibig,J。;哈比奇,J。;Wellein,G.,通过简单的机器模型探索现代多核芯片的性能和功率特性,Concurr。计算:实践经验(2014)
[23] Igel,H.,《计算地震学:实用简介》(2016),牛津大学出版社·Zbl 1458.86001号
[24] 英特尔公司,英特尔体系结构代码分析器(2012),版本:2.1
[25] Kennett,B.法律公告。;Bunge,H.P.,《地球物理连续统》(2008),剑桥大学出版社·Zbl 1156.86001号
[26] 科瓦希克,M。;吕德,美国。;Weiß,C.,变系数多重网格的数据布局优化,(国际计算科学会议,国际计算科学大会,计算机科学讲义,第2331卷(2002),Springer),642-651·Zbl 1056.65135号
[27] Kreutzer,M。;海格·G。;Wellein,G。;Fehske,H。;Bishop,A.,一种统一的稀疏矩阵数据格式,用于在具有宽SIMD单元的现代处理器上进行有效的通用稀疏矩阵-向量乘法,SIAM J.Sci。计算。,36、C401-C423(2014)·Zbl 1307.65055号
[28] Kronbichler,M。;Kormann,K.,基于并行单元的有限元算子应用的通用接口,计算。流体,63,135-147(2012)·Zbl 1365.76121号
[29] Logg,A。;Ølgard,K.B。;罗杰斯,M.E。;Wells,G.N.,FFC:FEniCS表单编译器,(Logg,A.;Mardal,K.A.;Wells、G.N..,《有限元法自动求解微分方程》,《计算科学与工程讲义》,第84卷(2012),施普林格),227-238·Zbl 1247.65105号
[30] 五月,D.A。;Brown,J。;Pourhiet,L.L.,非均匀Stokes流有限元离散的可扩展、无矩阵多重网格预处理程序,计算。方法应用。机械。工程,290496-523(2015)·兹比尔1423.76259
[31] 公证人Y。;Napov,A.,离散类泊松问题的大规模并行求解器,J.Compute。物理。,281237-250(2015年)·Zbl 1352.65454号
[32] Rappoport,A.,《使用混合细分和正向差分渲染曲线和曲面》,ACM Trans。图表。,10323-341(1991年)·Zbl 0737.68083号
[33] van Rietbergen,B。;Weinans,H。;Huiskes,R。;Polman,B.,《使用体素数据的大型有限元应用程序迭代解的计算策略》,国际期刊Numer。方法工程,2743-2767(1996)·Zbl 0883.73079号
[34] Rockwood,A.P.,参数定义曲面显示的通用扫描技术,IEEE计算。图表。申请。,7, 15-26 (1987)
[35] Rudi,J。;马洛西,A.C.I。;Isaac,T。;斯塔德勒,G。;Gurnis,M。;斯塔尔,P.W.J。;Ineichen,Y。;Bekas,C。;A.库里奥尼。;Ghattas,O.,《复杂偏微分方程的一个极值尺度隐式求解器:地幔中的高度非均匀流动》,(《高性能计算、网络、存储和分析国际会议论文集》,SC'15(2015),ACM:ACM纽约,纽约,美国),5:1-5:12
[36] Staniforth,A。;Thuburn,J.,《全球天气和气候预测模型的水平网格:综述》,Q.J.R.Meteorol。Soc.,138,1-26(2012)
[37] 斯坦格尔,H。;Treibig,J。;海格·G。;Wellein,G.,使用执行-支票-记忆模型量化模板计算的性能瓶颈,(第29届超级计算国际会议论文集。第29届国际超级计算会议论文集,ICS’15(2015),ACM:美国纽约州纽约市ACM),207-216
[38] 美国特罗滕贝格。;Oosterlee,C。;Schüller,A.,Multigrid(2001),学术出版社·Zbl 0976.65106号
[39] 威廉姆斯。;沃特曼,A。;Patterson,D.,《屋顶线:多核架构的一个富有洞察力的视觉性能模型》,Commun。ACM,52,65-76(2009)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。