跳到主要内容
研究论文

非连续Galerkin有限元算子的快速无矩阵计算

出版:2019年8月8日出版历史
跳过抽象节

摘要

我们提出了一个非连续Galerkin有限元算子无矩阵计算的算法框架。它依赖于四边形和六面体网格上的快速求积和因子分解,针对线性和非线性偏微分方程的一般弱形式。在深入的性能分析中,比较了不同的算法和数据结构。局部积分的实现通过对多个单元和面进行矢量化以及一维插值的偶数分解进行优化。从缓存运行时,Intel Haswell、Broadwell和Knights Landing处理器上的算术峰值高达60%,同时考虑从主内存访问向量时,达到峰值的40%。在2×14 Broadwell岩心上,3D Laplacian的吞吐量高达22亿未知量/秒,仿射几何体上的3D平流吞吐量高达40亿未知量每秒,接近于47亿未知量/s的简单复制操作。我们的实验表明MPI重影交换对性能有相当大的影响,我们提出了减轻这种影响的策略。最后,讨论了评估几何术语及其性能的各种选项。我们的实施通过交易公开。II有限元库。

工具书类

  1. 丹尼尔·阿卜迪(Daniel S.Abdi)、卢卡斯·威尔科克斯(Lucas C.Wilcox)、蒂莫西·沃伯顿(Timothy C.Warburton)和弗朗西斯·吉拉尔多(Francis X.Giraldo)。2019.GPU加速的连续和不连续伽辽金非流体静力大气模型。国际期刊高性能计算。申请。33, 1 (2019), 81--109.谷歌学者谷歌学者数字图书馆数字图书馆
  2. Rainer Agelek、Michael L.Anderson、Wolfgang Bangerth和William L.Barth。2017.关于非结构化二维和三维网格的边缘定向。ACM事务处理。数学。柔和。44 (2017), 5:1--5:22.谷歌学者谷歌学者数字图书馆数字图书馆
  3. 乔瓦尼·阿尔泽塔(Giovanni Alzetta)、丹尼尔·阿恩特(Daniel Arndt)、沃尔夫冈·班格特(Wolfgang Bangerth)、维沙尔·博杜(Vishal Boddu)、本杰明·布兰德斯(Benjamin Brands)、丹尼斯·达维多夫(Denis Davydov)、雷内·加斯莫勒(Rene Gassmoeller)、蒂莫·海斯特(Timo Heister)、卢卡塔伊娜·科尔曼(Luca Heltai)、。2018年。交易。II库,版本9.0。J.数字。数学。26, 4 (2018), 173--184.谷歌学者谷歌学者交叉引用交叉引用
  4. 罗伯特·安德森(Robert Anderson)、安德鲁·巴克(Andrew Barker)、杰米·布拉姆威尔(Jamie Bramwell)、雅库布·塞文尼(Jakub Cerveny)、约翰·达姆(Johann Dahm)、韦塞林·多布雷夫(Veselin Dobrev)、约汉·杜杜杜杜维特(Yohann Dudouit)、亚伦·费。2018.MFEM:模块化有限元方法。mfem.org网站。谷歌学者谷歌学者
  5. 道格拉斯·N·阿诺德(Douglas N.Arnold)、弗兰克·布雷齐(Franco Brezzi)和多纳泰拉·马里尼(L.Donatella Marini)。椭圆问题间断Galerkin方法的统一分析。SIAM J.数字。分析。39 (2002), 1749--1779.谷歌学者谷歌学者数字图书馆数字图书馆
  6. 萨蒂什·巴莱、施里朗·阿比扬卡、马克·亚当斯、杰德·布朗、彼得·布鲁恩、克里斯·布舍尔曼、利桑德罗·达尔辛、维克托·艾伊霍特、威廉·格罗普、迪内什·考希克、马修·克奈普利、路易斯·柯夫曼·麦克因斯、卡尔·鲁普、巴里·史密斯、斯特凡诺·扎皮尼、张红和张红。2016.PETSc用户手册。技术报告ANL-95/11-3.7版。阿贡国家实验室。http://www.mcs.anl.gov/petsc。谷歌学者谷歌学者
  7. 沃尔夫冈·班格尔(Wolfgang Bangerth)、卡斯滕·伯斯特德(Carsten Burstede)、蒂莫·海斯特(Timo Heister)和马丁·克朗比切勒(Martin Kronbichler)。2011.大规模并行通用有限元代码的算法和数据结构。ACM事务处理。数学。柔和。38, 2 (2011), 14:1--14:28.谷歌学者谷歌学者数字图书馆数字图书馆
  8. 彼得·巴斯蒂安(Peter Bastian)、克里斯蒂安·恩格尔(Christian Engwer)、乔里特·法尔克(Jorrit Fahlke)、马库斯·盖夫勒(Markus Geveler)、多米尼克·哥德克(Dominik Göddeke)、奥列格·伊利耶夫(Oleg Iliev)、奥拉夫·伊普西奇(Olaf Ippisch)、雷内·米尔克(Rene Milk)、扬·莫林(。2016年,EXA-DUNE项目中基于硬件的效率提升。Exascale Computing软件-SPPEXA 2013-2015,Hans-Joachim Bungartz,Philipp Neumann和Wolfgang E.Nagel(编辑)。查姆·斯普林格,3--23岁。谷歌学者谷歌学者
  9. 彼得·巴斯蒂安(Peter Bastian)、克里斯蒂安·恩格尔(Christian Engwer)、多米尼克·戈德克(Dominik Göddeke)、奥列格·伊利耶夫(Oleg Iliev)、奥拉夫·伊普西奇(Olaf Ippisch)、马里奥·奥尔伯格(Mario Ohlberger)、斯特凡·图雷克(Stefan Turek)、乔里特·法尔克(Jorrit Fahlke)、斯文·考尔曼(Sven Kaulmann)、斯特芬·穆。2014.EXA-DUNE:柔性PDE求解器、数值方法和应用。2014年欧洲汽车展:平行加工车间。计算机科学讲义,第8806卷。斯普林格,530-541。谷歌学者谷歌学者
  10. 杰德·布朗。2010年。三维节点高阶有限元的高效非线性求解器。科学杂志。计算。45, 1--3 (2010), 48--63.谷歌学者谷歌学者数字图书馆数字图书馆
  11. Chris D.Cantwell、David Moxey、Andrew Comerford、Alessandro Bolis、Gabriele Rocco、Gianmarco Mengaldo、Daniele De Grazia、Sergey L.Yakovlev、Jean Eloi Lombard、Dirk Ekelschot、Bastien Jordi、Hui Xu、Yumnah Mohamied、Claes Eskilsson、Blake W.Nelson、Peter Vos、Cristian Bioto、Robert M.Kirby和Spencer J.Sherwin。2015.Nektar++:开源光谱/hp元素框架。计算。物理学。Commun公司。192 (2015), 205--219.谷歌学者谷歌学者交叉引用交叉引用
  12. 莱斯特·卡尔三世、卡洛斯·博尔赫斯和弗朗西斯·吉拉尔多。2016。基于无矩阵多项式的非线性最小二乘优化预处理及其在欧拉方程不连续伽辽金离散化中的应用。科学杂志。计算。66 (2016), 917--940.谷歌学者谷歌学者数字图书馆数字图书馆
  13. 米歇尔·德维尔(Michel O.Deville)、保罗·菲舍尔(Paul F.Fischer)和欧内斯特·蒙德(Ernest H.Mund)。2002.不可压缩流体流动的高阶方法。第9卷。剑桥大学出版社。谷歌学者谷歌学者
  14. 杰克·东加拉、伊恩·达夫、马克·盖茨、阿扎姆·海达尔、斯文·哈马林、尼古拉斯·J·海姆、乔纳森·霍格、佩德罗·瓦莱罗·拉拉、塞缪尔·德雷尔顿、斯坦尼米尔·托莫夫和马乌西·佐农。2016.批处理基本线性代数子程序的建议API。技术报告。田纳西大学。https://bit.ly/batched-blas。谷歌学者谷歌学者
  15. Niklas Fehn、Wolfgang A.Wall和Martin Kronbichler。2018.高性能间断Galerkin谱元方法对欠分辨率湍流不可压缩流的效率。国际期刊数字。方法。流体88,1(2018),32-54。谷歌学者谷歌学者交叉引用交叉引用
  16. Niklas Fehn、Wolfgang A.Wall和Martin Kronbichler。2019.无矩阵高阶间断Galerkin可压缩Navier-Stokes解算器:湍流不可压缩流动的可压缩和不可压缩公式的性能比较。国际期刊数字。方法。流体89,3(2019),71-102。谷歌学者谷歌学者交叉引用交叉引用
  17. 保罗·菲舍尔(Paul Fischer)、斯特凡·科克迈尔(Stefan Kerkemeier)、亚当·佩普林斯基(Adam Peplinski)、迪伦·沙弗(Dillon Shaver)、阿纳尼亚斯·汤布利德斯(Anania Tomboulides)、米桑·敏(Misun Min)、阿列克桑德·奥。Nek5000网页。https://nek5000.mcs.anl.gov。谷歌学者谷歌学者
  18. 乔治·海格(Georg Hager)和格哈德·韦林(Gerhard Wellein)。2011年,《科学家和工程师高性能计算导论》。CRC出版社,博卡拉顿。谷歌学者谷歌学者数字图书馆数字图书馆
  19. 亚历山大·海内克(Alexander Heinecke)、格雷格·亨利(Greg Henry)和汉斯·帕布斯特(Hans Pabst)。2017.LIBXSMM:用于小矩阵乘法的高性能库。https://github.com/hfp/libxsmm。谷歌学者谷歌学者
  20. Michael A.Heroux、Rosco A.Bartlett、Vicki E.Howle、Robert J.Hoekstra、Jonathan J.Hu、Tamara G.Kolda、Richard B.Lehoucq、Keven R.Long、Roger P.Pawlowski、Eric T.Phipps、Andrew G.Salinger、Heidi K.Thornquist、Ray S.Tuminaro、James M.Willenbring、Alan Williams和Kendall S.Stanley。2005年,Trilinos项目概述。ACM事务处理。数学。柔和。31, 3 (2005), 397--423. http://www.trilinos.org。谷歌学者谷歌学者数字图书馆数字图书馆
  21. Jan S.Hesthaven和Tim Warburton。节点间断Galerkin方法:算法、分析和应用。应用数学课文,第54卷。斯普林格。谷歌学者谷歌学者数字图书馆数字图书馆
  22. Florian Hindenlang、Gregor Gassner、Christoph Altmann、Andrea Beck、Marc Staudenmaier和Claus Dieter Munz。2012.非定常问题的显式间断Galerkin方法。计算。《流体》61(2012),86-93。谷歌学者谷歌学者交叉引用交叉引用
  23. 托尔斯滕·霍夫勒和罗伯托·贝利。2015年。并行计算系统的科学基准。在SC15中。谷歌学者谷歌学者数字图书馆数字图书馆
  24. M.Homolya、R.C.Kirby和D.A.Ham。2017.揭示和开发结构:高阶有限元方法的最佳代码生成。arXiv预印本1711.02473(2017),cs。硕士。谷歌学者谷歌学者
  25. Immo Huismann、Jörg Stiller和Jochen Fröhlich。2017.因式分解——具有线性运算计数的椭圆方程的谱元解算器。J.计算。物理学。346 (2017), 437--448.谷歌学者谷歌学者交叉引用交叉引用
  26. 英特尔公司2017。英特尔64与IA-32体系结构优化参考手册。英特尔公司。订单号248966-037,https://www.intel.com/content/dam/www/public/us/en/documents/manuals/64-ia-32-architectures-optimization-manual.pdf。谷歌学者谷歌学者
  27. 吉姆·杰弗斯(Jim Jeffers)、詹姆斯·莱因德斯(James Reinders)和阿维纳什·索达尼(Avinash Sodani)。2016.Intel Xeon Phi处理器高性能编程,Knights登录版。Morgan-Kaufmann,马萨诸塞州剑桥市。谷歌学者谷歌学者数字图书馆数字图书馆
  28. 乔治·卡尼亚达基斯(George E.Karniadakis)和斯宾塞·J·舍温(Spencer J.Sherwin)。2005年,《计算流体动力学的谱/hp元素方法》(第二版)。牛津大学出版社。谷歌学者谷歌学者
  29. 多米尼克·坎普夫(Dominic Kempf)、雷内·赫斯(ReneéHess)、斯特芬·穆欣(Steffen Müthing)和彼得·巴斯蒂安(Peter Bastian)。2018.现代架构上高性能非连续Galerkin方法的自动代码生成。arXiv预印本1812.08075(2018),数学。不适用。谷歌学者谷歌学者
  30. 安德烈亚斯·科克纳。2014.Loo.py:基于转换的GPU和CPU代码生成。《ARRAY’14会议录:ACM SIGPLAN数组编程库、语言和编译器研讨会》。苏格兰爱丁堡计算机协会。谷歌学者谷歌学者数字图书馆数字图书馆
  31. 安德烈亚斯·科克纳(Andreas Klöckner)、蒂姆·沃伯顿(Tim Warburton)、杰弗里·布里奇(Jeffrey Bridge)和扬·S·赫斯塔文(Jan S.Hesthaven)。2009。图形处理器上的节点不连续Galerkin方法。J.计算。物理学。228, 21 (2009), 7863--7882.谷歌学者谷歌学者数字图书馆数字图书馆
  32. Matthew G.Knepley、Jed Brown、Karl Rupp和Barry F.Smith。2013年,通过统一的剩余评估实现高绩效。arXiv预印本1309.1204(2013),cs。硕士。谷歌学者谷歌学者
  33. Dimitri Komatitsch、Jean-Paul Ampuero、Kangchen Bai、Piero Basini、Céline Blitz、Ebru Bozdag、Emanuele Casarotti、Joseph Charles、Min Chen、Percy Galvez、Dominik Göddeke、Vala Hjörleifsdóttir、Sue Kientz、Jesús Labarta、Nicolas Le Goff、Pieyre Le Loher、Matthieu Lefebvre、Qinya Liu、Yang Luo、Alessia Maggi、Federica Magnoni、Roland Martin,勒内·马岑(Rene Matzen)、丹尼斯·麦克里奇(Dennis McRitchie)、马蒂亚斯·梅舍德(Matthias Meschede)、彼得·梅斯默(Peter Messmer)、大卫·米歇(David Michéa)、苏伦德拉·纳德·索马拉(Surendra Nadh Somala)、塔吉·尼森·梅耶(Tarje Nissen-Meyer)、丹尼尔·彼得(Daniel Peter)、马克斯·里特曼(Max Rietmann)、埃利奥特·安德拉德(Elliott Sales de Andrade。2015.SPECFEM 3D笛卡尔用户手册。技术报告。地球动力学计算基础设施、普林斯顿大学、CNRS和马赛大学以及苏黎世理工大学。谷歌学者谷歌学者
  34. 大卫·科普里瓦。2009.实施偏微分方程的谱方法。柏林施普林格。谷歌学者谷歌学者数字图书馆数字图书馆
  35. 凯瑟琳·科尔曼(Katharina Kormann)。2016年,薛定谔方程的时空自适应方法。Commun公司。计算。物理学。20, 1 (2016), 60--85.谷歌学者谷歌学者交叉引用交叉引用
  36. 凯萨琳娜·科尔曼(Katharina Kormann)和马丁·克伦比希勒(Martin Kronbichler)。2011.并行有限元算子应用:图形分割和着色。第七届IEEE电子科学国际会议论文集。332--339.谷歌学者谷歌学者数字图书馆数字图书馆
  37. Benjamin Krank、Niklas Fehn、Wolfgang A.Wall和Martin Kronbichler。2017.三维不可压缩流的高阶半显式间断Galerkin解算器,应用于湍流通道流的DNS和LES。J.计算。物理学。348 (2017), 634--659.谷歌学者谷歌学者数字图书馆数字图书馆
  38. 马丁·克伦比切勒和妈妈阿伦。2018.采用无矩阵实现的高效高阶间断Galerkin有限元。《环境信息学的进展与趋势》,H.-J.Bungartz、D.Kranzlmüller、V.Weinberg、J.Weismüller-和V.Wohlgemuth(编辑)。89--110.谷歌学者谷歌学者
  39. 马丁·克伦比希勒(Martin Kronbichler)、阿巴巴卡尔·迪格恩(Ababacar Diagne)和汉娜·霍尔格伦(Hanna Holgren)。2018.用于微流控芯片模拟的快速大规模并行两相流求解器。国际期刊高性能计算。申请。32, 2 (2018), 266--287.谷歌学者谷歌学者数字图书馆数字图书馆
  40. 马丁·克伦比希勒和凯萨琳娜·科尔曼。2012.基于并行单元的有限元操作符应用程序的通用接口。计算。《流体》63(2012),135-147。谷歌学者谷歌学者交叉引用交叉引用
  41. 马丁·克伦比希勒、凯萨琳娜·科尔曼、伊戈尔·帕西尼克和妈妈阿伦。2017.现代计算机架构上的快速无矩阵间断Galerkin内核。在2017年ISC High Performance中,《计算机科学讲义》,第10266卷。J.M.Kunkel、R.Yokota、P.Balaji和D.E.Keyes(编辑)。237--255.谷歌学者谷歌学者数字图书馆数字图书馆
  42. 马丁·克伦比切勒、斯文娅·斯科德、克里斯托弗·米勒和沃尔夫冈·沃尔。2016年,声波方程隐式和显式混合间断Galerkin方法的比较。国际。J.数字。方法工程106,9(2016),712--739。谷歌学者谷歌学者交叉引用交叉引用
  43. 马丁·克伦比希勒(Martin Kronbichler)和沃尔夫冈·沃尔(Wolfgang A.Wall)。2018.连续和非连续Galerkin方法与快速多重网格求解器的性能比较。SIAM科学杂志。计算。40,5(2018),A3423---A3448。谷歌学者谷歌学者数字图书馆数字图书馆
  44. 法比奥·卢波里尼、大卫·A·哈姆和保罗·H·J·凯利。2017.有限元积分回路优化算法。ACM事务处理。数学。软件44,1(2017),3:1--3:26。谷歌学者谷歌学者数字图书馆数字图书馆
  45. Dave A.May、Jed Brown和Laetitia Le Pourhet。2014年,pTatin3D:长期岩石圈动力学的高性能方法。在超级计算(SC14)中,J.M.Kunkel、T.Ludwig和H.W.Meuer(编辑)。新奥尔良,1-11。谷歌学者谷歌学者数字图书馆数字图书馆
  46. 安德鲁·T·麦克雷(Andrew T.T.McRae)、盖奥盖·特奥多·贝尔恰(Gheorghe-Teodor Bercea)、劳伦斯·米切尔(Lawrence Mitchell)、大卫·A·汉姆(David A.Ham)和C.J.科特(C.J。2016.张量积有限元的自动生成和符号处理。SIAM科学杂志。计算。38,5(2016),S25--S47。谷歌学者谷歌学者交叉引用交叉引用
  47. Axel Modave、Amik St.-Cyr和Tim Warburton。2016.声学和弹性模型节点不连续Galerkin方法的GPU性能分析。计算机8地球科学91(2016),64-76。谷歌学者谷歌学者数字图书馆数字图书馆
  48. 斯蒂芬·穆欣(Steffen Müthing)、玛丽安·皮亚特科夫斯基(Marian Piatkowski)和彼得·巴斯蒂安(Peter Bastian)。2017.无矩阵高阶间断Galerkin方法的高性能实现。arXiv预印本1711.10885(2017),数学。不适用。谷歌学者谷歌学者
  49. 史蒂芬·A·奥萨格(Steven A.Orszag)。1980。复杂几何问题的谱方法。J.计算。物理学。37 (1980), 70--92.谷歌学者谷歌学者交叉引用交叉引用
  50. 安东尼·佩特拉(Anthony T.Patera)。1984。流体动力学的谱元法:通道扩张中的层流。J.计算。物理学。54, 3 (1984), 468--488.谷歌学者谷歌学者交叉引用交叉引用
  51. Florian Rathgeber、David A.Ham、Lawrence Mitchell、Michael Lange、Fabio Luporini、Andrew T.T.McRae、Gheorghe-Teodor Bercea、Graham R.Markall和Paul H.J.Kelly。2016.Firedrake:通过组合抽象实现有限元方法的自动化。ACM事务处理。数学。柔和。43,3,第24条(2016),27页。谷歌学者谷歌学者数字图书馆数字图书馆
  52. 詹姆斯·莱因德斯(James Reinders)。2007.英特尔线程构建块。奥莱利。谷歌学者谷歌学者数字图书馆数字图书馆
  53. Jean-Francois Remacle、Rajesh Gandham和Tim Warburton。2016.全六角网格上的GPU加速谱有限元。J.计算。物理学。324 (2016), 246--257.谷歌学者谷歌学者数字图书馆数字图书馆
  54. 约阿希姆·舍伯尔(Joachim Schöberl)。2014.C++11 NGSolve中有限元的实现。ASC第30/2014号技术报告。维也纳理工大学。谷歌学者谷歌学者
  55. Svenja Schoeder、Katharina Kormann、Wolfgang A.Wall和Martin Kronbichler。2018.波的高阶间断Galerkin格式的高效显式时间步进。SIAM J.科学。计算。40、6(2018),C803--C826。谷歌学者谷歌学者数字图书馆数字图书馆
  56. Spencer J.Sherwin和George E.Karniadakis。1996.四面体有限元:算法和流动模拟。J.计算。物理学。124, 1 (1996), 14--45.谷歌学者谷歌学者数字图书馆数字图书馆
  57. 孙天骄、劳伦斯·米切尔、考希克·库尔卡尼、安德烈亚斯·科克纳、大卫·A·哈姆和保罗·H·J·凯利。2019.无矩阵有限元方法矢量化研究。arXiv预印本1903.08243(2019),cs。硕士。谷歌学者谷歌学者
  58. Jan Treibig、Georg Hager和Gerhard Wellein。2010年LIKWID:用于x86多核环境的面向性能的轻量级工具套件。在PSTI2010会议记录中,第一届并行软件工具和工具基础设施国际研讨会。加利福尼亚州圣地亚哥。https://github.com/RRZE-HPC/likwid,2018年10月15日检索。谷歌学者谷歌学者数字图书馆数字图书馆
  59. Zhi J.Wang、Krzysztof Fidkowski、Rémi Abgrall、Francesco Bassi、Doru Caraeni、Andrew Cary、Herman Deconick、Ralf Hartmann、Koen Hillewaert、H.T.Huynh、Norbert Kroll、Georg May、Per-Olof Persson、Bram van Leer和Miguel Visbal。2013.高阶CFD方法:现状和前景。国际期刊数字。方法。《流体》72,8(2013),811--845。谷歌学者谷歌学者交叉引用交叉引用
  60. 塞缪尔·威廉姆斯、安德鲁·沃特曼和大卫·帕特森。2009年。Roofline:多核架构的一个富有洞察力的视觉性能模型。Commun公司。ACM 52,4(2009),65-76。谷歌学者谷歌学者数字图书馆数字图书馆

索引术语

  1. 非连续Galerkin有限元算子的快速无矩阵计算

          建议

          评论

          登录选项

          检查您是否可以通过登录凭据或您的机构访问本文。

          登录

          完全访问权限

          • 发布于

            数学软件上的封面图像ACM事务
            ACM数学软件汇刊 第45卷第3期
            2019年9月
            357页
            国际标准编号:2009年8月35日
            EISSN公司:1557-7295
            内政部:10.1145/3349340
            期刊目录

            版权©2019 ACM

            如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]

            出版商

            计算机协会

            美国纽约州纽约市

            出版历史

            • 出版:2019年8月8日
            • 认可的:2019年4月1日
            • 修订日期:2019年1月1日
            • 收到时间:2017年11月1日
            发布于汤姆斯第45卷第3期

            权限

            请求有关此文章的权限。

            请求权限

            检查更新

            限定符

            • 研究论文
            • 研究
            • 推荐

          PDF格式

          以PDF文件查看或下载。

          PDF格式

          电子阅读器

          使用eReader联机查看。

          电子阅读器

          HTML格式

          以HTML格式查看本文。

          查看HTML格式