摘要
Ahmad Abdelfattah、Marc Baboulin、Veselin Dobrev、Jack Dongarra、A.Haidar、I.Karlin、Tz Kolev、I.Masliah和S.Tomov。 [2017]. 高阶应用高级架构上的小型张量操作。 技术报告。 技术报告UT-EECS-17-749。 谷歌学者 Ahmad Abdelfattah、Azzam Haidar、Stanimire Tomov和Jack Dongarra。 2016.GPU成批GEMM的性能、设计和自动调整。 高性能计算国际会议论文集。 施普林格,21-38。 谷歌学者 交叉引用 马克·安斯沃思(Mark Ainsworth)、盖尔·安德里亚马罗(Gaelle Andriamaro)和奥列格·达维多夫(Oleg Davydov)。 2011.任意阶Bernstein–Bézier有限元和最佳装配程序。 SIAM J.科学。 计算。 33, 6 (2011), 3087--3109. 谷歌学者 数字图书馆 Martin S.AlnS、Anders Logg、Kristian B.Ølgaard、Marie E.Rognes和Garth N.Wells。 2014.统一形式语言:偏微分方程弱公式的领域特定语言。 ACM事务处理。 数学。 柔和。 40, 2 (2014), 9. 谷歌学者 数字图书馆 Martin S.AlnS、Anders Logg、Kristian B.Ølgaard、Marie E.Rognes和Garth N.Wells。 2014.统一形式语言:偏微分方程弱公式的特定领域语言。 ACM事务处理。 数学。 柔和。 40, 2 (2014). 内政部: https://doi.org/10.1145/2566630 谷歌学者 数字图书馆 W.Bangerth、R.Hartmann和G.Kanschat。 2007年交易。 II-一个通用的面向对象的有限元库。 ACM事务处理。 数学。 柔和。 33, 4 (2007), 24/1–24/27. 谷歌学者 数字图书馆 彼得·巴斯蒂安(Peter Bastian)。 2014.多孔介质中具有不连续毛细管压力的两相流的完全耦合不连续Galerkin方法。 计算。 地质科学。 18, 5 (2014), 779--796. 内政部: https://doi.org/10.1007/s10596-014-9426-y 谷歌学者 交叉引用 P.Bastian、K.Birken、K.Johannsen、S.Lang、N.Neu、H.Rentz-Reichert和C.Wieners。 UG-求解偏微分方程的灵活软件工具箱。 计算。 目视检查。 科学。 第1、1页(1997年1月),第27至40页。 内政部: https://doi.org/10.1007/s007910050003 谷歌学者 交叉引用 彼得·巴斯蒂安(Peter Bastian)、马库斯·布拉特(Markus Blatt)、安德烈亚斯·德纳(Andreas Dedner)、克里斯蒂安·恩格尔(Christian Engwer)、罗伯特·克洛夫科恩(Robert Klöfkorn)、拉尔夫·科恩豪伯(Ralf Kornhuber)、马里奥·奥尔伯格。 2008年。用于并行和自适应科学计算的通用网格接口。 第二部分:DUNE的实现和测试。 计算82,2–3(2008),121–138。 谷歌学者 彼得·巴斯蒂安(Peter Bastian)、马库斯·布拉特(Markus Blatt)、安德烈亚斯·德纳(Andreas Dedner)、克里斯蒂安·恩格尔(Christian Engwer)、罗伯特·科伦(Robert Klöfkorn)、马里奥·奥伯格(Mario Ohlberger)和奥利弗·桑德。 2008年。用于并行和自适应科学计算的通用网格接口。 第一部分:抽象框架。计算82,2–3(2008),103–119。 谷歌学者 彼得·巴斯蒂安(Peter Bastian)、菲利克斯·海曼(Felix Heimann)和斯文·马纳奇(Sven Marnach)。 2010年。分布式统一数值环境(DUNE)中有限元方法的通用实现。 Kybernetika凯贝内提卡46,2(2010),294--315。 谷歌学者 彼得·巴斯蒂安(Peter Bastian)、艾克·赫尔曼·穆勒(Eike Hermann Müller)、斯蒂芬·穆欣(Steffen Müthing)和玛丽安·皮亚特科夫斯基(Marian Piatkowski)。 2019.高阶间断Galerkin离散化的无矩阵多重网格块预条件。 J.计算。 物理学。 394 (2019), 417--439. 谷歌学者 数字图书馆 Paul E.Buis和Wayne R.Dyksen。 1996年。张量积的有效向量和并行操作。 ACM事务处理。 数学。 柔和。 22, 1 (1996), 18--23. 谷歌学者 数字图书馆 B.Cockburn、S.Y.Lin和C.W.Shu(编辑)。 2000.间断Galerkin方法。 理论、计算和应用。 计算科学与工程讲义,第11卷。 斯普林格·弗拉格。 谷歌学者 考希克·达塔、马克·墨菲、瓦西里·沃尔科夫、塞缪尔·威廉姆斯、乔纳森·卡特、列奥尼德·奥利克、大卫·帕特森、约翰·沙尔夫和凯瑟琳·叶利克。 2008年。在最先进的多核架构上进行模板计算优化和自动调整。 ACM/IEEE超级计算会议记录(SC'08)。 IEEE出版社,新泽西州皮斯卡塔韦,第4条,12页。 检索自 http://dl.acm.org/citation.cfm?id=1413370.1413375。 谷歌学者 数字图书馆 R.H.Dennard、F.H.Gaensslen、H.Yu、V.L.Rideout、E.Bassous和A.R.LeBlanc。 1974.具有非常小的物理尺寸的离子注入MOSFET的设计。 IEEE J.固态电路。 9,5(1974年10月),256-268。 内政部: https://doi.org/10.109/JSSC.1974.1050511 谷歌学者 交叉引用 罗曼·多尔博。 2018.每个指令集的理论峰值FLOPS:教程。 J.超级计算机。 74 (2018), 1341--1377. 谷歌学者 数字图书馆 Craig C.Douglas、Jonathan Hu、Wolfgang Karl、Markus Kowarschik、Ulrich Rüde和Christian Weiß。 2000.多重网格方法的固定和自适应缓存感知算法。 柏林施普林格,87-93。 内政部: https://doi.org/10.1007/978-3-642-58312-4_11 谷歌学者 交叉引用 亚历山德雷·厄恩(Alexandre Ern)、安妮特·斯蒂芬森(Annette F.Stephansen)和保罗·祖尼诺(Paolo Zunino)。 2009.局部扩散系数较小且各向异性的对流扩散方程的加权平均间断Galerkin方法。 IMA J.数字。 分析。 29, 2 (2009), 235--256. 谷歌学者 交叉引用 保罗·菲舍尔(Paul Fischer)、米苏恩·敏(Misun Min)、蒂琳娜·拉塔纳亚克(Thilina Rathnayake)、索姆·杜塔(Som Dutta)、扎尼奥·科列夫(Tzanio Kolev)、韦塞林·多布雷夫(Veselin Dobrev)、珍妮·西尔万·卡米尔(Jean-Sylvane Camier)、马丁。 2020年。高性能PDE解算器的可扩展性。 Arxiv预印Arxiv:2004.06722(2020)。 谷歌学者 P.F.Fischer、K.Heisey和M.Min,2015年。 基于PDE的仿真的缩放限制。 第22届AIAA计算流体动力学会议论文集。 德克萨斯州达拉斯。 谷歌学者 阿格纳·福格。 【未注明日期】。 VCL C++向量类库v1.30。 检索自 http://www.agner.org/optimize/vectorclass.pdf。 谷歌学者 F.Franchetti、S.Kral、J.Lorenz和C.W.Ueberhuber。 2005.高效利用SIMD扩展。 程序。 IEEE 93,2(2005年2月),409--425。 内政部: https://doi.org/10.109/JPROC.2004.840491 谷歌学者 交叉引用 维维特·吉罗(Vivette Girault)、玛丽·贝特里斯·里维尔(Mary Béatrice Rivière)和F.惠勒(F.Wheeler)。 stokes和Navier-stokes问题的非重叠区域分解间断Galerkin方法。 数学。 计算。 74 (2005), 53--84. 谷歌学者 交叉引用 谷歌。 2020年基准。检索自 https://github.com/google/bequinchmark。 谷歌学者 亚历山大·海内克(Alexander Heinecke)、格雷格·亨利(Greg Henry)、麦克斯韦尔·哈钦森(Maxwell Hutchinson)和汉斯·帕布斯特(Hans Pabst)。 2016.LIBXSMM:通过运行时代码生成加速小矩阵乘法运算。 高性能计算、网络、存储和分析国际会议论文集。 IEEE出版社,84。 谷歌学者 交叉引用 Miklós Homolya、Lawrence Mitchell、Fabio Luporini和David A.Ham。 2018年,TSFC:一个结构呈现形式编译器。 SIAM科学杂志。 计算。 40,3(2018),C401–C428。 谷歌学者 数字图书馆 H.Huang和G.Scovazzi。 2013.用于可压缩多孔介质中粘性指进建模的高阶、全耦合、迎风紧致间断Galerkin方法。 应用力学与工程中的计算机方法263,0(2013),169--187。 内政部: https://doi.org/10.1016/j.cma.2013.04.010 谷歌学者 交叉引用 乔治·埃姆·卡尼亚达基斯(George Em Karniadakis)和斯宾塞·J·舍温(Spencer J.Sherwin)。 2005.CFD的光谱/hp元素方法。 牛津大学出版社。 谷歌学者 Dominic Kempf和Rene Heß。 2020.现代架构上高性能间断Galerkin方法的自动代码生成-软件堆栈:检索自 https://doi.org/10.5281/zenodo.377926。 内政部: https://doi.org/10.5281/zenodo.3779266 谷歌学者 多米尼克·坎普夫和蒂莫·科赫。 2017年,以DUNE为例,在科学数值软件框架中进行系统测试。 架构(architecture)。 数字。 柔和。 5, 1 (2017), 151--168. 谷歌学者 金京珠、蒂莫西·科斯塔、梅赫迈特·德韦西、安德鲁·布拉德利、西蒙·哈蒙德、穆拉特·古尼、莎拉·克奈珀、谢恩·斯托里和西瓦桑卡兰·拉贾马尼卡姆。 2017.设计矢量友好的紧凑BLAS和LAPACK内核。 《高性能计算、网络、存储和分析国际会议论文集》(SC'17)。 ACM,纽约州纽约市,第55条,12页。 内政部: https://doi.org/10.1145/3126908.3126941 谷歌学者 数字图书馆 Robert C.Kirby和Anders Logg。 2006.变分形式编译器。 ACM事务处理。 数学。 柔和。 32, 3 (2006), 417--444. 谷歌学者 数字图书馆 罗伯特·C·科尔比(Robert C.Kirby)和基尤·特里·西(Kieu Tri Thinh)。 2012.使用伯恩斯坦多项式的快速简单求积有限元算子。 数字。 数学。 121, 2 (2012), 261--279. 内政部: https://doi.org/10.1007/s00211-011-0431-y 谷歌学者 数字图书馆 安德烈亚斯·科克纳。 2014年,卢奥。 Py:针对GPU和CPU的基于转换的代码生成。 《ACM SIGPLAN数组编程库、语言和编译器国际研讨会论文集》(Array’14)。 ACM,纽约州纽约市,第82条,6页。 内政部: https://doi.org/10.1145/2627373.2627387 谷歌学者 数字图书馆 安德烈亚斯·科克纳(Andreas Klöckner)、卢卡斯·威尔科克斯(Lucas C.Wilcox)和T.沃伯顿(T.Warburton)。 2016.与Loo进行阵列程序转换。 Py举例:高阶有限元。 第三届ACM SIGPLAN数组编程库、语言和编译器国际研讨会会议记录(Array’16)。 ACM,纽约,纽约,9-16。 内政部: https://doi.org/10.1145/2935323.2935325 谷歌学者 Tzanio Kolev等人。 【未注明日期】。 MFEM:模块化有限元方法。 检索自 http://mfem.org。 谷歌学者 本杰明·克兰克(Benjamin Krank)、尼古拉斯·费恩(Niklas Fehn)、沃尔夫冈·沃尔(Wolfgang A.Wall)和马丁·克伦比克勒(Martin Kronbichler)。 2017.三维不可压缩流的高阶半显式间断Galerkin解算器,应用于湍流通道流的DNS和LES。 J.计算。 物理学。 348 (2017), 634--659. 内政部: https://doi.org/10.1016/j.jcp.2017.07.039 谷歌学者 数字图书馆 马蒂亚斯·克雷茨和沃尔克·林登斯特鲁斯。 2012.Vc:用于显式矢量化的C++库。 软件: 实际。 专家。 42, 11 (2012), 1409--1430. 内政部: https://doi.org/10.1002/spe.1149 谷歌学者 数字图书馆 莫里茨·克鲁泽(Moritz Kreutzer)、乔治·海格(Georg Hager)、格哈德·韦莱因(Gerhard Wellein)、霍尔格·费斯克(Holger Fehske)和阿兰·毕晓普(Alan R.Bishop)。 2014.一种统一的稀疏矩阵数据格式,用于在具有宽SIMD单元的现代处理器上进行高效的通用稀疏矩阵-向量乘法。 SIAM J.科学。 计算。 36,5(2014),C401–C423。 内政部: https://doi.org/10.1137/130930352 谷歌学者 数字图书馆 马丁·克伦比希勒和凯萨琳娜·科尔曼。 2012.基于并行单元的有限元操作符应用程序的通用接口。 计算。 《流体》63(2012),135-147。 内政部: https://doi.org/10.1016/j.compfluid.2012.04.012 谷歌学者 交叉引用 马丁·克伦比希勒和凯萨琳娜·科尔曼。 2019.不连续Galerkin有限元算子的快速无矩阵评估。 ACM事务处理。 数学。 柔和。 第45、3条,第29条(2019年8月),40页。 内政部: https://doi.org/10.1145/3325864 谷歌学者 数字图书馆 马丁·克伦比希勒(Martin Kronbichler)和沃尔夫冈·沃尔(Wolfgang A.Wall)。 2018.连续和非连续Galerkin方法与快速多重网格求解器的性能比较。 SIAM J.科学。 计算。 40,5(2018),A3423–A3448。 内政部: https://doi.org/10.1137/16M110455X 谷歌学者 数字图书馆 李济州和比阿特丽斯·里维埃。 2015。非均匀介质中不可压缩混溶位移方程的数值解。 计算。 方法应用。 机械。 工程292(2015),107-121。 内政部: https://doi.org/10.1016/j.cma.2014.10.048 谷歌学者 交叉引用 Charles F.Van贷款。 2000.无处不在的kronecker产品。 J.计算。 申请。 数学。 123,1(2000),85-100。 内政部: https://doi.org/10.1016/S0377-0427 (00)00393-9 谷歌学者 数字图书馆 Anders Logg、Kent-Andre Mardal、Garth N.Wells等人。 2012.用有限元法自动求解微分方程。 施普林格。 内政部: https://doi.org/10.1007/978-3-642-23099-8 谷歌学者 A.T.T.McRae、G.-T.Bercea、L.Mitchell、D.A.Ham和C.J.Cotter。 2016.张量积有限元的自动生成和符号处理。 SIAM J.科学。 计算。 38,5(2016),S25–S47。 内政部: https://doi.org/10.1137/15M1021167 谷歌学者 交叉引用 斯蒂芬·穆欣(Steffen Müthing)、玛丽安·皮亚特科夫斯基(Marian Piatkowski)和彼得·巴斯蒂安(Peter Bastian)。 2017.无矩阵高阶间断Galerkin方法的高性能实现。 检索自 https://Arxiv:1711.10885。 谷歌学者 史蒂芬·A·奥萨格(Steven A.Orszag)。 1980。复杂几何问题的谱方法。 J.计算。 物理学。 37, 1 (1980), 70--92. 内政部: https://doi.org/10.1016/0021-9991 (80)90005-4 谷歌学者 交叉引用 Will Pazner和Per-Olof Persson。 2018.非常高阶间断Galerkin方法的近似张量积预条件。 J.计算。 物理学。 354 (2018), 344--369. 内政部: https://doi.org/10.1016/j.jcp.2017.10.030 谷歌学者 交叉引用 玛丽安·皮亚特科夫斯基(Marian Piatkowski)、斯特芬·缪兴(Steffen Müthing)和彼得·巴斯蒂安(Peter Bastian)。 2018.不可压缩Navier-Stokes方程的稳定且高阶精度的基于间断Galerkin的分裂方法。 J.计算。 物理学。 356 (2018), 220--239. 谷歌学者 交叉引用 Florian Rathgeber、David A.Ham、Lawrence Mitchell、Michael Lange、Fabio Luporini、Andrew T.T.McRae、Gheorghe-Teodor Bercea、Graham R.Markall和Paul H.J.Kelly。 2015.Firedrake:通过组合抽象实现有限元方法的自动化。 检索自 http://arxiv.org/abs/1501.01809。 谷歌学者 J.Schöberl、A.Arnold、J.Erb、J.M.Melenk和T.P.Wihler。 2017.C++11在NGSolve中实现有限元。 技术报告。 谷歌学者 Sriram Sellappa和Siddhartha Chatterjee。 2004.高效缓存多重网格算法。 国际期刊高性能计算。 申请。 18,1(2004年2月),115--133。 内政部: https://doi.org/10.1177/1094342004041295 谷歌学者 数字图书馆 孙天骄、劳伦斯·米切尔、考希克·库尔卡尼、安德烈亚斯·科克纳、大卫·A·哈姆和保罗·H·J·凯利。 2019.无矩阵有限元方法矢量化研究。 检索自 https://Arxiv:1903.08243。 谷歌学者 赫伯·萨特。 2005年。免费午餐结束了。 Dobb博士的J.30,3(2005)。 谷歌学者 卡西亚·维里多维奇(KasiaŚwirydowicz)、诺埃尔·查尔默斯(Noel Chalmers)、阿里·卡拉库斯(Ali Karakus)和蒂姆·沃伯顿(Tim Warburton)。 2019.加快高阶有限元方法的张量积运算。 国际期刊高性能计算。 申请。 33, 4 (2019), 735--757. 谷歌学者 数字图书馆 乌尔里希·特罗滕贝格(Ulrich Trottenberg)、科尼利厄斯·奥斯特利(Cornelius W.Oosterlee)和安东·舒勒(Anton Schuler)。 2000.Multigrid。爱思唯尔。 谷歌学者 莫里斯·V·威尔克斯。 2001.内存缺口和高性能内存的未来。 SIGARCH计算。 阿奇特。 新闻29,1(2001年3月),2-7。 内政部: https://doi.org/10.1145/373574.3735576 谷歌学者 数字图书馆 塞缪尔·威廉姆斯、安德鲁·沃特曼和大卫·帕特森。 2009年。Roofline:多核架构的一个富有洞察力的视觉性能模型。 Commun公司。 ACM 52,4(2009),65-76。 谷歌学者 数字图书馆
索引术语
现代建筑中高性能间断Galerkin方法的代码自动生成
建议
马力 -具有最小二乘稳定的间断Galerkin有限元方法 我们认为一个家庭 马力 -对称一阶偏微分方程组的最小二乘稳定型间断Galerkin有限元方法。 该族包括经典间断Galerkin有限元。。。 L2-投影法求解间断Galerkin有限元方法的超收敛性 利用L^2投影方法,建立了椭圆问题的间断伽辽金(DG)有限元方法的一般超收敛性。 需要对具有正则分区的椭圆问题进行正则性假设。 数字的。。。