×

高性能计算科学的数值算法。 (英语) Zbl 1462.65231号

摘要:当今高性能计算机的许多特性使得充分利用这些机器进行计算科学变得非常困难。这包括增加核心计数,但时钟频率停滞;数据移动的高成本;使用加速器(GPU、FPGA、协处理器),使架构变得越来越异构;浮点运算的多重精度,包括半精度。此外,除了最大限度地提高速度和精度外,最大限度地减少能源消耗也是一个重要的标准。需要新一代算法来应对这些挑战。为了开发下一代超级计算机,我们讨论了为高性能计算科学开发数值算法的一些方法。

MSC公司:

65岁10岁 特定类别建筑的数值算法
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Dongarra JJ公司。1988年LINPACK基准测试:解释。超级计算,第一届国际会议,雅典,会议记录(编辑:EN Houstis,TS Papatheodorou,CD Polychronopoulos)。计算机科学课堂讲稿,第297卷,第456-474页。德国柏林:施普林格。
[2] Meuer H、Strohmaier E、Dongarra J、Simon H、Meuer M.超级计算机网站TOP500。www.top500.org。
[3] Shalf JM,Leland R.2015《摩尔定律之外的计算》。计算机48,14-23。(doi:10.1109/MC.2015.374)·doi:10.1109/MC.2015.374
[4] Shalf J.2020超越摩尔定律的计算未来。菲尔翻译。R.Soc.A 378,20190061。(doi:10.1098/rsta.2019.0061)·Zbl 1462.68001号 ·doi:10.1098/rsta.2019.0061
[5] EMW集团。2004年exascale计算应用数学研究。报告美国能源部科学办公室高级科学计算研究项目。
[6] IEEE计算机协会1985年IEEE二进制浮点运算标准,ANSI/IEEE标准754-1985。纽约州纽约市:电气和电子工程师协会。
[7] IEEE Computer Society 2008 IEEE浮点数算法标准,IEEE Std 754-2008(IEEE Std754-1985修订版)。纽约,纽约:IEEE计算机协会。
[8] Lichtenau C、Carlough S、Mueller SM。2016年IBM z13上的四精度浮点。2016年IEEE第23交响乐团。计算机算术(ARITH),加州圣克拉拉,第87-94页。
[9] Feldman M.2018 Intel为未来三款Xeon产品制定路线图。请参阅www.top500.org/news/intel-lays-out-roadmap-for-next-three-xeon-products/(2019年6月5日访问)。
[10] 英特尔公司。2018 BFLOAT16-硬件数字定义。白皮书。文件编号338302-001US。
[11] Rao N.2018超越CPU或GPU:为什么企业级人工智能需要更全面的方法。请参见https://newsroom.intel.com/editorials/artificial-intelligence-requires-holistic-approach(2018年11月5日访问)。
[12] Lutz DR.2019 ARM浮点2019:延迟、面积、功率。2019年IEEE第26交响乐团。《计算机算术(ARITH)》,日本京都,第97-98页。新泽西州皮斯卡塔韦:IEEE。
[13] Stephens N.2019 Armv8-A上神经网络的BFloat16处理https://community.arm.com/developer/ip-products/processors/b/ml-ip-blog/posts/bfloat16-processing-for-neural-networks-on-arv8_2d00_a(2019年10月14日访问)。
[14] Kurzak J,Dongarra J.2007在细胞处理器上求解线性方程组时混合精度的实现。并发计算。实际。专家。19, 1371-1385. (doi:10.1002/cpe.1164)·doi:10.1002/cpe.1164
[15] Gupta S、Agrawal A、Gopalakrishnan K、Narayanan P.2015有限数值精度的深度学习。程序中。第32届机器学习国际会议,JMLR:研讨会和会议记录,法国里尔,第37卷,第1737-1746页。
[16] Svyatkovskiy A、Kates-Harbeck J、Tang W.2017培训在GPU集群上以混合精度分布深层递归神经网络。在MLHPC’17中:程序。HPC环境中的机器学习,第10:1-10:8页。纽约州纽约市:ACM出版社。
[17] Langou J,Langou J.,Luszczek P,Kurzak J,Buttari A,Dongarra J.2006利用32位浮点算法在获得64位精度方面的性能(重新审视线性系统的迭代求精)。程序中。2006年佛罗里达州坦帕市ACM/IEEE超级计算大会。
[18] 新泽西州海姆Carson E。2017迭代精化的新分析及其在病态稀疏线性系统精确解中的应用。SIAM J.科学。计算。39,A2834-A2856。(doi:10.1137/17M1122918)·兹比尔1379.65019 ·doi:10.1137/17M1122918
[19] 新泽西州海姆Carson E。2018通过三种精度的迭代求精加速线性系统的求解。SIAM J.科学。计算。40,A817-A847。(doi:10.1137/17M1140819)·Zbl 1453.65067号 ·doi:10.1137/17M1140819
[20] Saad Y,Schultz MH.1986 GMRES:求解非对称线性系统的广义最小残差算法。SIAM J.科学。统计师。计算。7, 856-869. (doi:10.1137/0907058)·Zbl 0599.65018号 ·doi:10.1137/0907058
[21] 新泽西州海姆。2019年二精度和三精度标准和基于GMRES的迭代精化误差分析。英国曼彻斯特大学曼彻斯特数学科学研究所(http://eprints.maths.manchester.ac.uk/2735)
[22] Haidar A、Abdelfattah A、Zounon M、Wu P、Pranesh S、Tomov S、Dongarra J.2018a快速节能线性解算器的设计:半精度算法和迭代细化技术的潜力。《计算科学》2018(编辑:Y Shi、H Fu、Y Tian、VV Krzhizhanovskaya、MH Lees、J Dongarra、PMA Slot),第586-600页。瑞士查姆:施普林格国际出版公司。
[23] 新泽西州海姆市东加拉J区托莫夫S·海达尔A。2018b利用GPU张量核实现快速FP16算法以加快混合精度迭代优化求解器。程序中。高性能计算、网络、存储和分析国际会议(SC'18)(德克萨斯州达拉斯),第47:1-47:11页。美国新泽西州皮斯卡塔韦:IEEE出版社。
[24] Buck I.2019世界上最快的超级计算机将其性能记录提高了三倍。请参见https://blogs.nvidia.com/blog/2019/06/17/hpc-ai-performance-record-summit/(2019年6月24日访问)。
[25] Higham NJ,Pranesh S,Zounon M.2019将矩阵压缩为半精度,并应用于求解线性系统。SIAM J.科学。计算。第41页,A2536-A2551。(doi:10.1137/18M1229511)·Zbl 1420.65017号 ·doi:10.1137/18M1229511
[26] Higham NJ,Pranesh S.2019在求解对称正定线性系统和最小二乘问题中开发低精度算法。MIMS EPrint 2019.20英国曼彻斯特大学曼彻斯特数学科学研究所(http://eprints.maths.manchester.ac.uk/2736) ·Zbl 1467.65023号
[27] Carson E,Higham NJ,Pranesh S.在准备基于三精度GMRES的最小二乘问题迭代精化。英国曼彻斯特大学曼彻斯特数学科学研究所·Zbl 1461.65032号
[28] Tomov S,Nath R,Ltaief H,Dongarra J.2010使用GPU加速器的多核密集线性代数解算器。2010年IEEE国际研讨会。关于并行分布式进程。,研讨会和博士论坛(IPDPSW),佐治亚州亚特兰大,第1-8页。
[29] Dongarra JJ、Luszczek P、Tsai YM。HPL-AI混合精度基准。请参阅https://icl.bitbucket.io/hpl-ai/。
[30] 威尔金森JH。1961年矩阵反演直接方法的误差分析。J.协会计算。机器。8, 281-330. (doi:10.1145/321075.321076)·Zbl 0109.09005号 ·doi:10.1145/321075.321076
[31] 新泽西州海姆,玛丽·T·2019概率取整误差分析的新方法。SIAM J.科学。计算。41,A2815-A2835。(doi:10.1137/18M1226312)·Zbl 07123205号 ·doi:10.1137/18M1226312
[32] Blanchard P、Higham NJ、Lopez F、Mary T、Pranesh S.2019混合精度块融合乘法运算:误差分析及在GPU张量核中的应用。英国曼彻斯特大学曼彻斯特数学科学研究所(http://eprints.maths.manchester.ac.uk/2733) ·兹比尔1452.65425
[33] Hatfield S,Düben P,Chantry M,Kondo K,Miyoshi T,Palmer T,2018在存在模型误差的情况下选择数据同化的最佳数值精度。J.高级模型。地球系统。10, 2177-2191. (doi:10.1029/2018MS001341)·doi:10.1029/2018MS001341
[34] Palmer TN.2020《数值分析物理学:气候建模案例研究》。菲尔翻译。R.Soc.A 37820190058号。(doi:10.1098/rsta.2019.0058)·Zbl 1462.86010号 ·doi:10.1098/rsta.2019.0058
[35] TintóPrims O、Acosta MC、Moore AM、Castrillo M、Serradell K、Cortés A、Doblas-Reyes FJ.2019《如何在海洋模型中使用混合精度:探索NEMO 4.0和ROMS 3.6中数值精度的潜在降低。地球科学模型开发12,3135-3148。(doi:10.5194/gmd-12-3135-2019)·doi:10.5194/gmd-12-3135-2019年
[36] Yang K,Chen YF,Roumpos G,Colby C,Anderson J.2019 TPU集群上伊辛模型的高性能蒙特卡罗模拟。arXiv电子版,第15页。请参见http://arxiv.org/abs/11903.11714。
[37] Hopkins M,Mikaitis M,Lester DR,Furber S.2020求解神经常微分方程的随机四舍五入和降精度不动点算法。菲尔翻译。R.Soc.A 37820190052。(doi:10.1098/rsta.2019.0052)·Zbl 1462.65081号 ·doi:10.1098/rsta.2019.0052
[38] Tagliavini G,Mach S,Rossi D,Marongiu A,Benin L.2018超低功耗计算的超精密浮点平台。2018年欧洲设计、自动化和测试展览会(DATE),德国德累斯顿,第1051-1056页。
[39] Higham NJ,Pranesh S.2019模拟低精度浮点算法。SIAM J.科学。计算。41,C585-C602。(doi:10.1137/19M1251308)·Zbl 07124603号 ·doi:10.1137/19M1251308
[40] Wulf WA,McKee SA.1995《撞上记忆墙:显而易见的含义》。SIGARCH计算。阿奇特。新闻23,20-24。(doi:10.1145/216585.216588)·doi:10.1145/216585.216588
[41] Graham SL、Snir M、Patterson CA(编辑)。2005加速:超级计算的未来。华盛顿特区:国家学院出版社。
[42] Zimmer C、Atchley S、Pankajakshan R、Smith BE、Karlin I、Leininger ML、Bertsch A、Ryujin BS、Burmark J、Walker-Loud A、Clark MA、Pearce O。2019珊瑚互连评估。程序中。《高性能计算、网络、存储和分析国际会议》,SC'19第39:1-39:18页。纽约州纽约市:ACM。
[43] Barron DW,Swinnerton-Dyer HPF公司。1960使用磁性磁带存储求解联立线性方程。计算。期刊3,28-33。(doi:10.1093/comjnl/3.1.28)·Zbl 0091.29701号 ·doi:10.1093/comjnl/3.1.28
[44] Anderson E、Bai Z、Bischof C、Blackford S、Demmel J、Dongarra J、Croz JD、Greenbaum A、Hammarling S、McKenney A、Sorensen D.1999 LAPACK用户指南。宾夕法尼亚州费城:工业和应用数学学会·Zbl 0934.65030号
[45] Blackford LS、Choi J、Cleary A、D'Azevedo E、Demmel J、Dhillon I、Dongarra J、Hammarling S、Henry G、Petitet A、Stanley K、Walker D、Whaley RC。1997 ScaLAPACK用户指南。宾夕法尼亚州费城:工业和应用数学学会·Zbl 0886.65022号
[46] Dongarra J、Gates M、Haidar A、Kurzak J、Luszczek P、Wu P、Yamazaki I、Yarkhan A、Abalenkovs M、Bagherpour N、Hammarling S、Sy stek J、Stevens D、Zounon M、Relton SD。2019年PLASMA:使用OpenMP的多核并行线性代数软件。ACM事务处理。数学。软件45161-1635。(doi:10.1145/3264491)·Zbl 1471.65029号 ·doi:10.145/36244491
[47] Grigori L,Demmel J,Xiang H.2011 CALU:通信最优LU分解算法。SIAM J.矩阵分析。申请。32, 1317-1350. (doi:10.1137/100788926)·Zbl 1242.65089号 ·doi:10.1137/100788926
[48] Hong JW,Kung HT.1981 I/O复杂性:红蓝卵石游戏。在STOC'81中:程序。第13届ACM年会。《计算理论》,第326-333页。纽约州纽约市:ACM。
[49] Irony D,Toledo S,Tiskin A.2004分布记忆矩阵乘法的通信下限。J.平行分布计算。64, 1017-1026. (doi:10.1016/j.jpdc.2004.03.021)·Zbl 1114.68081号 ·doi:10.1016/j.jpdc.2004.03.021
[50] Demmel JW,Grigori L,Hoemmen M,Langou J.2008通信-避免并行和顺序QR和LU分解:理论和实践。技术报告UCB/EECS-2008-89加州大学伯克利分校EECS系。LAWN#204·Zbl 1241.65028号
[51] Ballard G,Demmel J,Holtz O,Schwartz O。2011线性代数中通信最小化。SIAM J.矩阵分析。申请。第3286-901页。(doi:10.1137/090769156)·Zbl 1246.68128号 ·doi:10.1137/090769156
[52] 大炮LE。1969年用于实现卡尔曼滤波算法的蜂窝计算机。蒙大拿州立大学博士论文。
[53] Demmel J,Grigori L,Gu M,Xiang H.2015沟通-避免暴露等级的QR分解。SIAM J.矩阵分析。申请。36, 55-89. (doi:10.1137/13092157X)·Zbl 1327.65078号 ·数字对象标识码:10.1137/13092157X
[54] Golub GH,Plemmons RJ,Sameh A.1988大规模最小二乘计算的并行块方案。《高速计算:科学应用和算法设计》(R.B Wilhelmson编辑),第171-179页。厄本纳和芝加哥,伊利诺伊州,美国:伊利诺伊大学出版社。
[55] Pothen A,Raghavan P.1989分布式正交分解:Givens和Householder算法。SIAM J.科学。统计计算。第101113-1134页。(doi:10.1137/0910067)·Zbl 0693.65031号 ·数字对象标识代码:10.1137/0910067
[56] Demmel JW,Grigori L,Hoemmen M,Langou J.2012通信优化并行和序列QR及LU分解。SIAM J.科学。计算。34, 206-239. 2008年技术报告UCB/EECS-2008-89的简短版本。(doi:10.1137/080731992)·Zbl 1241.65028号 ·doi:10.1137/080731992年
[57] Ballard G、Demmel J、Grigori L、Jacquelin M、Nguyen HD、Solomonik E.2014年从Tall-Skinny QR重建户主病媒。程序中。IEEE国际并行和分布式处理研讨会IPDPS,亚利桑那州凤凰城。
[58] Grigori L,David PY,Demmel J,Peyronnet S.,2010年简要声明:稀疏线性代数中直接方法的通信下限。程序中。ACM SPAA,希腊圣托里尼。
[59] Azad A,Ballard G,Buluc A,Demmel J,Grigori L,Schwartz O,Toledo S,Williams S.2016利用稀疏矩阵乘法中的多级并行性。SIAM J.科学。计算。38, 624-651. (doi:10.1137/15M104253X)·Zbl 1350.05160号 ·数字对象标识码:10.1137/15M104253X
[60] Hoemmen M.2010通信-避免Krylov子空间方法。博士论文,美国加州伯克利,AAI3413388。
[61] Carson E.2015通信——理论和实践中避免Krylov子空间方法。加州大学伯克利分校博士论文。
[62] Grigori L,Moufawad S,Nataf F.2016用于减少通信的扩大Krylov子空间共轭梯度方法。SIAM J.矩阵分析。申请。37, 744-773. (doi:10.1137/140989492)·Zbl 1382.65086号 ·数字对象标识代码:10.1137/140989492
[63] Grigori L,Tissot O.2019基于扩展Krylov子空间的可缩放线性解算器,动态减少搜索方向。SIAM J.科学。计算。41,C522-C547。(doi:10.1137/18M1196285)·Zbl 1425.65049号 ·doi:10.1137/18M1196285
[64] Christ M、Demmel J、Knight N、Scanlon T、Yelick KA。2013年参考阵列第1部分的程序的通信下限和优化算法。加州大学伯克利分校UCB/EECS-2013-61 EECS系技术报告。
[65] Devarakonda A,Fountoulakis K,Demmel J,Mahoney MW.2019避免原始和双块坐标下降法中的通信。SIAM J.科学。计算。41,C1-C27。(doi:10.1137/17M1134433)·Zbl 07010367号 ·doi:10.1137/17M1134433
[66] Das S、Demmel J、Fountoulakis K、Grigori L、Mahoney MW。2019平行和通信避免最小角度回归。CoRR.参见http://arxiv.org/abs/1905.11340。
[67] Solomonik E,Demmel J,Hoefler T.2017对称张量收缩双线性算法的通信下限。ArXiv电子打印·Zbl 1487.65051号
[68] Ballard G、Knight N、Rouse K,2018年矩阵化Tensor Times Khatri-Rao产品的通信下限。正在进行中。IEEE国际并行和分布式处理研讨会(IPDPS),加拿大温哥华,第557-567页。
[69] Greengard L,Rokhlin V.1987粒子模拟的快速算法。J.计算。物理学。73, 325-348. (doi:10.1016/0021-9991(87)90140-9)·Zbl 0629.65005号 ·doi:10.1016/0021-9991(87)90140-9
[70] Martinsson PG,Rokhlin V.2007一维加速核相关快速多极方法。SIAM J.科学。计算。29, 1160-1178. (doi:10.1137/060662253)·Zbl 1154.65318号 ·数字对象标识代码:10.1137/060662253
[71] Bebendorf M.2008层次矩阵。德国莱比锡:施普林格·Zbl 1151.65090号
[72] Börm S,Grasedyck L,Hackbusch W.2003层次矩阵。(www.researchgate.net/publication/277293203_Hierarchical_Matrices)·Zbl 1035.65042号
[73] Hackbusch W.2015层次矩阵:算法和分析,第3版。计算数学中的斯普林格级数。马里兰州巴尔的摩:斯普林格·Zbl 1336.65041号
[74] Keyes DE,Ltaief H,Turkiyyah G.2020层次结构上的层次算法。菲尔翻译。R.Soc.A 37820190055。(doi:10.1098/rsta.2019.0055)·Zbl 1462.65048号 ·doi:10.1098/rsta.2019.0055
[75] Eckart C,Young G.1936低秩矩阵的近似。《心理测量学》1,211-218。(doi:10.1007/BF02288367)·doi:10.1007/BF02288367
[76] Demmel J,Grigori L,Rusciano A.2019确定性和随机低秩矩阵近似的改进分析和统一观点。技术报告Inria。参见http://arxiv.org/abs/1910.00223。
[77] Parlett BN.1998对称特征值问题。美国宾夕法尼亚州费城:工业和应用数学学会。普伦蒂斯·霍尔(Prentice-Hall)于1980年首次出版的该书的未删节修订版·Zbl 0885.65039号
[78] Businger PA,Golub GH.1965 Householder变换的线性最小二乘解。数字。数学。7, 269-276. (doi:10.1007/BF01436084)·Zbl 0142.11503号 ·doi:10.1007/BF01436084
[79] Gu M,Eisenstat SC.1996计算强秩揭示QR分解的有效算法。SIAM J.科学。计算。17, 848-869. (doi:10.1137/0917055)·Zbl 0858.65044号 ·doi:10.1137/0917055
[80] Grigori L、Cayrols S、Demmel JW。2018年基于LU分解的稀疏矩阵的低秩近似,具有列和行锦标赛枢轴。SIAM J.科学。计算。40, 181-209. (doi:10.1137/16M1074527)·兹比尔1453.65090 ·doi:10.1137/16M1074527
[81] Halko N、Martinsson PG、Tropp JA。2011发现随机性结构:构建近似矩阵分解的概率算法。SIAM版本53217-288。(doi:10.1137/090771806)·Zbl 1269.65043号 ·数字对象标识代码:10.1137/090771806
[82] 半月形DP。2014年,素描作为数字线性代数的工具。已找到。趋势理论。计算。科学。10, 1-157. (doi:10.1561/0400000060)·Zbl 1316.65046号 ·doi:10.1561/0400000600
[83] Sarlos T.2006通过随机投影改进大矩阵近似算法。2006年第47届IEEE年度交响乐会。计算机科学基础(FOCS'06),加利福尼亚州伯克利,第143-152页。
[84] Grasedyck L,Kressner D,Tobler C.2013低阶张量近似技术的文献综述。GAMM-委员会36,53-78。(doi:10.1002/gamm.201310004)·Zbl 1279.65045号 ·doi:10.1002/gamm.201310004
[85] Hackbusch W.2012张量空间和数值张量演算,第42卷。德国柏林:施普林格科技与商业媒体·Zbl 1244.65061号
[86] Kolda TG,Bader BW.2009张量分解与应用。SIAM第51版,455-500。(doi:10.1137/07070111X)·Zbl 1173.65029号 ·doi:10.1137/07070111X
[87] de Silva V,Lim左侧。2008张量秩和最佳低秩近似问题的适定性。SIAM J.矩阵分析。申请。30, 1084-1127. (doi:10.1137/06066518X)·Zbl 1167.14038号 ·数字对象标识码:10.1137/06066518X
[88] Higham NJ,Mary T.2019通过LU分解求解块低阶线性系统在数值上是稳定的。英国曼彻斯特大学曼彻斯特数学科学研究所(网址:http://eprints.maths.manchester.ac.uk/2730/)
[89] Xi Y,Xia J.2016关于一些分层秩结构矩阵算法的稳定性。SIAM J.矩阵分析。申请。37, 1279-1303. (doi:10.1137/15M1026195)·Zbl 1348.65064号 ·doi:10.1137/15M1026195
[90] Dongarra J等人,2011年国际exascale软件项目路线图。国际高性能计算杂志。申请。25, 3-60. (doi:10.1177/1094342010391989)·doi:10.1177/1094342010391989
[91] 美国能源部,《2010年Exascale计算的机遇与挑战》。美国华盛顿特区科学办公室技术报告。
[92] Kothe D,Lee S,Qualters I.2019美国Exascale计算。计算。科学。工程21、17-29。(doi:10.1109/MCSE.2018.2875366)·doi:10.1010/MCSE.2018.2875366
[93] Kalbe G.2019欧洲应对exascale挑战的方法。计算。科学。工程21,42-47。(doi:10.1109/MCSE.2018.2884139)·doi:10.1109/MCSE.2018.2884139
[94] 钱德,栾总.2019中国高性能计算发展:简要回顾与展望。计算。科学。工程21,6-16。(doi:10.1109/MCSE.2018.2875367)·doi:10.1109/MCSE.2018年2875367
[95] Sorensen B.2019日本2020年旗舰计划“Post-K”系统。计算。科学。工程21,48-49。(doi:10.1109/MCSE.2018.2886646)·doi:10.1109/MCSE.2018.2886646
[96] Chazan D,Miranker W.1969混沌松弛。线性代数应用。2, 199-222. (doi:10.1016/0024-3795(69)90028-7)·Zbl 0225.65043号 ·doi:10.1016/0024-3795(69)90028-7
[97] 白求恩一世、公牛JM、新泽西丁格尔、新泽西海姆。2014年MPI、SHMEM和OpenMP中实现的异步Jacobi方法的性能分析。国际高性能计算杂志。申请。28, 97-111. (doi:10.177/1094342013493123)·doi:10.1177/109434204093123
[98] Chow E,Anzt H,Dongarra J.2015计算GPU上不完全因子分解的异步迭代算法。《高性能计算》(编辑:JM Kunkel,T Ludwig),第1-16页。瑞士查姆:斯普林格。
[99] Dongarra J、Gates M、Kurzak J、Luszczek P、Tsai YM。2018使用GPU硬件加速器进行批量计算的数字密集线性代数自动调整。程序。IEEE 106,2040-2055。(doi:10.1109/JPROC.2018.2868961)·doi:10.1109/JPROC.2018.2868961
[100] Whaley RC、Petitet A、Dongarra JJ。2001年软件和ATLAS项目的自动经验优化。并行计算。27, 3-35. (doi:10.1016/S0167-8191(00)00087-9)·Zbl 0971.68033号 ·doi:10.1016/S0167-8191(00)00087-9
[101] Bouteiller A,Herault T,Bosilca G,Du P,Dongarra J.2015基于算法的容错,用于密集矩阵分解、多次故障和准确性。ACM事务处理。并行计算。1, 10:1-10:28. (doi:10.1145/2686892)·doi:10.1145/2686892
[102] Baboulin M、Dongarra J、Herrmann J、Tomov S.2013使用随机化技术加速线性系统解决方案。ACM事务处理。数学。软件39,8:1-8:13。(doi:10.1145/2427023.247025)·Zbl 1295.65134号 ·数字对象标识代码:10.1145/2427023.2427025
[103] Mary T,Yamazaki I,Kurzak J,Luszczek P,Tomov S,Dongarra J.2015 GPU上计算稠密矩阵低阶近似的随机抽样性能。程序中。高性能计算、网络、存储和分析国际会议(SC'15),第60:1-60:11页。美国纽约州纽约市:ACM。
[104] HPC员工内部。2019年戈登·贝尔奖突出了人工智能的影响。参见https://insidehpc.com/2019/02/gordon-bell-prize-highlights-the-impact-of-ai网站/(2019年10月25日访问)。
[105] 2019年,Schulthess TC、Bauer P、Wedi N、Fuhrer O、Hoefler T、Schär C.反思exascale计算的目标和基线:基于天气和气候模拟的路线图。计算。科学。工程21,30-41。(doi:10.1109/MCSE.2018.2888788)·doi:10.1109/MCSE.2018.2888788
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。