×

通过1M方法实现高性能复数矩阵乘法。 (英语) Zbl 1452.65087号

摘要:几乎所有优化高性能矩阵-矩阵乘法的工作都集中在矩阵包含实数元素的情况下。社区的集体假设似乎是,为实际领域开发的技术和方法直接延续到复杂领域。因此,实现者大多忽略了一类仅使用实矩阵乘积计算复杂矩阵乘法的方法。这是研究这些所谓诱导方法的系列文章中的第二篇。在前一篇文章中,我们发现基于这两种方法中更普遍适用的算法——4方法&由于各种原因,导致实现的性能往往低于其实际领域对应的实现。为了克服这些限制,我们得出了一个更好的1表示复数矩阵乘法的方法,该方法几乎解决了4中固有的所有缺点实现是在BLIS框架内开发的,三家供应商对微体系结构的测试证实了1该方法产生的性能通常与基于传统实现的复杂内核的解决方案具有竞争力,有时甚至优于供应商库。

MSC公司:

65层99 数值线性代数
6504年 计算机算术的数值算法等。
65-04 与数值分析有关的问题的软件、源代码等
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] J.J.Dongarra、J.Du Croz、S.Hammarling和I.Duff,一组level\textup3基本线性代数子程序,ACM Trans。数学。软件,第16期(1990年),第1-17页·Zbl 0900.65115号
[2] G.Frison、D.Kouzoupis、T.Sartor、A.Zanelli和M.Diehl,BLASFEO:嵌入式优化的基本线性代数子程序,ACM Trans。数学。软件,44(2018),42,https://doi.org/10.1145/3210754。 ·Zbl 1484.65096号
[3] K.Goto和R.A.van de Geijn,《高性能矩阵乘法剖析》,ACM Trans。数学。软件,34(2008),12,https://doi.org/10.1145/1356052.1356053。 ·Zbl 1190.65064号
[4] K.Goto和R.A.van de Geijn,三级BLAS的高性能实施,ACM Trans。数学。软件,35(2008),4,https://doi.org/10.1145/1377603.1377607。
[5] J.A.Gunnels、G.M.Henry和R.A.van de Geijn,《高性能矩阵乘法算法家族》,载于《国际计算科学会议论文集——第一部分》(ICCS’01),斯普林格·弗拉格,柏林,海德堡,2001年,第51-60页,https://doi.org/10.1007/3-540-45545-0_15。 ·兹比尔0982.68505
[6] N.J.Higham,复数矩阵乘三次实矩阵乘法方法的稳定性,SIAM J.matrix Ana。申请。,13(1992年),第681-687页,https://doi.org/10.1137/0613043。 ·Zbl 0777.65027号
[7] J.Huang,实用快速矩阵乘法算法,博士论文,德克萨斯州奥斯汀市德克萨斯大学,2018年。
[8] J.Huang、D.A.Matthews和R.A.van de Geijn,Strassen张量收缩算法,SIAM J.Sci。计算。,40(2018),第C305-C326页,https://doi.org/10.1137/17M1135578。 ·Zbl 1416.65117号
[9] J.Huang、L.Rice、D.A.Matthews和R.A.van de Geijn,生成实用快速矩阵乘法算法家族,第31届IEEE国际并行与分布式处理研讨会(IPDPS 2017)会议记录,2017年,第656-667页,https://doi.org/10.109/IPDPS.2017.56。
[10] J.Huang、T.M.Smith、G.M.Henry和R.A.van de Geijn,Strassen算法重新加载,《IEEE高性能计算、网络、存储和分析国际会议论文集》(SC'16),新泽西州皮斯卡塔韦,2016,59,https://doi.org/10.109/SC.2016.58。
[11] J.Huang、C.D.Yu和R.A.van de Geijn,在NVIDIA Volta GPU上用CUTLASS实现Strassen算法,FLAME工作说明#88,TR-18-08,德克萨斯州奥斯汀市德克萨斯大学计算机科学系,2018年,https://apps.cs.utexas.edu/apps/sites/default/files/tech_reports/GPUStrassen.pdf。
[12] 英特尔,数学内核库,https://software.intel.com/en-us/mkl, 2019.
[13] 英特尔公司,《英特尔64与IA-32体系结构优化参考手册》,编号248966-033,2016年6月。
[14] Intel Corporation,Intel Xeon Processor E5 v3 Product Family:Processor Specification Update,编号330785-010US,2016年9月。
[15] T.M.Low、F.D.Igual、T.M.Smith和E.S.Quintana-Orti©,分析建模对于高性能BLIS、ACM Trans来说已经足够了。数学。软件,43(2016),12,https://doi.org/10.1145/2925987。 ·兹比尔1369.65200
[16] OpenBLAS、,http://xianyi.github.com/OpenBLAS/, 2019.
[17] D.T.Popovici、F.Franchetti和T.M.Low,向量化复数算法的混合数据布局内核,《2017 IEEE高性能极限计算会议(HPEC)论文集》,2017年,第1-7页,https://doi.org/10.109/HPEC.2017.8091024。
[18] T.M.Smith、R.A.van de Geijn、M.Smelyanskiy、J.R.Hammond和F.G.van Zee,《高性能多线程矩阵乘法剖析》,第28届IEEE国际并行与分布式处理研讨会(IPDPS’14)论文集,华盛顿特区,2014年,第1049-1059页,https://doi.org/10.109/IPDPS.2014.110。
[19] F.G.Van Zee,通过1M方法诱导复矩阵乘法,FLAME工作说明#85,TR-17-03,德克萨斯州奥斯汀市德克萨斯大学计算机科学系,2017年。
[20] F.G.Van Zee、T.Smith、F.D.Igual、M.Smelyanskiy、X.Zhang、M.Kistler、V.Austel、J.Gunnels、T.M.Low、B.Marker、L.Killough和R.A.Van de Geijn,BLIS框架:便携性实验,ACM Trans。数学。软件,42(2016),12,https://doi.org/10.1145/2755561。
[21] F.G.Van Zee和T.M.Smith,通过3M和4M方法实现高性能复数矩阵乘法,ACM Trans。数学。软件,44(2017),7·Zbl 1484.65093号
[22] F.G.Van Zee和R.A.Van de Geijn,BLIS:快速实例化BLAS功能的框架,ACM Trans。数学。软件,41(2015),14,https://doi.org/10.1145/2764454。 ·Zbl 1347.65054号
[23] R.C.Whaley、A.Petitet和J.J.Dongarra,软件自动经验优化和ATLAS项目,并行计算。,27(2001),第3-35页,https://doi.org/10.1016/S0167-8191(00)00087-9. ·Zbl 0971.68033号
[24] C.D.Yu、J.Huang、W.Austin、B.Xiao和G.Biros,x86体系结构上k近邻内核的性能优化,《ACM高性能计算、网络、存储和分析国际会议论文集》(SC'15),纽约,2015年7月,https://doi.org/10.1145/2807591.2807601。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。