×

BLIS:快速实例化BLAS功能的框架。 (英语) Zbl 1347.65054号


MSC公司:

65传真 数值线性代数
65-04 与数值分析有关的问题的软件、源代码等
65日元 数值算法的封装方法
65年20月 数值算法的复杂性和性能
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] R.Agarwal、F.Gustavson和M.Zubair。1994.利用POWER2的函数并行性来设计高性能的数值算法。IBM J.研究与开发。38, 5. ·数字对象标识代码:10.1147/rd.385.0563
[2] E.Agullo、H.Bouwmeester、J.Dongarra、J.Kurzak、J.Langou和L.Rosenberg,2011年。多核结构上对称正定矩阵的高效矩阵求逆。计算科学高性能计算(VECPAR 2010)。计算机科学讲义,第6449卷,斯普林格出版社,129-138·Zbl 1323.65022号 ·doi:10.1007/978-3-642-19328-6_14
[3] E.Agullo、J.Demmel、J.Dongarra、B.Hadri、J.Kurzak、J.Langou、H.Ltaief、P.Luszczek和S.Tomov。2009.新兴建筑的数值线性代数:等离子体和MAGMA项目。《物理学杂志》。会议系列180·doi:10.1088/1742-6596/180/1/012037
[4] AMD公司。2012.AMD核心数学库。http://developer.amd.com/tools/cpu/acml/pages/default.aspx。
[5] E.Anderson、Z.Bai、C.Bischof、L.S.Blackford、J.Demmel、J.J.Dongarra、J.D.Croz、S.Hammarling、A.Greenbaum、A.McKenney和D.Sorensen。1999年,LAPACK用户指南。工业和应用数学学会第三版,美国宾夕法尼亚州费城·Zbl 0934.65030号 ·数字对象标识代码:10.1137/1.9780898719604
[6] G.Belter、E.R.Jessup、I.Karlin和J.G.Siek。2009.自动生成组合线性代数内核。《高性能计算网络、存储和分析会议论文集》(SC'09)。59:1–59:12. ·数字对象标识代码:10.1145/1654059.1654119
[7] P.Bientinesi、J.A.Gunnels、M.E.Myers、E.S.Quintana-Ort;,和R.A.van de Geijn。2005.推导稠密线性代数算法的科学。ACM事务处理。数学。柔和。31, 1, 1–26. ·Zbl 1073.65036号
[8] J.Bilmes,K.Asanović,C.whye Chin和J.Demmel。1997.使用PHiPAC优化矩阵乘法:一种便携式、高性能的ANSI C编码方法。在超级计算国际会议记录中。
[9] C.Bischof和C.Van Loan。1987.Householder矩阵乘积的WY表示。SIAM J.科学。统计计算。8、1、s2–s13·Zbl 0628.65033号 ·doi:10.1137/0908009
[10] 2012年BLAS。网址:http://www.netlib.org/blas/。
[11] 2002年爆炸。基本线性代数子程序技术论坛标准。国际期刊高绩效应用。超级计算机。16, 1. ·Zbl 1070.65521号 ·数字对象标识代码:10.1177/109434020260160101
[12] E.Chan,E.S.Quintana-Ortí,G.金塔纳-奥尔特;,和R.van de Geijn。2007.SMP和多核架构的矩阵运算的SuperMatrix无序调度。第19届ACM算法和架构并行性研讨会论文集(SPAA'07)。ACM,纽约,116-125。
[13] E.Chan、F.G.Van Zee、P.Bientinesi、E.S.Quintana-Ort;,G.金塔纳-奥尔特;,和R.van de Geijn 2008。SuperMatrix:一个分块算法的多线程运行时调度系统。在ACM SIGPLAN并行编程原理与实践研讨会(PPoPP’08)上。ACM,纽约,123-132。
[14] J.Choi、J.J.Dongarra、R.Pozo和D.W.Walker。ScaLAPACK:分布式内存并发计算机的可扩展线性代数库。第四届大规模并行计算前沿研讨会论文集。IEEE计算机学会出版社,120-127·doi:10.1109/FMPC.1992.234898
[15] J.J.Dongarra、J.Du Croz、S.Hammarling和I.Duff。1990年。一组三级基本线性代数子程序。ACM事务处理。数学。柔和。16, 1, 1–17. ·Zbl 0900.65115号 ·数字对象标识代码:10.1145/77626.79170
[16] J.J.Dongarra、J.Du Croz、S.Hammarling和R.J.Hanson。1988年。FORTRAN基本线性代数子程序的扩展集。ACM事务处理。数学。柔和。14, 1, 1–17. ·Zbl 0639.65016号 ·数字对象标识代码:10.1145/42288.42291
[17] J.J.Dongarra、R.A.van de Geijn和R.C.Whaley。1993年。二维基本线性代数通信子程序。第六届SIAM科学计算并行处理会议论文集。
[18] K.Goto和R.van de Geijn。2008年a。高性能矩阵乘法剖析。ACM事务处理。数学。柔和。34,3,12:1–12:25·Zbl 1190.65064号
[19] K.Goto和R.van de Geijn。2008年b。三级BLAS的高性能实施。ACM事务处理。数学。柔和。35, 1, 1–14. ·数字对象标识代码:10.1145/1377603.1377607
[20] J.A.Gunnels、F.G.、Gustavson、G.M.Henry和R.A.van de Geijn。2001年a。FLAME:形式化线性代数方法环境。ACM事务处理。数学。柔和。27,422-455之间·Zbl 1070.65522号 ·数字对象标识代码:10.1145/504210.504213
[21] J.A.Gunnels、G.M.Henry和R.A.van de Geijn。2001年b。一系列高性能矩阵乘法算法。《国际计算科学会议论文集》(ICCS 2001),第一部分,V.N.Alexandrov、J.J.Dongarra、B.A.Juliano、R.S.Renner和C.K.Tan,Eds.,计算机科学讲义,第2073卷,Springer-Verlag,51-60·兹比尔0982.68505 ·doi:10.1007/3-540-45545-0_15
[22] J.A.Gunnels和R.A.van de Geijn。2001.高性能线性代数库的形式化方法。《科学软件体系结构》,R.F.Boisvert和P.T.P.Tang主编,Kluwer学术出版社,193-210年·数字对象标识代码:10.1007/978-0-387-35407-1_12
[23] G.W.Howell、J.W.Demmel、C.T.Fulton、S.Hammarling和K.Marmol。2008.使用BLAS 2.5运算符缓存高效的双对角化。ACM事务处理。数学。软件34,3,14:1–14:33·Zbl 1190.65056号
[24] K.Huang和J.Abraham。1984.基于算法的矩阵运算容错。IEEE传输。计算。33, 6, 518–528. ·Zbl 0557.68027号 ·doi:10.1109/TC.1984.1676475
[25] IBM。2012.工程和科学子程序库。http://www.ibm.com/systems/software/essl/。
[26] 英特尔。2012.数学内核库。http://developer.intel.com/software/products/mkl/。
[27] T.Joffrain,T.M.Low,E.S.Quintana-Ortí,R.van de Geijn和F.van Zee。2006年,《累积户主转变》,重温。ACM事务处理。数学。柔和。32,2169-179·Zbl 1365.65106号
[28] B.Kågström、 P.Ling和C.V.贷款。1998年。基于GEMM的3级BLAS:高性能模型实施和性能评估基准。ACM Trans。数学。柔软。24, 3, 268–302. ·Zbl 0930.65047号
[29] C.L.Lawson、R.J.Hanson、D.R.Kincaid和F.T.Krogh。1979年。Fortran使用的基本线性代数子程序。ACM事务处理。数学。柔和。第5页,第308-323页·Zbl 0412.65022号 ·数字对象标识代码:10.1145/355841.355847
[30] B.Marker、J.Poulson、D.Batory和R.van de Geijn。2012.通过转换设计线性代数算法:使专家开发人员机械化。《VECPAR会议论文集:自动性能调整国际研讨会》(iWAPT2012)。
[31] C.Moler、J.Little和S.Bangert。1987.Pro-Matlab,用户指南。The Mathworks公司。
[32] OpenBLAS 2012。http://xianyi.github.com/OpenBLAS/。
[33] A.Pedram、A.Gerstlauer和R.A.van de Geijn。2012年a。数据并行硬件加速器中集体通信的寄存器文件与广播互连的效率。《计算机体系结构与高性能计算国际研讨会论文集》,19-26·doi:10.1109/SBAC-PAD.2012.35
[34] A.Pedram、R.A.van de Geijn和A.Gerstalauer。2012年b。为高性能、低功耗线性代数体系结构进行代码设计权衡。IEEE传输。计算。61, 12, 1724–1736. ·Zbl 1365.65315号 ·doi:10.1109/TC.2012.132
[35] J.Poulson、B.Marker、R.A.van de Geijn、J.R.Hammond和N.A.Romero。2013.Elemental:分布式内存密集矩阵计算的新框架。ACM事务处理。数学。柔和。39, 2, 13:1–13:24. ·Zbl 1295.65137号
[36] M.Püschel、J.M.F.Moura、J.Johnson、D.Padua、M.Veloso、B.Singer、J.Xiong、F.Franchetti、A.Gacic、Y.Voronenko、K.Chen、R.W.Johnson和N.Rizzolo。2005.SPIRAL:DSP转换的代码生成。程序。IEEE,《程序生成、优化和改编专刊》93、2、232–275。
[37] G.金塔纳-奥尔特;,E.S.金塔纳·奥尔特í,R.A.van de Geijn、F.G.van Zee和E.Chan。2009.线程级并行的逐块编程矩阵算法。ACM事务处理。数学。柔和。36, 3, 14:1–14:26. ·Zbl 1364.65105号
[38] M.D.Schatz、T.M.Low、R.A.van de Geijn和T.G.Kolda。2014.利用张量的对称性与对称张量进行高性能乘法。SIAM J.科学。计算。36、5、C453–C479·Zbl 1307.65057号 ·doi:10.1137/130907215
[39] R.Schreiber和C.Van贷款。1989年,Householder转换产品的存储效率WY表示。SIAM J.科学。统计计算。10, 1, 53–57. ·兹比尔0664.65025 ·数字对象标识代码:10.1137/0910005
[40] J.G.Siek、I.Karlin和E.R.Jessup。2008.按顺序构建线性代数内核。在2008年并行和分布式处理国际研讨会(IPDPS 2008)上进行。1–8·doi:10.1109/IPDPS.2008.4536183
[41] T.M.Smith、R.A.van de Geijn、M.Smelyanskiy。J.R.Hammond和F.G.Van Zee。2014.高性能多线程矩阵乘法剖析。第28届国际并行与分布式处理研讨会(IPDPS)论文集。IEEE计算机学会出版社,1049–1059·doi:10.1109/IPDPS.2014.110
[42] E.Solomonik、J.Hammond和J.Demmel。2014年,《Cyclops Tensor框架的初步分析》,技术代表UCB/EECS-2012-29,加州大学伯克利分校EECS系。
[43] R.A.van de Geijn先生。1997.使用PLAPACK:并行线性代数包。麻省理工学院出版社。
[44] R.A.van de Geijn和E.S.Quintana-Ort;。2008年。编程矩阵计算科学。www.lulu.com。
[45] F.G.Van Zee。2012年,libflame:完整参考。www.lulu.com。
[46] F.G.Van Zee、E.Chan、R.Van de Geijn、E.S.Quintana-Ort;,和G.Quintana-Ort;。2009。用于密集矩阵计算的libflame库。IEEE计算。科学。工程11、6、56–62。
[47] F.G.Van Zee、T.Smith、F.D.Igual、M.Smelyanskiy、X.Zhang、M.Kistler、V.Austel、J.Gunnels、T.M.Low、B.Marker、L.Killough和R.A.Van de Geijn。2013年,利用BLIS实施三级BLAS:早期经验,FLAME工作说明#69。德克萨斯大学奥斯汀分校计算机科学系技术代表TR-13-03。出现在ACM TOMS中。
[48] F.G.Van Zee、R.A.Van de Geijn和G.Quintana-Ort;。2014.重组三对角和双对角QR算法以提高性能。ACM事务处理。数学。柔软。40,3(2014),第18条·兹比尔1322.65051
[49] F.G.Van Zee、R.A.Van de Geijn、G.Quintana Ort等人;,和G.J.Elizondo。2012.将矩阵简化为压缩形式的算法系列。ACM Trans。数学。柔和。39, 1, 2:1–2:32. ·Zbl 1295.65052号
[50] V.Volkov和J.Demmel。2008年。使用GPU的矢量功能进行LU、QR和Cholesky因子分解。加州大学伯克利分校EECS系技术代表UCB/EECS-2008-49。
[51] R.C.Whaley和J.J.Dongarra。1998年。自动调整线性代数软件。SC'98会议记录·doi:10.1109/SC.1998.10004
[52] K.Yotov,X.Li,M.J.Garzarán、 D.Padua、K.Pingali和P.Stodghill。2005.搜索是否真的有必要生成高性能BLAS?程序。IEEE,关于程序生成、优化和改编的专刊93,2。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。