×

作为快速矩阵乘法的实用工具的聚合和消除技术。 (英语) Zbl 1057.65020号

摘要:本文的主要目的是提出一种快速矩阵乘法算法,该算法取自J.Laderman、V.Pan、和X.-H.Sha公司[线性代数应用162-16457-588(1992;Zbl 0748.65043号)]以精练紧凑的“分析”形式,并证明它可以作为非常有效的计算机代码实现。我们改进的表示法使我们能够大大简化算法及其计算机实现的计算复杂性和数值稳定性的分析。该算法使用O(N^{2.7760})算术运算将两个(N乘以N)矩阵相乘。在(N=18\cdot 48^k)的情况下,对于一个正整数(k),算法所需的浮点总数为(4.894N^{2.7760}-16.165N^2),这可以与Winograd算法的类似估计值相比较,(3.732N^{2.8074}-5N^2)flops,(N=8\cdot 2^k),后者是所有已知实用算法中的当前记录边界。此外,我们提出了该算法的伪代码,该伪代码证明了其非常适度的工作内存需求,远小于Strassen和Winograd算法的最佳可用实现。对于中等大小的矩阵(例如,(2000)leqsleat N<10000),我们考虑一级算法,并将其与(多级)Strassen和Winograd算法进行比较。数值测试的结果清楚地表明,我们实现两个或三个不相交乘积算法的加速矩阵乘法例程在计算时间上与Winograd算法的实现相当,并且在工作空间和(特别是)数值稳定性方面明显优于它。对高达7000级的矩阵进行了测试,包括双精度和单精度。

MSC公司:

65楼30 其他矩阵算法(MSC2010)
65年20月 数值算法的复杂性和性能
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Aho,A.V。;霍普克罗夫特,J.E。;Ullman,J.D.,《计算机算法的设计与分析》(1974),艾迪森·韦斯利:艾迪森·韦斯利阅读,马萨诸塞州·Zbl 0207.01701号
[2] Akutsu,I。;宫野,S。;Kuhara,S.,《基于矩阵乘法和指纹函数识别布尔网络和相关生物网络的算法》,J.Compute。《生物学》,第7期,第331-343页(2000年)
[3] Bailey,D.H.,Cray-2上的超高速矩阵乘法,SIAM J.Sci。统计计算。,9, 3, 603-607 (1988) ·Zbl 0644.65030号
[4] 基本线性代数子程序,http://www.netlib.org/blas/dmr; 基本线性代数子程序,http://www.netlib.org/blas/dmr ·Zbl 0412.65022号
[5] T.Biedl,B.Brejova,E.D.Demaine,A.M.Hamel,T.Vinar,代表基因表达数据层次聚类的树中树叶的最佳排列,技术报告2001-14,滑铁卢大学计算机科学系,第12页。;T.Biedl,B.Brejova,E.D.Demaine,A.M.Hamel,T.Vinar,代表基因表达数据层次聚类的树中树叶的最佳排列,技术报告2001-14,滑铁卢大学计算机科学系,第12页。
[6] 比尼,D。;Lotti,G.,矩阵乘法快速算法的稳定性,数值。数学。,36, 63-72 (1980) ·Zbl 0431.65024号
[7] R.P.Brent,矩阵乘法算法,报告TR-CS-70-157,斯坦福大学计算机科学系,1970年3月,52页。;R.P.Brent,矩阵乘法算法,报告TR-CS-70-157,斯坦福大学计算机科学系,1970年3月,52页·Zbl 0193.11902号
[8] 科恩,E。;Lewis,D.,模式识别任务的近似矩阵乘法,J.Algorithms,30,211-252(1999),(SODA’97精选论文特刊)·Zbl 0923.68110号
[9] Coppersmith博士。;Winograd,S.,《通过算术级数进行矩阵乘法》,J.符号计算。,9, 3, 251-280 (1990) ·Zbl 0702.65046号
[10] Demmel,J.W。;Higham,N.J.,具有快速3级BLAS的块算法的稳定性,ACM Trans。数学。柔软。,18, 3, 274-291 (1992) ·Zbl 0892.65016号
[11] J.J.Dongarra,P.Mayes,Giuseppe Radicati di Brozolo,《IBM RISC System/6000和线性代数操作》,田纳西大学计算机科学技术报告:CS-90-1221990。;J.J.Dongarra,P.Mayes,Giuseppe Radicati di Brozolo,《IBM RISC System/6000和线性代数操作》,田纳西大学计算机科学技术报告:CS-90-1221990年。
[12] C.C.道格拉斯。;赫鲁,M。;斯利什曼,G。;Smith,R.M.,GEMMWa便携式3级BLAS Winograd变体,Strassen矩阵矩阵乘法算法,J.Compute。物理。,110, 1-10 (1994) ·Zbl 0793.65031号
[13] Higham,N.,《利用3级BLAS中的快速矩阵乘法》,ACM Trans。数学。柔软。,16, 4, 352-368 (1990) ·Zbl 0900.65118号
[14] Higham,N.,《数值算法的准确性和稳定性》(1996),SIAM出版物:费城SIAM出版物·Zbl 0847.65010号
[15] 霍普克罗夫特,J.E。;Ullman,J.D.,《自动机理论、语言和计算导论》(1979),Addison-Wesley:Addison-Whesley Reading,MA·Zbl 0196.01701号
[16] 黄,X。;Pan,V.Y.,快速矩形矩阵乘法及其应用,J.Complexity,14,257-299(1998)·Zbl 0919.65030号
[17] S.Huss-Lederman、E.M.Jacobson、J.R.Johnson、A.Tsao、T.Turnbull,斯特拉森算法的便携式实现(DGEFMM用户指南),威斯康星大学麦迪逊分校计算机科学系。威斯康星州麦迪逊,1996年11月12日。;S.Huss-Lederman、E.M.Jacobson、J.R.Johnson、A.Tsao、T.Turnbull,斯特拉森算法的便携式实现(DGEFMM用户指南),威斯康星大学麦迪逊分校计算机科学系。威斯康星州麦迪逊,1996年11月12日。
[18] 卡波林,I.,快速矩阵乘法的实用算法,数值。线性代数应用。,6, 687-700 (1999) ·Zbl 0982.65048号
[19] Laderman,J。;潘,V.Y。;Sha,X.-H.,关于加速矩阵乘法的实用算法,线性代数应用。,162-164, 557-588 (1992) ·Zbl 0748.65043号
[20] Pan,V.Y.,矩阵乘积和逆矩阵的计算方案(俄语),Uspekhi Mat.Nauk。,27, 5, 249-250 (1972) ·Zbl 0261.65025号
[21] Pan,V.Y.,矩阵乘法加速方法的新组合,计算。数学。申请。,7, 73-125 (1981) ·Zbl 0465.68019号
[22] 潘,V.Y.,我们如何加快矩阵乘法?,SIAM版本,26、3、393-415(1984)·Zbl 0563.65028号
[23] V.P.Pauca,X.Sun,S.Chatterjee,A.R.Lebeck,建筑效率Strassen的矩阵乘法:分治算法的案例研究,Proc。ILAS交响乐团。,1997年6月,或技术报告CS-1998-06,杜克大学计算机科学系,达勒姆,1998年5月,16页。;V.P.Pauca,X.Sun,S.Chatterjee,A.R.Lebeck,建筑高效Strassen矩阵乘法:分治算法的案例研究,Proc。ILAS交响乐团。,1997年6月,或技术报告CS-1998-06,杜克大学计算机科学系,达勒姆,1998年5月,16页。
[24] C.Pernet,使用ATLAS Level3 BLAS在有限域上实现Winograd算法,技术报告,Laboratoire Informatique et Distribution,ENISMAG,Montbonnot Saint Martin,法国,2001年7月,第23页,http://www-id.imag.fr/Apache/RR/RR011122FFLAS.ps.gz; C.Pernet,使用ATLAS Level3 BLAS在有限域上实现Winograd算法,技术报告,Laboratoire Informatique et Distribution,ENISMAG,法国蒙博诺-圣马丁,2001年7月,第23页,http://www-id.imag.fr/Apache/RR/RR011122FFLAS.ps.gz
[25] 斯特拉森,V.,高斯消去不是最优的,数值。数学。,13, 354-356 (1969) ·Zbl 0185.40101号
[26] M.Thottlehodi,S.Chatterjee,A.R.Lebeck,调节Strassen矩阵乘法以提高内存效率,Proc。1998年11月的超级计算。;M.Thottlehodi,S.Chatterjee,A.R.Lebeck,调节Strassen矩阵乘法以提高内存效率,Proc。1998年11月的超级计算。
[27] Valiant,L.G.,《不到立方时间的一般上下文无关识别》,J.Compute。系统科学。,10, 308-315 (1975) ·Zbl 0312.68042号
[28] R.C.惠利。;佩蒂特,A。;Dongarra,J.J.,软件和ATLAS项目的自动经验优化,并行计算。,27, 1-2, 3-35 (2001) ·Zbl 0971.68033号
[29] U.Zwick,加权有向图中的所有对最短路径-精确和不精确算法,Proc。第39届安交响乐团。《计算机科学基础》(FOCS’98),IEEE计算机社会出版社,加利福尼亚州洛斯阿拉莫斯,1998年,第310-319页。;U.Zwick,加权有向图中的所有对最短路径-精确和不精确算法,Proc。第39届安交响乐团。《计算机科学基础》(FOCS’98),IEEE计算机社会出版社,加利福尼亚州洛斯阿拉莫斯,1998年,第310-319页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。