摘要
Anderson,E.,Bai,Z.,Bischof,C.,Dongarra,J.D.J.,DuCroz,J.,Greenbaum,A.,Hammarling,S.,McKenney,A.,Ostrouchov,S.和Sorensen,D.1995年。 LAPACK用户指南,2.0版,第二版SIAM。, 宾夕法尼亚州费城。 谷歌学者 数字图书馆 Bilardi,G.、D’Alberto,P.和Nicolau,A.,2001年。 分形矩阵乘法:缓存性能可移植性的案例研究。 算法工程研讨会论文集(丹麦奥胡斯)。 谷歌学者 数字图书馆 Bilmes,J.、Asanovic,K.、Chin,C.和Demmel,J.1997年。 使用PHiPAC优化矩阵乘法:一种便携式、高性能、Ansi C编码方法。 在超级计算年度国际会议记录中。 谷歌学者 数字图书馆 Blackford,L.S.、Demmel,J.、Dongarra,J.,Duff,I.、Hammarling,S.、Henry,G.、Heroux,M.、Kaufman,L.、Lumsdaine,A.、Petitet,A.、Pozo,R.、Remington,K.和Whaley,R.C.,2002年。 一组更新的基本线性代数子程序(BLAS)。 ACM事务处理。 数学。 柔和。 28, 2, 135--151. 谷歌学者 数字图书馆 Brent,R.P.1970年a。 矩阵乘法算法。 技术代表TR-CS-70-157。 斯坦福大学,加利福尼亚州斯坦福。 谷歌学者 数字图书馆 布伦特,R.P.1970b。 基于Winograd恒等式的矩阵乘法和三角分解算法的误差分析。 数字。 数学。 16, 145--156. 谷歌学者 数字图书馆 Chatterjee,S.R.A.、Patnala,P.和Thottethoddi,M.,2002年。 递归数组布局和快速矩阵乘法。 IEEE传输。 帕拉尔。 分销系统。 13, 11, 1105--1123. 谷歌学者 数字图书馆 Cohn,H.、Kleinberg,R.、Szegedy,B.和Umans,C.,2005年。 矩阵乘法的群论算法。 第46届IEEE计算机科学基础研讨会论文集379-388。 谷歌学者 数字图书馆 Coppersmith,D.和Winograd,S.1987年。 通过算术级数进行矩阵乘法。 第19届ACM计算机理论年会论文集。 1--6. 谷歌学者 数字图书馆 D’Alberto,P.和Nicolau,A.2005a。 Adaptive Strassen和ATLAS的DGEMM:现代高性能系统的快速平方矩阵乘法。 第八届亚太地区高性能计算国际会议论文集。 (中国北京)。 45--52. 谷歌学者 数字图书馆 D’Alberto,P.和Nicolau,A.2005年b。 使用递归提高ATLAS的性能。 第六届高性能计算国际研讨会(ISHPC-VI)论文集。 谷歌学者 数字图书馆 D’Alberto,P.和Nicolau,A.2007年。 自适应斯特拉森矩阵乘法。 第21届超级计算国际年会论文集。 ACM,纽约州纽约市,284-292。 谷歌学者 数字图书馆 Demmel,J.、Dongarra,J.,Eijkhout,E.、Fuentes,E.、Petitet,E.、Vuduc,V.、Whaley,R.和Yelick,K.,2005年。 自适应线性代数算法和软件。 在IEEE会议录中,关于“程序生成、优化和适配”的专刊,第93卷。 2 谷歌学者 Demmel,J.、Dumitriu,J.,Holtz,O.和Kleinberg,R.,2006年。 快速矩阵乘法是稳定的。 数字。 数学。 106, 2, 199--224. 谷歌学者 数字图书馆 Demmel,J.和Higham,N.1992年。 具有快速3级BLAS的块算法的稳定性。 ACM事务处理。 数学。 柔和。 18274-291。 谷歌学者 数字图书馆 Dongarra,J.J.、Croz,J.D.、Duff,I.S.和Hammarling,S.1990b。 算法679:一组三级基本线性代数子程序。 ACM事务处理。 数学。 柔和。 16, 18--28. 谷歌学者 数字图书馆 Dongarra,J.J.、Croz,J.D.、Duff,I.S.和Hammarling,S.,1990年a。 一组三级基本线性代数子程序。 ACM事务处理。 数学。 柔和。 16, 1--17. 谷歌学者 数字图书馆 Douglas,C.、Heroux,M.、Slishman,G.和Smith,R.,1994年。 GEMMW:Strassen矩阵的可移植3级BLAS Winograd变体——矩阵乘法算法。 J.公司。 物理学。 110, 1--10. 谷歌学者 数字图书馆 Eiron,N.、Rodeh,M.和Steinwarts,I.1998年。 矩阵乘法:算法工程的案例研究。《WAE’98会议录》(德国萨尔布吕肯)。 谷歌学者 Frens,J.和Wise,D.1997年。 源代码中的自动块矩阵乘法或跟踪BLAS3性能。 1997年ACM并行编程原理与实践研讨会论文集32,206-216。 谷歌学者 数字图书馆 Frigo,M.和Johnson,S.2005年。 FFTW3的设计与实现。 程序中。 IEEE(“程序生成、优化和适配”专刊)93,2,216--231。 谷歌学者 Goto,K.和van de Geijn,R.2008。 高性能矩阵乘法剖析。 ACM事务处理。 数学。 柔和。 34, 3, 1--25. 谷歌学者 数字图书馆 Grayson,B.、Shah,A.P.和van de Geijn,R.1995年。 高性能并行Strassen实现。 技术代表CS-TR-95-24。 1.德克萨斯大学奥斯汀分校。 谷歌学者 数字图书馆 Gunnels,J.、Gustavson,F.、Henry,G.和van de Geijn,R.,2001年。 FLAME:形式化线性代数方法环境。 ACM事务处理。 数学。 柔和。 27、4(12月)、422--455。 谷歌学者 数字图书馆 海姆,N.1990。 利用3级BLAS中的快速矩阵乘法。 ACM事务处理。 数学。 柔和。 16, 4, 352--368. 谷歌学者 数字图书馆 海姆,N.2002。 数值算法的准确性和稳定性,第二版,SIAM,宾夕法尼亚州费城。 谷歌学者 数字图书馆 Huss Lederman,S.、Jacobson,E.、Johnson,J.、Tsao,A.和Turnbull,T.,1996年A。 斯特拉森的矩阵乘法算法:建模、分析和实现。 技术代表CCS-TR-96-14。 威斯康星州麦迪逊市威斯康星大学计算科学中心。 谷歌学者 Huss-Lederman,S.、Jacobson,E.、Tsao,A.、Turnbull,T.和Johnson,J.1996b。 矩阵乘法Strassen算法的实现。 在1996年ACM/IEEE超级计算会议(CDROM)的会议记录中。 ACM出版社,纽约州纽约市。 谷歌学者 数字图书馆 Kagstrom,B.、Ling,P.和van Loan,C.1998a。 算法784:基于GEMM的第3级BLAS:可移植性和优化问题。 ACM事务处理。 数学。 柔和。 9月24日、3日、303--316日。 谷歌学者 数字图书馆 Kagstrom,B.、Ling,P.和van Loan,C.1998b。 基于GEMM的3级BLAS:高性能模型实施和性能评估基准。ACM Trans。 数学。 柔和。 第24、3(9月)、268--302页。 谷歌学者 数字图书馆 卡波林,I.1999。 一种实用的快速矩阵乘法算法。 数字。 线性代数。 申请。 6, 8, 687--700. 超级计算机和大规模并行应用中心,俄罗斯科学院计算中心,Vavilova 40,Moscow 117967,Russia。 谷歌学者 交叉引用 卡波林,I.2004。 聚合和消除技术是一种用于更快矩阵乘法的实用工具。 理论。 计算。 科学。 315, 2-3, 469--510. 谷歌学者 数字图书馆 Lawson,C.L.、Hanson,R.J.、Kincaid,D.和Krogh,F.T.,1979年。 FORTRAN使用的基本线性代数子程序。 ACM事务处理。 数学。 柔和。 5, 308--323. 谷歌学者 数字图书馆 Li,X.,Garzaran,M.和Padua,D.,2005年。 用遗传算法优化排序。 代码生成和优化国际研讨会论文集。 99--110. 谷歌学者 数字图书馆 Nguyen,D.、I.Lavalley、M.Bui和Q.Ha。 2005.分布式存储计算机上快速矩阵乘法算法的通用可扩展实现。 第六届软件工程、人工智能、网络和并行/分布式计算国际会议论文集和第一届ACIS自组装无线网络国际研讨会论文集。 116--122. http://doi.ieeecomputersociety.org/10.109/SNPD-SAWN.2005.2。 谷歌学者 数字图书馆 Ohtaki,Y.、Takahashi,D.、Boku,T.和Sato,M.2004年。 异构集群中Strassen矩阵乘法算法的并行实现。 第18届国际并行和分布式处理研讨会论文集。 112 http://doi.ieecomputersociety.org/10.109/IPDPS.2004.1303066。 谷歌学者 潘,V。1978年。 斯特拉森的算法不是最优的:用于构造矩阵运算快速算法的聚合、合并和取消的三线性技术。 计算机科学基础研讨会论文集。 166--176. 谷歌学者 数字图书馆 潘,V.1984。 我们如何加快矩阵乘法和查询速度; SIAM版本26,3,393--415。 谷歌学者 数字图书馆 Panda,P.、Nakamura,H.、Dutt,N.和Nicolau,A.,1999年。 通过数据对齐增强循环平铺以提高缓存性能。 IEEE传输。 计算。 48, 2, 142--149. 谷歌学者 数字图书馆 牧师,D.1991。 任意精度浮点运算的算法。 在第十届IEEE计算机算术研讨会(算术-10)的会议记录中,P.Kornerup和D.W.Matula,编辑IEEE计算机社会出版社,加利福尼亚州洛斯阿拉米托斯,132-144。 谷歌学者 交叉引用 Püschel,M.,Moura,J.,Johnson,J.、Padua,D.、Veloso,M.、Singer,B.、Xiong,J.和Franchetti,F.、Gać,A.、Voronenko,Y.、Chen,K.、Johnson,R.和Rizzolo,N.2005。 螺旋:DSP转换的代码生成。 程序。 IEEE(“程序生成、优化和适配”专刊)93,2,232--275。 谷歌学者 斯特拉森,V.1969年。 高斯消除不是最优的。 数字。 数学。 14, 3, 354--356. 谷歌学者 数字图书馆 Thottehodi,M.、Chatterjee,S.和Lebeck,A.1998年。 调整Strassen的矩阵乘法以提高内存效率。 1998年ACM/IEEE超级计算会议记录(佛罗里达州奥兰多)。 谷歌学者 数字图书馆 Whaley,R.和Dongarra,J.1998年。 自动调整线性代数软件。 1998年ACM/IEEE超级计算会议(CDROM)会议记录。 IEEE Computer Society,Press,Los Alamitos CA,1-27。 谷歌学者 数字图书馆 R.C.Whaley和A.Petitet,2005年。 最大限度地降低开发和维护成本,以支持持续优化的BLAS。 柔和:实际。 专家。 35、2(2月)、101-121。 网址:http://www.cs.utsa.edu/ ~whaley/papers/spercw04.ps。 谷歌学者 数字图书馆
索引术语
自适应Winograd矩阵乘法
建议
自适应Strassen矩阵乘法 ICS’07:第21届超级计算国际年会会议记录 Strassen的矩阵乘法(MM)相对于MM的任何(高度优化的)实现都有好处,因为Strassen减少了操作的总数。 斯特拉森通过替换计算昂贵的MMs实现了这种操作减少。。。 “宽或高”和“稀疏矩阵密集矩阵”乘法 HPC’11:第19届高性能计算研讨会论文集 稀疏矩阵密集矩阵(SMDM)乘法在块Krylov或块Lanczos方法中很有用。 SMDM计算如下 澳大利亚 、和 弗吉尼亚州 ,大型稀疏矩阵的乘法 米 x个 n个 矩阵 一个 通过矩阵 V(V) 属于 k个 行的长度 米 或矩阵 U型 属于 k个 第列,共列。。。 Sunway TaihuLight上小矩阵乘法的加速和调谐:以光谱元素CFD代码Nek5000为例 小尺寸矩阵的矩阵-矩阵乘积在一系列科学应用中继续发挥着重要作用。 异构体系结构被认为是exascale超级计算时代的一种趋势,它导致了。。。