×

数值线性代数的通信下界和优化算法。 (英语) 兹比尔1396.65082

总结:衡量数值算法效率的传统标准是它执行的算术运算次数。长期以来,技术趋势一直在减少执行算术运算的时间,因此它不再是许多算法的瓶颈;相反,通信或移动数据是瓶颈。这促使我们寻求尽可能少地移动数据的算法,无论是在内存层次结构的级别之间还是在网络上的并行处理器之间。在本文中,我们总结了这一问题在三个方面的最新进展。首先,我们描述通信的下限。其中一些将稠密经典(O(n^3))矩阵乘法的已知下限推广到线性代数的所有直接方法、序列和并行算法以及稠密和稀疏矩阵。我们还提出了类Strassen算法的下限,以及迭代方法的下限,特别是应用于稀疏矩阵的Krylov子空间方法。其次,我们将这些下界与这些算法的广泛使用的版本进行比较,并注意到这些广泛使用的算法通常渐近地比必要的通信更多。第三,我们为大多数达到这些下限的线性代数问题确定或发明了新的算法,并在理论和实践中证明了巨大的加速。

MSC公司:

65传真 数值线性代数
65年20月 数值算法的复杂性和性能
65-02 与数值分析相关的研究展览(专著、调查文章)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aasen,J.O.,关于将对称矩阵简化为三对角形式,BIT Numer。数学。,11, 233-242, (1971) ·Zbl 0242.65032号 ·doi:10.1007/BF01931804
[2] Abdelmalek,N.N.,《Gram-Schmidt方法的舍入误差分析和线性最小二乘问题的求解》,BIT-Numer。数学。,11345-367(1971年)·Zbl 0236.65031号 ·doi:10.1007/BF01939404
[3] 阿加瓦尔,R。;Balle,S。;古斯塔夫森,F。;乔希,M。;Palkar,P.,并行矩阵乘法的三维方法,IBM J.Res.Dev.,39,575-582,(1995)·数字对象标识代码:10.1147/rd.395.0575
[4] 阿加瓦尔,R。;古斯塔夫森,F。;Zubair,M.,《分布式内存并行计算机上使用重叠通信的高性能矩阵乘法算法》,IBM J.Res.Dev.,38,673-681,(1994)·数字对象标识代码:10.1147/rd.386.0673
[5] 阿加瓦尔,A。;Vitter,J.,排序的输入/输出复杂性和相关问题,通信助理计算。机器。,31, 1116-1127, (1988)
[6] 阿加瓦尔,A。;Chandra,A.K。;Snir,M.,《婴儿车的通信复杂性》,Theoret。计算。科学。,71, 3-28, (1990) ·Zbl 0699.68054号 ·doi:10.1016/0304-3975(90)90188-N
[7] 艾哈迈德,N。;Pingali,K.,编辑。第六届并行处理国际欧巴会议,自动生成块递归代码,368-378,(2000),Springer
[8] 安德森,E。;Bai,Z。;比肖夫,C。;德梅尔,J。;Dongarra,J。;克罗兹,J.D。;格林鲍姆,A。;Hammarling,S。;A.麦肯尼。;奥斯特鲁乔夫,S。;Sorensen,D.,《LAPACK用户指南》,(1992年),SIAM·Zbl 0755.65028号
[9] 安德森,M。;巴拉德·G。;德梅尔,J。;Keutzer,K.,Proc。2011年IEEE国际并行和分布式处理研讨会:IPDPS’11,通信-GPU避免QR分解,48-58,(2011)
[10] Arnoldi,W.E.,矩阵特征值问题求解中的最小迭代原则,Quart。申请。数学。,9, 17-29, (1951) ·Zbl 0042.12801号
[11] Bai,Z。;Day,D。;Bai,Z。;Demmel,J.W。;东加拉,J.J。;Ruhe,A。;Van Der Vorst,H.,《代数特征值问题求解模板:实用指南》,Block Arnoldi方法,196-204,(2000),SIAM·Zbl 0965.65058号
[12] Bai,Z。;Day,D。;德梅尔,J。;Dongarra,J.,非厄米特特征值问题的测试矩阵集合,(1997),田纳西大学
[13] Bai,Z。;德梅尔,J。;Gu,M.,非对称特征问题的无逆并行谱分治算法,Numer。数学。,76, 279-308, (1997) ·Zbl 0876.65021号 ·doi:10.1007/s002110050264
[14] Bai,Z。;胡,D。;Reichel,L.,程序。第五届SIAM科学计算并行处理会议,使用QR分解实现GMRES方法,84-91,(1991)·Zbl 0818.65023号
[15] Bai,Z。;胡,D。;Reichel,L.,基于牛顿的GMRES实现,IMA J.Numer。分析。,14563-581,(1994年)·Zbl 0818.65022号 ·doi:10.1093/imanum/14.4563
[16] Ballard,G.,《避免密集线性代数中的通信》(2013),加州大学伯克利分校EECS系
[17] 巴拉德·G。;贝克尔,D。;德梅尔,J。;Dongarra,J。;Druinsky,A。;我·贝利德。;O.施瓦茨。;托莱多,S。;Yamazaki,I.,通信-避免对称-不定因式分解。技术报告UCB/EECS-2013-127,(2013),加州大学伯克利分校EECS部门
[18] 巴拉德·G。;贝克尔,D。;德梅尔,J。;Dongarra,J。;Druinsky,A。;我·贝利德。;O.施瓦茨。;托莱多,S。;山崎,I.,Proc。第27届IEEE国际并行分布式处理研讨会:IPDPS’13,在多核架构上使用动态调度器实现阻塞的Aasen算法,895-907,(2013)
[19] 巴拉德·G。;布卢索,A。;德梅尔,J。;格里戈里,L。;利普希茨,B。;施瓦茨,O。;托莱多,S.,Proc。第25届ACM算法和体系结构并行性研讨会:SPAA’13,稀疏随机矩阵的通信最优并行乘法,222-231,(2013),ACM
[20] 巴拉德·G。;德梅尔,J。;Dumitriu,I.,通信优化并行和顺序特征值和奇异值算法,加州大学伯克利分校
[21] 巴拉德·G。;德梅尔,J。;Gearhart,A.,程序。第23届ACM算法和体系结构并行性研讨会:SPAA’11,简要公告:异构体系结构的通信边界,257-258,(2011),ACM
[22] 巴拉德·G。;德梅尔,J。;奈特,N.,Proc。第17届ACM SIGPLAN并行编程原理与实践研讨会:PPoPP’12,避免连续频带缩减的通信,35-44,(2012),ACM
[23] 巴拉德·G。;德梅尔,J。;Knight,N.,《避免连续频带缩减中的通信》(2013),加州大学伯克利分校EECS部门
[24] 巴拉德·G。;德梅尔,J。;格里戈里,L。;Jacquelin,M。;Nguyen,H.D。;Solomonik,E.,程序。2014 IEEE国际并行和分布式处理研讨会:IPDPS’14,从Tall-Skinny QR重建Householder向量,(2014)
[25] 巴拉德·G。;德梅尔,J。;O.霍尔茨。;Schwartz,O.,通信优化并行和顺序Cholesky分解,SIAM J.Sci。计算。,32, 3495-3523, (2010) ·Zbl 1238.65018号 ·doi:10.1137/090760969
[26] 巴拉德·G。;德梅尔,J。;O.霍尔茨。;O.施瓦茨,Proc。第23届ACM算法和体系结构并行性研讨会:SPAA’11,快速矩阵乘法的图形扩展和通信成本,1-12,(2011),ACM
[27] 巴拉德·G。;德梅尔,J。;O.霍尔茨。;Schwartz,O.,数值线性代数中的最小化通信,SIAM J.矩阵分析。申请。,32, 866-901, (2011) ·Zbl 1246.68128号 ·doi:10.1137/090769156
[28] 巴拉德·G。;德梅尔,J。;O.霍尔茨。;Schwartz,O.,《快速矩阵乘法的图形扩展和通信成本》,J.Assoc.Compute。机器。,59,(2012年)·Zbl 1281.68241号
[29] 巴拉德·G。;德梅尔,J。;O.霍尔茨。;Schwartz,O.,《快速线性代数的序列通信界限》(2012),加州大学伯克利分校
[30] 巴拉德·G。;德梅尔,J。;O.霍尔茨。;利普希茨,B。;O.施瓦茨,Proc。第24届ACM算法和体系结构并行性研讨会:SPAA’12,简要公告:矩阵乘法算法和内存无关通信下限的强大扩展,77-79,(2012),ACM
[31] 巴拉德·G。;德梅尔,J。;O.霍尔茨。;利普希茨,B。;O.施瓦茨,Proc。第24届美国计算机学会算法和体系结构并行性研讨会:SPAA'12,Strassen矩阵乘法的通信优化并行算法,193-204,(2012),美国计算机学会
[32] 巴拉德·G。;德梅尔,J。;O.霍尔茨。;利普希茨,B。;O.施瓦茨。;偶数,G。;Rawitz,D.,算法设计与分析,7659,快速矩形矩阵乘法通信成本的图展开分析,13-36,(2012),Springer·Zbl 1385.68057号 ·doi:10.1007/978-3-642-34862-42
[33] 巴拉德·G。;德梅尔,J。;利普希茨,B。;O.施瓦茨。;托莱多,S.,Proc。第25届ACM算法和架构并行性研讨会:SPAA’13,使用形状变形数据布局进行部分旋转的通信高效高斯消去,232-240,(2013),ACM
[34] 巴雷特·R。;贝里,M。;Chan,T.F。;Demmel,J.W。;J.多纳托。;Dongarra,J.J。;埃伊霍特,V。;波佐,R。;罗明,C。;Van Der Vorst,H.,《线性系统解的模板:迭代方法的构建块》,(1994),SIAM
[35] 本德,硕士。;布罗达尔,G.S。;Fagerberg,R。;雅各布·R。;Vicari,E.,I/O模型中的最优稀疏矩阵密集向量乘法,理论计算。系统。,47, 934-962, (2010) ·Zbl 1213.68069号 ·doi:10.1007/s00224-010-9285-4
[36] Bennett,J。;Carbery,A。;基督,M。;Tao,T.,holder-brascap-Lieb多线性不等式的有限界,数学。Res.Lett.公司。,17, 647-666, (2010) ·Zbl 1247.26029号 ·doi:10.4310/MRL.2010.v17.n4.a6
[37] Berntsen,J.,超立方体上的通信高效矩阵乘法,并行计算。,12, 335-342, (1989) ·Zbl 0689.65024号 ·doi:10.1016/0167-8191(89)90091-4
[38] 比拉尔迪,G。;Preparia,F.P.,有界速度消息传播下的处理器时间权衡II:下限,理论计算。系统。,32,531-559,(1999年)·Zbl 0951.68003号 ·doi:10.1007/s002240000131
[39] 比拉尔迪,G。;Pietracaprina,A。;D’Alberto,P。;Brandes,美国。;Wagner,D.,《计算机科学中的图论概念:第26届国际研讨会,1928年,关于计算DAG的空间和访问复杂性》,47-58,(2000),Springer·Zbl 0988.68129号 ·doi:10.1007/3-540-40064-8_6
[40] 比肖夫,C。;Loan,C.Van,Householder矩阵乘积的WY表示,SIAM J.Sci。统计师。计算。,8, 2-13, (1987) ·Zbl 0628.65033号 ·doi:10.1137/0908009
[41] 比肖夫,C.H。;B.朗。;Sun,X.,Algorithm 807:SBR工具箱,连续频带缩减软件,ACM Trans。数学。软质。,26202-616,(2000年)·Zbl 1365.65104号 ·数字对象标识代码:10.1145/365723.365736
[42] 比肖夫,C。;B.朗。;Sun,X.,对称频带缩减框架,ACM Trans。数学。软质。,26, 581-601 ·Zbl 1365.65103号 ·doi:10.1145/365723.365735
[43] Björck,A.,通过Gram-Schmidt正交化解决线性最小二乘问题,BIT-Numer。数学。,7, 1-21, (1967) ·Zbl 0183.17802号 ·doi:10.1007/BF01934122
[44] 布莱克福德,L.S。;Choi,J。;克利里,A。;D’Azevedo,E。;德梅尔,J。;迪尔隆,I。;Dongarra,J。;Hammarling,S。;亨利·G。;佩蒂特,A。;斯坦利,K。;Walker,D。;Whaley,R.C.,ScaLAPACK用户指南,(1997),SIAM·兹伯利0886.65022
[45] 布莱克福德,L.S。;德梅尔,J。;Dongarra,J。;达夫,I。;Hammarling,S。;亨利·G。;Heroux,M。;考夫曼,L。;Lumsdaine,A。;佩蒂特,A。;波佐,R。;雷明顿,K。;Whaley,R.C.,《一组更新的基本线性代数子程序(BLAS)》,J.ACM Trans。数学。软质。,28, 135-151, (2002) ·Zbl 1070.65520号 ·数字对象标识代码:10.1145/567806.567807
[46] Börm,S。;Grasedyck,L.(2006)
[47] Börm,S。;Grasedyck,L。;Hackbusch,W.(2004年)
[48] 布拉曼,K。;拜尔斯,R。;Mathias,R.,《多移位QR算法I:保持良好的移位和3级性能》,SIAM J.Matrix Ana。申请。,23, 929-947, (2002) ·Zbl 1017.65031号 ·doi:10.1137/S0895479801384573
[49] Braman,K。;拜尔斯,R。;Mathias,R.,《多移位QR算法II:积极的早期通缩》,SIAM J.矩阵分析。申请。,23, 948-973, (2002) ·Zbl 1017.65032号 ·doi:10.1137/S0895479801384585
[50] 邦奇,J。;Kaufman,L.,计算惯性和求解对称线性系统的一些稳定方法,数学。公司。,31, 163-179, (1977) ·Zbl 0355.65023号 ·doi:10.1090/S0025-5718-1977-0428694-0
[51] Buttari,A。;Langou,J。;Kurzak,J。;Dongarra,J.J.(2007)
[52] Byun,J.等人。;林·R。;Yelick,K。;Demmel,J.,多核稀疏矩阵向量乘法的自动调谐,(2012),加州大学伯克利分校EECS部门
[53] Cannon,L.,实现卡尔曼滤波算法的蜂窝计算机,(1969年),蒙大拿州立大学
[54] Carson,E。;Demmel,J.,一种用于提高-步进Krylov子空间方法,SIAM J.矩阵分析。申请。,35, 22-43, (2014) ·Zbl 1302.65075号 ·doi:10.1137/120893057
[55] Carson,E。;奈特,N。;Demmel,J.,《避免基于非对称Lanczos的Krylov子空间方法中的通信》,SIAM J.Sci。计算。,35,S42-S61,(2013)·Zbl 1281.65057号 ·doi:10.1137/120881191
[56] 美国Catalysurek公司。;Aykanat,C.,并行稀疏矩阵向量乘法的基于Hypergraph-partitioning的分解,IEEE Trans。并行分布式系统,10673-693,(1999)·数字对象标识代码:10.1109/71.780863
[57] 加利福尼亚州Catalystiirek。五、。;艾卡纳特,C.,Proc。第15届IEEE国际并行和分布式处理研讨会:IPDPS'01,稀疏矩阵2D分解的细粒度超图模型,(2001)
[58] Chan,E。;海姆利希,M。;Purkayastha,A。;Van De Geijn,R.,《集体沟通:理论、实践和经验》,《并行与计算:实践》。有效期:1749-1783年(2007年)·doi:10.1002/cpe.1206
[59] 周,E。,先验的并行稀疏近似逆预条件的稀疏模式,SIAM J.Sci。计算。,21, 1804-1822, (2000) ·Zbl 0957.65023号 ·doi:10.1137/S106482759833913X
[60] Chow,E.,稀疏近似逆的并行实现和实际应用先验的稀疏模式,国际。J.高性能计算。申请。,第15页,第56-74页,(2001年)·doi:10.1177/10943420101500106
[61] 基督,M。;德梅尔,J。;奈特,N。;Scanlon,T。;Yelick,K.,《引用数组的程序的通信下限和优化算法》(2013),加州大学伯克利分校EECS部门
[62] Chronopoulos,A。;Gear,C.,关于预处理s步共轭梯度法在具有内存层次结构的多处理机上的有效实现,并行计算。,11, 37-53, (1989) ·Zbl 0679.65020号 ·doi:10.1016/0167-8191(89)90062-8
[63] Chronopoulos,A。;齿轮,C。,-对称线性系统的步进迭代方法,J.Compute。申请。数学。,25, 153-168, (1989) ·Zbl 0669.65021号 ·doi:10.1016/0377-0427(89)90045-9
[64] Chronopoulos,A。;Swanson,C.,并行迭代-非对称线性系统的步长法,并行计算。,22, 623-641, (1996) ·Zbl 0873.65019号 ·doi:10.1016/0167-8191(96)00022-1
[65] 科恩,E.,Proc。第35届Ann.Symp。已找到。公司。科学。,估计线性时间中传递闭包的大小,190-200,(1994),IEEE
[66] Cohen,E.,具有传递闭包和可达性应用的规模估计框架,J.Compute。系统科学。,55, 441-453, (1997) ·Zbl 0897.68075号 ·doi:10.1006/jcss.1997.1534
[67] 《海量数据分析的前沿》(2013),美国国家科学院出版社
[68] Da Cunha,R.D。;贝克尔,D。;Patterson,J.C.,Euro-Par 2002并行处理,新的并行(等级揭示)QR因子分解算法,677-686,(2002),Springer·Zbl 1068.65504号
[69] 达塔,K。;墨菲,M。;沃尔科夫,V。;威廉姆斯,S。;Carter,J。;Oliker,L。;帕特森,D。;沙尔夫,J。;Yelick,K.,程序。2008年ACM/IEEE超级计算、模板计算优化和最新多核架构自动调谐会议,4,(2008),IEEE出版社
[70] Davis,T。;Hu,Y.,佛罗里达大学稀疏矩阵集合,ACM Trans。数学。软质。,38, 1-25, (2011) ·Zbl 1365.65123号
[71] 德克尔,E。;Nassimi,D。;Sahni,S.,并行矩阵和图形算法,SIAM J.Compute。,10, 657-675, (1981) ·Zbl 0468.68044号 ·数字对象标识代码:10.1137/021049
[72] Demmel,J.,《应用数值线性代数》(1997),SIAM·Zbl 0879.65017号
[73] Demmel,J.,计算有理函数的算术复杂度下界,及其在线性代数中的应用,(2013),加州大学伯克利分校EECS系
[74] 德梅尔,J。;杜米特里乌,I。;Holtz,O.,快速线性代数是稳定的,Numer。数学。,108, 59-91, (2007) ·Zbl 1133.65015号 ·doi:10.1007/s00211-007-0114-x
[75] 德梅尔,J。;杜米特里乌,I。;霍尔茨,O。;Kleinberg,R.,快速矩阵乘法是稳定的,Numer。数学。,106, 199-224, (2007) ·Zbl 1134.65030号 ·doi:10.1007/s00211-007-0061-6
[76] 德梅尔,J。;Eliahu,D。;福克斯,A。;卡米勒,S。;利普希茨,B。;O.施瓦茨。;斯皮林格,O.,Proc。第27届IEEE国际并行与分布式处理研讨会:IPDPS’13,通信优化并行递归矩形矩阵乘法,261-272,(2013)
[77] 德梅尔,J。;Gearhart,A。;利普希茨,B。;Schwartz,O.,Proc。第27届IEEE国际并行和分布式处理研讨会:IPDPS’13,无需额外能源的完美强缩放,649-660,(2013)
[78] 德梅尔,J。;格里戈里,L。;顾,M。;Xiang,H.,Communication avoid rank discovery QR factorization with column pivoting,(2013),加州大学伯克利分校EECS部门·Zbl 1327.65078号
[79] 德梅尔,J。;格里戈里,L。;霍姆曼,M。;Langou,J.(2008)
[80] 德梅尔,J。;格里戈里,L。;霍姆曼,M。;Langou,J.,通信优化并行和序列QR和LU分解,SIAM J.科学。计算。,34,A206-A239,(2012)·Zbl 1241.65028号 ·doi:10.1137/080731992年
[81] 德梅尔,J。;霍姆曼,M。;莫希尤丁,M。;Yelick,K.,计算Krylov子空间时避免通信,(2007),加州大学伯克利分校EECS部门
[82] 德梅尔,J。;霍门,M。;莫希尤丁,M。;Yelick,K.,程序。2008 IEEE国际并行和分布式处理研讨会:IPDPS 2008,避免稀疏矩阵计算中的通信,1-12,(2008)
[83] 德梅尔,J。;马奎斯,O。;巴雷特,B。;Vomel,C.,《LAPACK对称三对角特征解算器的性能和精度》,SIAM J.Sci。计算。,1508-1526年(2008年)·Zbl 1165.65014号 ·数字对象标识代码:10.1137/070688778
[84] Devine,K.D。;Boman,E.G。;Heaphy,R.T。;比塞林,R.H。;Catalysturek,U.V.,程序。第20届IEEE国际并行与分布式处理研讨会:IPDPS 2006,科学计算中的并行超图划分,(2006)
[85] Dongarra,J.J。;克罗兹,J.D。;达夫,I.S。;Hammarling,S.,《算法679:一组三级基本线性代数子程序》,ACM Trans。数学。软质。,16, 18-28, (1990) ·兹比尔0900.65116 ·数字对象标识代码:10.1145/77626.77627
[86] Dongarra,J.J。;克罗兹,J.D。;达夫,I.S。;Hammarling,S.,一组三级基本线性代数子程序,ACM Trans。数学。软质。,16, 1-17, (1990) ·Zbl 0900.65115号 ·数字对象标识代码:10.1145/77626.79170
[87] Dongarra,J.J。;克罗兹,J.D。;Hammarling,S。;Hanson,R.J.,《算法656:Fortran基本线性代数子程序的扩展集》,ACM Trans。数学。软质。,14, 18-32, (1988) ·Zbl 0639.65017号 ·数字对象标识代码:10.1145/42288.42292
[88] Dongarra,J.J。;克罗兹,J.D。;Hammarling,S。;Hanson,R.J.,Fortran基本线性代数子程序的扩展集,ACM Trans。数学。软质。,14, 1-17, (1988) ·Zbl 0639.65016号 ·数字对象标识代码:10.1145/42288.42291
[89] Dongarra,J.J。;莫勒,C.B。;邦奇,J.R。;Stewart,G.W.,LINPACK用户指南,(1979年),SIAM·Zbl 0476.68025号
[90] C.C.道格拉斯。;胡,J。;科瓦希克,M。;吕德,美国。;Weiβ,C.,结构化和非结构化网格多重网格的缓存优化,Electron。事务处理。数字。分析。,10, 21-40, (2000) ·Zbl 0949.65099号
[91] 德里斯科尔,M。;Georganas,E。;Koanantakool,P。;Solomonik,E。;Yelick,K.,程序。第27届IEEE国际并行和分布式处理研讨会:IPDPS’13,直接交互的通信优化W-body算法,1075-1084,(2013)
[92] 杜森,H。;野村,K.-I。;彭,L。;西摩·R。;Wang,W。;Kalia,R.K。;Nakano,A。;Vashishta,P.,Euro-Par 2009并行处理,用于高阶模板计算的多级并行化框架,642-653,(2009),Springer
[93] Elmroth,E。;古斯塔夫森,F。;Kógström,B.,应用并行计算:大规模科学和工业问题,1541,SMP系统的新串行和并行递归QR分解算法,120-128,(1998),Springer
[94] Floyd,R.,《算法97:最短路径》,Commun。关联计算。机器。,5, 345, (1962)
[95] Frens,J.D。;Wise,D.S.,用于内存重用和并行的带多序四叉树矩阵的QR分解,ACM SIGPLAN通知,38,144-154,(2003)
[96] 弗里戈,M。;斯特伦彭,V.,Proc。第19届超级计算国际年会,缓存不经意模板计算,361-366,(2005),ACM
[97] 弗里戈,M。;Strumpen,V.,多线程缓存遗忘算法的缓存复杂性,理论计算。系统。,45, 203-233, (2009) ·Zbl 1183.68721号 ·doi:10.1007/s00224-007-9098-2
[98] 弗里戈,M。;Leiserson,C.E。;普罗科普,H。;拉马钱德兰,S.,Proc。第40届计算机科学基础年会:FOCS’99,Cache-obliovious算法,285-297,(1999),IEEE计算机学会
[99] Fuller,S.H。;Millett,L.I.,《计算性能的未来:游戏结束还是下一个级别?》?,(2011),美国国家科学院出版社
[100] 甘农,D。;Rosendale,J.Van,《通信复杂性对并行数值算法设计的影响》,Trans。计算。,100, 1180-1194, (1984) ·Zbl 0546.68028号
[101] Georganas,E。;Gonzalez-Dominguez,J。;Solomonik,E。;郑毅。;J.图里诺。;Yelick,K.,会议记录。高性能计算、网络、存储和分析国际会议:SC’12,数字线性代数的通信避免和重叠,1-11,(2012)
[102] George,A.,常规有限元网格的嵌套剖分,SIAM J.Numer。分析。,10, 345-363, (1973) ·Zbl 0259.65087号 ·doi:10.1137/0710032
[103] 吉尔伯特,J.R。;Tarjan,R.E.,嵌套分割算法的分析,Numer。数学。,377-404, (1987) ·Zbl 0645.65012号
[104] Giraud,L。;Langou,J.,具有选择性重新正交化的改进Gram-Schmidt算法的稳健准则,SIAM J.Sci。计算。,25, 417-441, (2003) ·Zbl 1042.65033号 ·doi:10.1137/S106482750340783X
[105] Giraud,L。;Langou,J。;Rozloznik,M.,Gram-Schmidt正交化过程中正交性的损失,计算机。数学。申请。,50, 1069-1075, (2005) ·Zbl 1085.65037号 ·doi:10.1016/j.camwa.2005.08.009
[106] Golub,G。;Loan,C.Van,《矩阵计算》,(1996),约翰霍普金斯大学出版社·Zbl 0865.65009号
[107] Golub,G.H。;Plemmons,R.J。;Sameh,A.,《高速计算:科学应用和算法设计》,大规模最小二乘计算的并行块方案,171-179,(1988),伊利诺伊大学出版社
[108] 格雷厄姆,S.L。;斯尼尔,M。;Patterson,C.A.,《加速:超级计算的未来》,(2004年),国家学院出版社
[109] 格拉纳特,R。;科格斯特罗姆,B。;Kressner,D。;Shao,M.,具有积极早期紧缩的多移位QR算法的并行库软件,(2012年),Umea大学·Zbl 1347.65070号
[110] Greenbaum,A.,《估算递归计算残差法的可达到精度》,SIAM J.矩阵分析。申请。,18, 535-551, (1997) ·Zbl 0873.65027号 ·doi:10.1137/S0895479895284944
[111] Greenbaum,A.,求解线性系统的迭代方法,(1997),SIAM·Zbl 0883.65022号
[112] 格林鲍姆,A。;罗兹洛日克,M。;Strakoš,Z.,修改的Gram-Schmidt GMRES实现的数值行为,BIT-Numer。数学。,37, 706-719, (1997) ·Zbl 0891.65031号 ·doi:10.1007/BF02510248
[113] 格雷纳,G。;Jacob,R.,《2010年计算机科学数学基础》,《评估I/O模型中多个向量对上的非方稀疏双线性形式》,393-404,(2010),Springer·Zbl 1287.68055号
[114] 格雷纳,G。;Jacob,R.,LATIN 2010:理论信息学,稀疏矩阵密集矩阵乘法的I/O复杂性,143-156,(2010),Springer·Zbl 1283.68163号
[115] 格里戈里,L。;Moufawad,S.,《通信避免ILU(0)预处理研究报告RR-8266》,(2013),INRIA
[116] 格里戈里,L。;David,P.-Y。;德梅尔,J。;Peyronnet,S.,程序。第22届ACM算法和体系结构并行性研讨会:SPAA’10,简要声明:模型问题稀疏Cholesky因子分解的通信下限,79-81,(2010),ACM
[117] 格里戈里,L。;德梅尔,J。;Xiang,H.,CALU:通信最优LU分解算法,SIAM J.矩阵分析。申请。,32, 1317-1350, (2011) ·Zbl 1242.65089号 ·doi:10.1137/100788926
[118] 顾,M。;Eisenstat,S.,《计算强秩揭示QR因式分解的高效算法》,SIAM J.Sci。计算。,17, 848-869, (1996) ·兹比尔0858.65044 ·doi:10.1137/0917055
[119] 冈特,公元前。;Van De Geijn,R.A.,QR因子分解的并行核外计算和更新,ACM Trans。数学。软质。,31, 60-78, (2005) ·Zbl 1073.65023号 ·数字对象标识代码:10.1145/1055531.1055534
[120] Gustavson,F.G.,《递归导致稠密线性代数算法的自动变量阻塞》,IBM J.Res.Dev.,41,737-756,(1997)·doi:10.1147/rd.416.0737
[121] Gutknecht,M.,Acta Numerica,6,非对称线性方程组的Lanczos型解算器,271-398,(1997),剑桥大学出版社·Zbl 0888.65030号
[122] Gutknecht,M。;Ressel,K.,《基于三项Lanczos复发的Lanczos-type产品方法的观察头程序》,SIAM J.Matrix Ana。申请。,21, 1051-1078, (2000) ·兹比尔0961.65025 ·doi:10.1137/S0895479896306744
[123] Gutknecht,M。;斯特拉科什,Z.,Krylov空间解算器的两个三项和三个二项递归的准确性,SIAM J.矩阵分析。申请。,22, 213-229, (2000) ·Zbl 0976.65030号 ·doi:10.1137/S0895479897331862
[124] Hackbusch,W.(2006年)
[125] 海达尔,A。;Luszczek,P。;Kurzak,J。;Dongarra,J.(2013)
[126] Hestenes,M.R。;Stiefel,E.,求解线性系统的共轭梯度方法,J.Res.Nat.Bur。标准,49,409-436,(1952)·Zbl 0048.09901号 ·doi:10.6028/jres.049.044
[127] 辛德马什,A。;Walker,H.,《关于住户实施GMRES方法的说明》,(1986年),劳伦斯·利弗莫尔国家实验室
[128] Hoemmen,M.,通信-避免Krylov子空间方法,(2010),加州大学伯克利分校EECS部门
[129] 霍夫曼,A.J。;Martin,M.S。;Rose,D.J.,正则有限差分和有限元网格的复杂性界限,SIAM J.Numer。分析。,10, 364-369, (1973) ·兹比尔0261.65026 ·数字对象标识代码:10.1137/0710033
[130] Hong,J.W。;Kung,H.T.,程序。第13届年度ACM计算理论研讨会:STOC’81,I/O复杂性:红蓝卵石游戏,326-333,(1981),ACM
[131] 豪厄尔,G.W。;德梅尔,J。;富尔顿,C.T。;Hammarling,S。;Marmol,K.,《使用BLAS 2.5运算符的高速缓存高效双对角化》,ACM Trans。数学。软质。,34, (2008) ·Zbl 1190.65056号
[132] Hupp,P。;雅各布·R。;Dehne,F。;索利斯·奥巴,R。;Sack,J.-R.,《算法与数据结构》,8037,外部存储器模型中低维星形模板的紧边界,415-426,(2013),施普林格·Zbl 1391.68010号 ·doi:10.1007/978-3-642-40104-6_36
[133] Irigoin,F。;Triolet,R.,程序。第十五届ACM SIGPLAN-SIGACT编程语言原理研讨会,超级节点划分,319-329,(1988),ACM
[134] 讽刺,D。;托莱多,S。;Tiskin,A.,分布记忆矩阵乘法的通信下限,J.并行分布计算。,64, 1017-1026, (2004) ·Zbl 1114.68081号 ·doi:10.1016/j.jpdc.2004.03.021
[135] Jalby,W。;Philippe,B.,块Gram-Schmidt算法的稳定性分析和改进,SIAM J.Sci。统计师。计算。,12, 1058-1073, (1991) ·Zbl 0734.65034号 ·doi:10.1137/0912056
[136] Johnsson,S.L.,并行计算,最小化多处理器上矩阵乘法的通信时间,(1992)
[137] Joubert,W。;Carey,G.,非对称线性系统的可并行重启迭代方法I:理论,国际。J.计算。数学。,44, 243-267, (1992) ·Zbl 0759.65008号 ·doi:10.1080/00207169208804107
[138] 科格斯特罗姆,B。;Kressner博士。;邵,M.,《应用并行和科学计算》,《QR算法并行变体中的激进早期通缩》,1-10,(2012),施普林格
[139] 卡尔森,L。;Kágström,B.,在共享内存体系结构上使用动态调度将两阶段并行简化为Hessenberg形式,并行计算。,37, 771-782, (2011) ·Zbl 1248.65043号 ·doi:10.1016/j.parco.2011.05.001
[140] Kepner,J。;Gilbert,J.,线性代数语言中的图形算法,22,(2011),SIAM·Zbl 1221.05010号
[141] Kielbasinski,A.,Roczniki Polskiego Towarzystwa Matematycznego,Seria III:Matematyka Stosowana II,Gram-Schmidt正交化算法的数值分析(analiza numeryczna algorytmu ortogonalizacji Grama-Schmidta),15-35,(1974)
[142] Kim,S。;Chronopoulos,A.,并行向量计算机上的一种有效的非对称Lanczos方法,J.Compute。申请。数学。,42, 357-374, (1992) ·Zbl 0756.65057号 ·doi:10.1016/0377-0427(92)90085-C
[143] 奈特,N。;Carson,E。;Demmel,J.,程序。PPAM’13,8384,在并行矩阵幂计算中利用数据稀疏性,(2014),Springer
[144] 科尔达·T·G。;Bader,B.W.,张量分解与应用,SIAM Review,51,455-500,(2009)·Zbl 1173.65029号 ·doi:10.1137/07070111X
[145] 拉米耶,A。;Strout,M.,《在稀疏多面体框架内实现代码生成》(2010),科罗拉多州立大学
[146] Lanczos,C.,解线性微分和积分算子特征值问题的迭代方法,(1950),美国政府新闻办公室·Zbl 0067.33703号
[147] 劳森,C.L。;Hanson,R.J。;Kincaid,D。;Krogh,F.T.,Fortran使用的基本线性代数子程序,ACM Trans。数学。软质。,5, 308-323, (1979) ·Zbl 0412.65022号 ·数字对象标识代码:10.1145/355841.355847
[148] 雷瑟森,C.E。;Rao,S。;Toledo,S.,《使用块覆盖实现线性松弛的高效核心外算法》,J.Compute。系统科学。,54, 332-344, (1997) ·Zbl 0877.68063号 ·doi:10.1006/jcss.1997.1473
[149] 列夫·G。;Valiant,L.,超凝聚体的尺寸界限,理论。计算。科学。,22, 233-251, (1983) ·Zbl 0497.68022号 ·doi:10.1016/0304-3975(83)90105-6
[150] Lipshitz,B.,《通信——避免矩阵乘法的并行递归算法》,(2013),加州大学伯克利分校EECS部门
[151] 利普希茨,B。;巴拉德·G。;德梅尔,J。;O.施瓦茨,Proc。高性能计算、网络、存储和分析国际会议:SC’12,通信-避免并行Strassen:实现和性能,(2012)
[152] Loomis,L.H。;Whitney,H.,与等周不等式相关的不等式,Bull。阿默尔。数学。Soc.,55,961-962,(1949)·Zbl 0035.38302号 ·doi:10.1090/S0002-9904-1949-09320-5
[153] 麦克科尔,W。;Tiskin,A.,BSP模型中的记忆有效矩阵乘法,算法,24287-297,(1999)·Zbl 0943.68066号 ·doi:10.1007/PL00008264
[154] Meurant,G.,《Lanczos和共轭梯度算法:从理论到有限精度计算》,(2006),SIAM·Zbl 1110.65029号
[155] Meurant,G。;Strakos,Z.,Acta Numerica,15,有限精度算术中的Lanczos和共轭梯度算法,471-542,(2006),剑桥大学出版社·Zbl 1113.65032号
[156] 莫汉蒂,S。;Gopalan,S.,2012年第19届高性能计算国际会议:HiPC,I/O高效QR和QZ算法,1-9,(2012)
[157] Mohiyuddin,M.,为多处理器调整硬件和软件,(2012),加州大学伯克利分校EECS部门
[158] 莫希尤丁,M。;霍姆曼,M。;德梅尔,J。;Yelick,K.,程序。高性能计算网络、存储和分析国际会议:SC'09,最小化稀疏矩阵求解器中的通信,(2009)
[159] Y.Nakatsukasa。;Higham,N.,对称特征值分解和奇异值分解的稳定高效谱分治算法,(2012),曼彻斯特大学
[160] 尼什塔拉,R。;Vuduc,R.W。;Demmel,J.W。;Yelick,K.A.,《稀疏矩阵向量乘法的缓存块何时起作用及其原因》,《工程、通信和计算中的应用代数》,第18期,第297-311页,(2007年)·Zbl 1122.65043号 ·doi:10.1007/s00200-007-0038-9
[161] 帕克,J.-S。;彭纳,M。;Prasanna,V.,优化图算法以提高缓存性能,IEEE Trans。并行分布式系统,15769-782,(2004)·doi:10.1109/TPDS.2004.44
[162] Parlett,B.,《数值学报》,4,《新QD算法》,459-491,(1995),剑桥大学出版社·Zbl 0835.65059号
[163] 巴雷特,B。;Reid,J.,关于矩阵对称但不确定的线性方程组的解,BIT Numer。数学。,10, 386-397, (1970)
[164] 巴雷特,B。;泰勒,D。;Liu,Z.,非对称矩阵的look-ahead Lanczos算法,数学。公司。,44, 105-124, (1985) ·Zbl 0564.65022号
[165] Pfeifer,C.,Philco-2000(1963)上PDQ-5项目的数据流和存储分配,匹兹堡
[166] 菲利普,B。;Reichel,L.,关于Krylov子空间基的生成,Appl。数字。数学。,62, 1171-1186, (2012) ·Zbl 1253.65049号 ·doi:10.1016/j.apnum.2010.12.009
[167] Puglishi,C.,基于紧凑WY表示的Householder方法修正,SIAM J.Sci。统计师。计算。,13, 723-726, (1992) ·Zbl 0756.65040号 ·doi:10.1137/0913042
[168] Reichel,L.,Leja点的牛顿插值,BIT,30,332-346,(1990)·Zbl 0702.65012号 ·doi:10.1007/BF02017352
[169] 罗兹洛兹尼克,M。;Shklarski,G。;托莱多,S.,分块三角三对角化,ACM Trans。数学。软质。,37, (2011) ·Zbl 1365.65074号
[170] Saad,Y.,共轭梯度法多项式预条件的实际应用,SIAM J.Sci。统计师。计算。,6, 865-881, (1985) ·Zbl 0601.65019号 ·doi:10.1137/0906059
[171] Saad,Y.,稀疏线性系统的迭代方法,(2003),SIAM·Zbl 1002.65042号
[172] 萨阿德,Y。;Schultz,M.H.,GMRES:求解非对称线性系统的广义最小残差算法,SIAM J.Sci。统计师。计算。,7, 856-869, (1986) ·Zbl 0599.65018号 ·doi:10.1137/0907058
[173] 萨阿德,Y。;杨,M。;Erhel,J.,共轭梯度算法的缩小版本,SIAM J.Sci。计算。,21, 1909-1926, (2000) ·Zbl 0955.65021号 ·doi:10.1137/S106482959898339761
[174] Savage,J.E.,《计算与组合数学》,959,将红功模型扩展到内存层次结构,270-281,(1995),Springer·Zbl 1527.68016号 ·doi:10.1007/BFb0030842
[175] Schatz,M。;Poulson,J。;Van De Geijn,R.,《可缩放通用矩阵乘法算法:主题上的二维和三维变化》,(2013),德克萨斯大学
[176] Schreiber,R。;Loan,C.Van,《住户转型产品的存储效率WY表示法》,SIAM J.Sci。统计师。计算。,10, 53-57, (1989) ·Zbl 0664.65025号 ·doi:10.1137/0910005
[177] 施瓦兹,H.A.,《苏黎世自然之路》,第15卷,第272-286页,(1870)
[178] Scquizzato,M。;西尔维斯特里,F。;Mayr,E.W。;Portier,N.,第31届计算机科学理论方面国际研讨会:STACS 2014,25,分布式内存计算的通信下限,627-638,(2014)·Zbl 1359.68027号
[179] Sleijpen,G。;Van Der Vorst,H.,混合双CG方法中的可靠更新残差,计算,56,141-163,(1996)·Zbl 0842.65018号 ·doi:10.1007/BF02309342
[180] 史密斯,B.T。;Boyle,J.M。;Dongarra,J.J。;加博,B.S。;伊克贝,Y。;克莱马,V.C。;Moler,C.B.,《矩阵特征系统例程:EISPACK指南》,(1976),Springer·兹伯利0325.65016
[181] Smoktunowicz,A。;巴洛,J.L。;Langou,J.,经典Gram-Schmidt错误分析注释,Numer。数学。,105, 299-313, (2006) ·Zbl 1108.65021号 ·doi:10.1007/s00211-006-0042-1
[182] 所罗门尼克,E。;德梅尔,J。;Jeannot,E。;纳米斯特,R。;Roman,J.,Euro-Par 2011并行处理,6853,通信优化并行2.5D矩阵乘法和LU因子分解算法,90-109,(2011),Springer·doi:10.1007/978-3-642-23397-5_10
[183] Solomonik,E。;布卢克,A。;Demmel,J.,程序。第27届IEEE国际并行分布式处理研讨会:IPDPS’13,最小化所有对最短路径中的通信,548-559,(2013)
[184] Solomonik,E。;Carson,E。;奈特,N。;Demmel,J.,同步、通信和并行线性代数计算之间的权衡,(2014),加州大学伯克利分校EECS部门
[185] Solomonik,E。;马修斯,D。;哈蒙德,J。;Demmel,J.,Proc.公司。第27届IEEE国际并行和分布式处理研讨会:IPDPS’13,Cyclops张量框架:减少大规模并行收缩中的通信和消除负载不平衡,813-824,(2013)
[186] Sorensen,D.,高斯消去中成对旋转的分析,IEEE Trans。计算机,34,274-278,(1985)·Zbl 0551.65014号
[187] Sorensen,D.,多项式滤波器在k个-阶梯阿诺迪法,SIAM J.矩阵分析。申请。,13, 357-385, (1992) ·Zbl 0763.65025号 ·doi:10.1137/0613025
[188] Stathopoulos,A。;Wu,K.,具有恒定同步要求的块正交化程序,SIAM J.Sci。计算。,23, 2165-2182, (2002) ·Zbl 1018.65050号 ·doi:10.1137/S1064827500370883
[189] Stewart,G.,Block Gram-Schmidt正交化,SIAM J.Sci。计算。,31, 761-775, (2008) ·兹比尔1185.65069 ·数字对象标识代码:10.1137/070682563
[190] 斯特拉森,V.,高斯消去不是最优的,数值。数学。,13, 354-356, (1969) ·Zbl 0185.40101号 ·doi:10.1007/BF02165411
[191] 斯特劳特,M.M。;卡特,L。;Ferrante,J.,计算科学:ICCS 2001,稀疏矩阵计算中局部性的重新调度,137-146,(2001),Springer
[192] Sturler,E.,基于网格的并行计算机上Krylov子空间方法的性能模型,并行计算。,22, 57-74, (1996) ·Zbl 0873.65017号 ·doi:10.1016/0167-8191(95)00057-7
[193] Tang,Y。;乔杜里,R.A。;库兹摩尔,公元前。;Luk,C.-K。;Leiserson,C.E.,程序。第23届ACM算法和架构并行性研讨会,Pochoir模板编译器,117-128,(2011),ACM
[194] Thakur,R。;Rabenseifner,R。;Gropp,W.,MPICH中集体通信操作的优化,国际。J.高性能计算。申请。,第19页,第49页至第66页,(2005年)·doi:10.1177/109434205051521
[195] Tiskin,A.,Bulk-同步并行高斯消去,J.Math。科学。,108, 977-991, (2002) ·Zbl 0997.65047号 ·doi:10.1023/A:1013588221172
[196] Tiskin,A.,《通信高效并行通用成对消除》,《未来一代计算机系统》,23,179-188,(2007)·doi:10.1016/j.future.2006.04.017
[197] 托莱多,S.,科学计算的定量性能建模和在数值算法中创建局部性,(1995年),麻省理工学院
[198] Toledo,S.,部分枢轴LU分解中的参考位置,SIAM J.矩阵分析。申请。,18, 1065-1081, (1997) ·Zbl 0890.65025号 ·doi:10.1137/S0895479896297744
[199] Tong,C。;Ye,Q.,非对称线性系统有限精度双共轭梯度算法分析,数学。公司。,69, 1559-1576, (2000) ·Zbl 0953.65017号
[200] Trefethen,L。;Schreiber,R.,高斯消去的平均情况稳定性,SIAM J.矩阵分析。申请。,11, 335-360, (1990) ·Zbl 0703.65015号 ·doi:10.1137/0611023
[201] Van De Geijn,R.A。;Watts,J.,SUMMA:可扩展通用矩阵乘法算法,并发:实用。实验,9255-274,(1997)·doi:10.1002/(SICI)1096-9128(199704)9:4<255::AID-CPE250>3.0.CO;2-2
[202] Der Vorst,H.Van;Ye,Q.,真残差收敛的Krylov子空间迭代方法的残差替换策略,SIAM J.Sci。计算。,22, 835-852, (1999) ·Zbl 0983.65039号
[203] Rosendale,J.Van,在共轭梯度迭代中最小化内积数据相关性,(1983),ICASE-NASA
[204] Vanderstraeten,D.,Euro-Par99并行处理,一种稳定高效的并行块Gram-Schmidt算法,1128-1135,(1999),Springer
[205] Vuduc,R。;德梅尔,J。;Yelick,K.,程序。科学与发展委员会2005年版,物理会议系列杂志,OSKI:自动调谐稀疏矩阵内核库,(2005),物理研究所
[206] Vuduc,R.W.,稀疏矩阵内核的自动性能调整,(2003),加州大学伯克利分校EECS部门
[207] Walker,H.,《使用Householder变换实现GMRES方法》,SIAM J.Sci。统计师。计算。,9, 152-163, (1988) ·Zbl 0698.65021号 ·电话:10.1137/0909010
[208] Warshall,S.,《布尔矩阵定理》,J.Assoc.Compute。机器。,9, 11-12, (1962) ·Zbl 0118.33104号 ·数字对象标识代码:10.1145/32105.321107
[209] 威廉姆斯。;Lijewski,M。;Almgren,A。;B.Van斯特拉伦;Carson,E。;奈特,N。;Demmel,J.,程序。2014 IEEE国际并行和分布式处理研讨会:IPDPS’14,-步进Krylov子空间方法作为几何多重网格的底部解算器,(2014)
[210] 威廉姆斯。;Oliker,L。;Vuduc,R。;Shalf,J.等人。;Yelick,K。;Demmel,J.,新兴多核平台上稀疏矩阵向量乘法的优化,并行计算。,35, 178-194, (2009) ·doi:10.1016/j.parco.2008.12.006
[211] 威廉姆斯,V.,Proc。第44届计算理论年会:STOC 12,乘法矩阵比Coppersmith-Winograd更快,887-898,(2012),ACM·兹比尔1286.65056
[212] 怀斯,D。;Bode,A。;路德维希,T。;卡尔·W·。;Wismüoller,R.,Euro-Par 2000 Parallel Processing,1900,Ahentafel索引到Morton-ordered数组,或免费的矩阵局部性,774-783,(2000),Springer·doi:10.1007/3-540-44520-X_108
[213] 沃尔夫,M.M。;Boman,E.G。;Hendrickson,B.,PARA08,Trondheim,挪威,通过角划分优化并行稀疏矩阵-向量乘法,(2008)
[214] 夏,J。;Chandrasekaran,S。;顾,M。;Li,X.S.,分层半可分矩阵的快速算法,数值。线性代数应用。,17, 953-976, (2010) ·Zbl 1240.65087号 ·doi:10.1002/nla.691
[215] 尤托夫,K。;罗德,T。;Pingali,K。;Gunnels,J。;F.古斯塔夫森,Proc。第19届ACM并行算法和架构年会:2007年SPAA,缓存感知程序和缓存感知程序的实验比较,93-104,(2007),ACM
[216] Yzelman,A。;Bisseling,R.H.,二维缓存稀疏矩阵向量乘法,并行计算。,37, 806-819, (2011) ·doi:10.1016/j.parco.2011.08.004
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。