迈克尔·本德(Michael A.Bender)。;格思·斯特林特·布罗达尔;罗尔夫·法格伯格;雅各布、里科;埃利亚斯·维卡里 I/O模型中的最优稀疏矩阵密集向量乘法。 (英语) Zbl 1213.68069号 理论计算。系统。 47,第4期,934-962(2010). 摘要:我们研究了外部存储器中的稀疏矩阵密集向量乘法(SpMV)问题。SpMV的任务是计算\(y:=Ax\),其中\(A\)是稀疏的\(N\乘以N\)矩阵,\(x\)是向量。我们用参数\(k)表示稀疏性,对于每一个选择\(k。我们研究了外部最坏情况的复杂性,即i/O数量的最佳可能上界,它是i/O模型的参数(M)(内存大小)和(B)(磁道大小)的函数。对于这些参数的所有有意义的选择,只要(k\leq N^{1-\varepsilon}),其中(\varepsilon)取决于问题变量,我们就可以将这种复杂性确定为一个常数。我们的下限计算模型是Aggarwal和Vitter以及Hong和Kung的I/O模型的组合。我们研究了问题的变体,不同于\(A\)的内存布局。如果(A)存储在列主布局中,我们证明了SpMV对于(k\leqN^{1-\varepsilon})和任何常量(0<varepsilen<1)具有I/O复杂性(Theta(\min\{frac{kN}{B}\max\{1,\log_{M/B}\frac{N}{max\{k,M\}},\,kN\})。如果算法可以选择内存布局,那么对于(k\leq\root3\ of{N}),I/O复杂度将降低到\(Theta({min\{frac{kN}{B}\max\{1,\log_{M/B}\frac{N}{kM}\},kN\}})。相反,如果算法必须能够处理矩阵的任意布局,则对于\(k\leq N/2),I/O复杂度为\(Theta({min\{frac{kN}{B}\max\{1,\log_{M/B}\frac{N}{M}},kN\}})。在缓存不经意设置中,我们证明了在高缓存假设(M\geqB^{1+varepsilon})下,列主布局中的I/O复杂度为(mathcal{O}({frac{kN}{B}\max\{1,\log_{M/B}\frac{N}{max\{k,M\}}\}})。 引用于4文件 MSC公司: 2007年7月68日 计算机体系结构的数学问题 65层50 稀疏矩阵的计算方法 65日元10 特定类别建筑的数值算法 68瓦40 算法分析 关键词:I/O型号;外部存储器算法;下限;稀疏矩阵密集向量乘法 软件:斯帕斯基;PSBLAS公司;ITSOL公司;OSKI公司 PDF格式BibTeX公司 XML格式引用 \textit{M.A.Bender}等人,理论计算。系统。47,第4号,934--962(2010;Zbl 1213.68069) 全文: DOI程序 链接 参考文献: [1] Aggarwal,A.、Vitter,J.S.:排序的输入/输出复杂性和相关问题。Commun公司。ACM 31(9),1116–1127(1988)·doi:10.1145/48529.48535 [2] Arge,L.,Miltersen,P.B.:关于显示外记忆计算几何问题的下限。摘自:Abello,J.M.、Vitter,J.S.(编辑)《外部记忆算法与可视化》。离散数学和理论计算机科学DIMACS系列,第50卷,第139-159页。美国数学学会,普罗维登斯(1999)·Zbl 0947.68053号 [3] Brodal,G.S.,Fagerberg,R.:关于缓存-快感的极限。In:程序。第35届ACM计算理论年度研讨会(STOC),第307–315页。ACM,圣地亚哥(2003)·Zbl 1192.68193号 [4] Brodal,G.S.、Fagerberg,R.、Moruz,G.:缓存软件和缓存支持自适应排序。In:程序。第32届国际自动化、语言和编程学术讨论会。计算机科学课堂讲稿,第3580卷,第576-588页。柏林施普林格出版社(2005)·Zbl 1085.68574号 [5] Cormen,T.H.,Sundquist,T.,Wisniewski,L.F.:在并行磁盘系统上执行BMMC置换的渐近紧边界。SIAM J.计算。28(1), 105–136 (1999) ·Zbl 0921.68027号 ·doi:10.1137/S009753979795283681 [6] Demmel,J.、Dongarra,J.,Eijkhout,V.、Fuentes,E.、Antoine Petitet,R.V.、Whaley,R.C.、Yelick,K.:自适应线性代数算法和软件。程序。IEEE 93(2)(2005)。关于程序生成、优化和调整的专题 [7] Filippone,S.,Colajanni,M.:PSBLAS:稀疏矩阵上并行线性代数计算的库。ACM事务处理。数学。柔和。26(4),527–550(2000)·Zbl 1365.65128号 ·数字对象标识代码:10.1145/365723.365732 [8] Frigo,M.,Leiserson,C.E.,Prokop,H.,Ramachandran,S.:Cache-obliovious算法。In:程序。第40届计算机科学基础年会(FOCS),第285-297页。IEEE计算机学会,纽约(1999)·Zbl 1295.68236号 [9] Hong,J.-W.,Kung,H.T.:I/O复杂性:红蓝卵石游戏。In:程序。第13届ACM计算理论年度研讨会(STOC),第326–333页。ACM,纽约(1981) [10] Im,E.J.:优化稀疏矩阵-向量乘法的性能。2000年5月,加州大学伯克利分校博士论文 [11] Raz,R.:恒量和行列式的多重线性公式具有超多项式的大小。In:程序。第36届美国计算机学会计算理论年会(STOC),美国伊利诺伊州芝加哥,第633-641页。ACM,纽约(2004)·Zbl 1192.68328号 [12] Remington,K.,Pozo,R.:NIST稀疏BLAS用户指南。技术报告,马里兰州盖瑟斯堡国家标准与技术研究所(1996) [13] Saad,Y.:Sparsekit:稀疏矩阵计算的基本工具包。技术报告,明尼苏达大学计算机科学系,1994年6月 [14] 斯特拉森:高斯消去法不是最优的。数字。数学。13(4), 354–356 (1969) ·Zbl 0185.40101号 ·doi:10.1007/BF02165411 [15] 托莱多,S.:数值线性代数中的核心外算法综述。摘自:Abello,J.M.、Vitter,J.S.(编辑)《外部记忆算法与可视化》。离散数学和理论计算机科学DIMACS系列,第50卷,第161-179页。美国普罗维登斯数学学会(1999)·Zbl 0943.65036号 [16] Vitter,J.S.:外部存储器算法和数据结构。摘自:Abello,J.M.、Vitter,J.S.(编辑)《外部记忆算法与可视化》。离散数学和理论计算机科学DIMACS系列,第50卷,第1-38页。美国数学学会,普罗维登斯(1999)·Zbl 0947.68060号 [17] Vudac,R.、Demmel,J.W.、Yelick,K.A.:优化稀疏内核接口(OSKI)库:1.0.1b版用户指南。伯克利基准和优化(BeBOP)小组,2006年3月15日 [18] Vuduc,R.W.:稀疏矩阵内核的自动性能调整。加州大学伯克利分校博士论文,2003年秋季 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。