米罗诺维奇,P。;杰科斯基,A。;罗佐夫斯基先生。 一种在GPU上实现稀疏对称矩阵向量乘法的任务调度方法。英语(英语) Zbl 1343.65046 暹罗科学杂志。计算机。 37号,第6期,C643-C666(2015). 理学硕士: 5650英尺 稀疏矩阵的计算方法 6505年 并行数值计算 65日元 特定建筑类的数值算法 65日元 数值算法的复杂性和性能 关键词:稀疏对称矩阵向量积;GPU;开普勒;数学库;RCM公司 软件:库达;尖点分析;开普勒;销售西格玛;SparseMatrix公司 PDF格式 BibTeX公司 XML 引用 \textti{P.Mironowicz}等,暹罗科学杂志。计算机。37号,第6期,C643--C666(2015;Zbl 1343.65046) 全文: 内政部 参考文献: [1] A、 布吕克、S.威廉姆斯、L.奥利克和J.德梅尔,稀疏矩阵向量乘法的低带宽多线程算法,在2011年IEEE并行和分布式处理研讨会(IPDPS),IEEE,Piscataway,NJ,2011年,第721-733页。 [2] A、 杰科斯基,拉梅基,罗佐夫斯基先生,一种基于GPU的快速高效稀疏矩阵向量积,程序。电磁。第116号决议(2011年),第49-63页。 [3] A、 杰科斯基,拉梅基,罗佐夫斯基先生,用GPU-CPU混合V循环多级预处理器求解大型真实复杂有限元方程组《无线传播天线》,IEEE第619页,2011年。 [4] A、 吉耶康斯基,P.赛佩克,A.拉梅基,M.罗佐夫斯基,在多个图形处理器上生成大型有限元矩阵,实习医生。J、 数字。方法工程,94(2012),第204-220页。·Zbl 1352.65494号 [5] A、 莫纳科夫、A.洛赫莫托夫和A.阿维蒂西亚,GPU体系结构中稀疏矩阵向量乘法的自动调整,在高性能嵌入式体系结构和编译器中,Comput中的课堂讲稿。科学。5952,斯普林格,柏林,2010年,第111-125页。 [6] A、 皮纳和M.T.希思,改进稀疏矩阵向量乘法的性能,1999年ACM/IEEE超级计算会议论文集,SC'99,ACM,纽约,1999年,30。 [7] C、 达豪格,矩阵:CNVS/shipsec1,http://www.cise.ufl.edu/research/sparse/matrix/DNVS/shipsec1.html,(1999年)。 [8] C、 Jin和Xc.Cai,随机Helmholtz问题的预处理循环GMRES解,公社。计算机。Phys.,6(2009),第342-353页。·65ZB2747.8升 [9] D、 W.Gropp,D.K.Kaushik,D.E.Keyes和B.F.Smith,隐式CFD程序的真实性能边界,载于Parallel CFD’99,Elsevier,阿姆斯特丹,2000年,第233–240页。 [10] E、 卡特希尔和麦基,减少稀疏对称矩阵的带宽1969年第172届纽约国家会议记录,第157页。 [11] F、 巴斯克斯、费尔南德斯和加松,基于ELLR-T方法的gpu稀疏矩阵向量积的自动整定《并行计算》,38(2012),第408-420页。 [12] E、 -J.伊姆,稀疏矩阵向量乘法的性能优化,技术报告UCB/CSD-00-1104,加州大学伯克利分校EECS系,2000年。 [13] J、 杜布瓦,C.卡尔文和S.佩蒂顿,用自校正矩阵向量积加速gpu显式重启Arnoldi方法,暹罗科学杂志。Comput.,33(2011年),第3010-3019页。·Zbl 1232.65193 [14] J、 纳塞里尔和S·波尔贾克,关于子图问题的复杂性,评论。数学。卡罗琳大学,26(1985),第415-419页。·Zbl 0571.05050 [15] M、 克鲁泽,海格,韦林,费斯克,毕晓普,一种统一的稀疏矩阵数据格式,在现代处理器上实现高效的通用稀疏矩阵向量乘法,暹罗科学杂志。Comput.,36(2014),第C401-C423页。·Zbl 1307.65055 [16] M、 马顿,递归稀疏块格式的高效多线程未变换、转置或对称稀疏矩阵向量乘法《并行计算》,40(2014),第251-270页。 [17] N、 阿隆,R.尤斯特和U.兹维克,求和计数给定长度的周期,Algorithmica,17(1997),第209-223页。·Zbl 0865.68093 [18] N、 贝尔和加兰先生,CUDA上的高效稀疏矩阵向量乘法,NVIDIA技术报告NVR-2008-004,NVIDIA公司,2008年。 [19] 英伟达公司,CUDA C最佳实践指南,http://docs.nvidia.com/cuda/cuda-c-best-practices-guide/(2015年)。 [20] 英伟达公司,库达库斯帕斯,http://developer.nvidia.com/cusparse/。 [21] 英伟达公司,白皮书NVIDIA的下一代CUDA计算架构:开普勒GK110,http://www.nvidia.com/content/PDF/kepler/nvidia-kepler-GK110-Architecture-Whitepaper.PDF。 [22] R、 达斯,D.J.Mavriplis,J.Saltz,S.Gupta和R.Ponnusamy,基于软件基元的并行非结构Euler求解器的设计与实现《美国医学杂志》第32-496页,1994年。·Zbl 0800.76367 [23] R、 加格和莎拉波夫,优化应用程序的技术-高性能计算,Prentice Hall专业技术参考,新泽西州上鞍河,2002年。 [24] S、 威廉姆斯、L.奥利克、R.武杜克、J.沙尔夫、K.耶利克和J.德梅尔,新兴多核平台上稀疏矩阵向量乘法的优化《并行计算》,35(2009),第178-194页。 [25] Y、 萨阿德,稀疏线性系统的迭代方法,暹罗,费城,2003年。·Zbl 1031.65046 [26] T、 Gkuntouvas,V.Karakasis,K.Kourtis,G.Goumas和N.Koziris,多核对称稀疏矩阵向量乘法的性能改进,在IEEE第27届并行和分布式处理(IPDPS)国际研讨会上,IEEE,Piscataway,NJ,2013,第273-283页。·Zbl 06920089 [27] S、 托莱多,稀疏矩阵向量乘法存储系统性能的改进《IBM J.Res.Dev.,41(1997年),第711-726页。 [28] 五、 沃尔科夫,低入住率下的性能更佳,在2010年GPU技术会议(GTC 2010),2010;可在线从http://www.cs.berkeley.edu/\string volkov/volkov10-GTC.pdf获取。 [29] R、 W.武杜克,稀疏矩阵核的性能自动调整2003年加州伯克利大学博士论文。 [30] W、 哈克布希,一种基于H-矩阵的稀疏矩阵算法。第一部分:H-矩阵简介《计算》,62(1999),第89-108页。·Zbl 0927.65063 [31] W、 陈先生和乔治先生,逆Cuthill-McKee算法的线性时间实现,BIT,20(1980年),第8-14页。·Zbl 0436.65021 [32] W、 唐英年、谭文杰、雷瑞、王永伟、陈文华、郭士宏、吴国梁、特纳、王文福,用位表示优化方案加速gpu上稀疏矩阵向量乘法,载《SC13:高性能计算、网络、存储和分析国际会议论文集》,ACM,NY,2013,26。 [33] S、 威廉姆斯,UF稀疏矩阵集合:Williams集团,http://www.cise.ufl.edu/research/sparse/mat/Williams/README.txt。 [34] 十、 Liu,M.Smelyanskiy,E.Chow和P.Dubey,基于x86多核处理器的高效稀疏矩阵向量乘法,载于第27届国际ACM大会国际超级计算大会论文集,ICS'13,ACM,纽约,2013,第273-282页。 [35] Z、 Koza,M.Matyka,S.Szkoda和L.Miroslaw,图形处理单元上稀疏矩阵的压缩多行存储格式,暹罗科学杂志。Comput.,36(2014),第C219–C239页。·Zbl 1296.65069 [36] U、 茨威克,使用桥接集和矩形矩阵乘法的所有对最短路径,J.ACM,49(2002年),第289-317页。·Zbl 1326.05157号 此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。