×

兹马思-数学第一资源

一种在GPU上实现稀疏对称矩阵向量乘法的任务调度方法。英语(英语) Zbl 1343.65046
理学硕士:
5650英尺 稀疏矩阵的计算方法
6505年 并行数值计算
65日元 特定建筑类的数值算法
65日元 数值算法的复杂性和性能
PDF格式 BibTeX公司 XML 引用
全文: 内政部
参考文献:
[1] A、 布吕克、S.威廉姆斯、L.奥利克和J.德梅尔,稀疏矩阵向量乘法的低带宽多线程算法,在2011年IEEE并行和分布式处理研讨会(IPDPS),IEEE,Piscataway,NJ,2011年,第721-733页。
[2] A、 杰科斯基,拉梅基,罗佐夫斯基先生,一种基于GPU的快速高效稀疏矩阵向量积,程序。电磁。第116号决议(2011年),第49-63页。
[3] A、 杰科斯基,拉梅基,罗佐夫斯基先生,用GPU-CPU混合V循环多级预处理器求解大型真实复杂有限元方程组《无线传播天线》,IEEE第619页,2011年。
[4] A、 吉耶康斯基,P.赛佩克,A.拉梅基,M.罗佐夫斯基,在多个图形处理器上生成大型有限元矩阵,实习医生。J、 数字。方法工程,94(2012),第204-220页。·Zbl 1352.65494号
[5] A、 莫纳科夫、A.洛赫莫托夫和A.阿维蒂西亚,GPU体系结构中稀疏矩阵向量乘法的自动调整,在高性能嵌入式体系结构和编译器中,Comput中的课堂讲稿。科学。5952,斯普林格,柏林,2010年,第111-125页。
[6] A、 皮纳和M.T.希思,改进稀疏矩阵向量乘法的性能,1999年ACM/IEEE超级计算会议论文集,SC'99,ACM,纽约,1999年,30。
[7] C、 达豪格,矩阵:CNVS/shipsec1,http://www.cise.ufl.edu/research/sparse/matrix/DNVS/shipsec1.html,(1999年)。
[8] C、 Jin和Xc.Cai,随机Helmholtz问题的预处理循环GMRES解,公社。计算机。Phys.,6(2009),第342-353页。·65ZB2747.8升
[9] D、 W.Gropp,D.K.Kaushik,D.E.Keyes和B.F.Smith,隐式CFD程序的真实性能边界,载于Parallel CFD’99,Elsevier,阿姆斯特丹,2000年,第233–240页。
[10] E、 卡特希尔和麦基,减少稀疏对称矩阵的带宽1969年第172届纽约国家会议记录,第157页。
[11] F、 巴斯克斯、费尔南德斯和加松,基于ELLR-T方法的gpu稀疏矩阵向量积的自动整定《并行计算》,38(2012),第408-420页。
[12] E、 -J.伊姆,稀疏矩阵向量乘法的性能优化,技术报告UCB/CSD-00-1104,加州大学伯克利分校EECS系,2000年。
[13] J、 杜布瓦,C.卡尔文和S.佩蒂顿,用自校正矩阵向量积加速gpu显式重启Arnoldi方法,暹罗科学杂志。Comput.,33(2011年),第3010-3019页。·Zbl 1232.65193
[14] J、 纳塞里尔和S·波尔贾克,关于子图问题的复杂性,评论。数学。卡罗琳大学,26(1985),第415-419页。·Zbl 0571.05050
[15] M、 克鲁泽,海格,韦林,费斯克,毕晓普,一种统一的稀疏矩阵数据格式,在现代处理器上实现高效的通用稀疏矩阵向量乘法,暹罗科学杂志。Comput.,36(2014),第C401-C423页。·Zbl 1307.65055
[16] M、 马顿,递归稀疏块格式的高效多线程未变换、转置或对称稀疏矩阵向量乘法《并行计算》,40(2014),第251-270页。
[17] N、 阿隆,R.尤斯特和U.兹维克,求和计数给定长度的周期,Algorithmica,17(1997),第209-223页。·Zbl 0865.68093
[18] N、 贝尔和加兰先生,CUDA上的高效稀疏矩阵向量乘法,NVIDIA技术报告NVR-2008-004,NVIDIA公司,2008年。
[19] 英伟达公司,CUDA C最佳实践指南,http://docs.nvidia.com/cuda/cuda-c-best-practices-guide/(2015年)。
[20] 英伟达公司,库达库斯帕斯,http://developer.nvidia.com/cusparse/。
[21] 英伟达公司,白皮书NVIDIA的下一代CUDA计算架构:开普勒GK110,http://www.nvidia.com/content/PDF/kepler/nvidia-kepler-GK110-Architecture-Whitepaper.PDF。
[22] R、 达斯,D.J.Mavriplis,J.Saltz,S.Gupta和R.Ponnusamy,基于软件基元的并行非结构Euler求解器的设计与实现《美国医学杂志》第32-496页,1994年。·Zbl 0800.76367
[23] R、 加格和莎拉波夫,优化应用程序的技术-高性能计算,Prentice Hall专业技术参考,新泽西州上鞍河,2002年。
[24] S、 威廉姆斯、L.奥利克、R.武杜克、J.沙尔夫、K.耶利克和J.德梅尔,新兴多核平台上稀疏矩阵向量乘法的优化《并行计算》,35(2009),第178-194页。
[25] Y、 萨阿德,稀疏线性系统的迭代方法,暹罗,费城,2003年。·Zbl 1031.65046
[26] T、 Gkuntouvas,V.Karakasis,K.Kourtis,G.Goumas和N.Koziris,多核对称稀疏矩阵向量乘法的性能改进,在IEEE第27届并行和分布式处理(IPDPS)国际研讨会上,IEEE,Piscataway,NJ,2013,第273-283页。·Zbl 06920089
[27] S、 托莱多,稀疏矩阵向量乘法存储系统性能的改进《IBM J.Res.Dev.,41(1997年),第711-726页。
[28] 五、 沃尔科夫,低入住率下的性能更佳,在2010年GPU技术会议(GTC 2010),2010;可在线从http://www.cs.berkeley.edu/\string volkov/volkov10-GTC.pdf获取。
[29] R、 W.武杜克,稀疏矩阵核的性能自动调整2003年加州伯克利大学博士论文。
[30] W、 哈克布希,一种基于H-矩阵的稀疏矩阵算法。第一部分:H-矩阵简介《计算》,62(1999),第89-108页。·Zbl 0927.65063
[31] W、 陈先生和乔治先生,逆Cuthill-McKee算法的线性时间实现,BIT,20(1980年),第8-14页。·Zbl 0436.65021
[32] W、 唐英年、谭文杰、雷瑞、王永伟、陈文华、郭士宏、吴国梁、特纳、王文福,用位表示优化方案加速gpu上稀疏矩阵向量乘法,载《SC13:高性能计算、网络、存储和分析国际会议论文集》,ACM,NY,2013,26。
[33] S、 威廉姆斯,UF稀疏矩阵集合:Williams集团,http://www.cise.ufl.edu/research/sparse/mat/Williams/README.txt。
[34] 十、 Liu,M.Smelyanskiy,E.Chow和P.Dubey,基于x86多核处理器的高效稀疏矩阵向量乘法,载于第27届国际ACM大会国际超级计算大会论文集,ICS'13,ACM,纽约,2013,第273-282页。
[35] Z、 Koza,M.Matyka,S.Szkoda和L.Miroslaw,图形处理单元上稀疏矩阵的压缩多行存储格式,暹罗科学杂志。Comput.,36(2014),第C219–C239页。·Zbl 1296.65069
[36] U、 茨威克,使用桥接集和矩形矩阵乘法的所有对最短路径,J.ACM,49(2002年),第289-317页。·Zbl 1326.05157号
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。