摘要
AMD公司。 ATI流计算用户指南,2008年。 谷歌学者 AMD公司。 AMD加速并行处理OpenCL编程指南,2011年。 http://developer.amd.com/zones/OpenCLZone。 谷歌学者 数字图书馆 N.Bell和M.Garland。 在面向吞吐量的处理器上实现稀疏矩阵-向量乘法。 《高性能计算网络、存储和分析会议记录》,第18:1--18:11页,美国纽约,2009年。 谷歌学者 数字图书馆 R.Bordawekar和M.M.Baskaran。 在gpu上优化稀疏矩阵-矢量乘法。 在2008年第九届SIAM科学计算并行处理会议上。 谷歌学者 A.Buluc、S.Williams、L.Oliker和J.Demmel。 稀疏矩阵向量乘法的减少带宽多线程算法。 在IEEE国际并行和分布式处理研讨会(IPDPS)上,第721-733页,2011年5月。 谷歌学者 数字图书馆 J.W.Choi、A.Singh和R.W.Vuduc。 稀疏矩阵向量在gpu上乘法的模型驱动自动调谐。 第15届ACM SIGPLAN并行编程原理与实践研讨会论文集,第115-126页,美国纽约,2010年。 谷歌学者 数字图书馆 T.A.Davis和Y.Hu。佛罗里达大学稀疏矩阵收集。 38(1), 2011. http://www.cise.ufl.edu/research/sparse/matrices。 谷歌学者 数字图书馆 D.Grewe和A.Lokhmotov。 从高级表示自动生成和调整用于稀疏矩阵-向量乘法的gpu代码。 《图形处理单元通用处理第四次研讨会论文集》,第12:1-12:8页,美国纽约,2011年。 谷歌学者 数字图书馆 R.G.Grimes、D.R.Kincaid和D.M.Young。 Itpack 2.0用户指南。 技术报告CNA-150,德克萨斯大学,德克萨斯州奥斯汀,美国,1979年8月。 谷歌学者 P.Guo和L.Wang。 在gpus上自动调整稀疏矩阵向量乘法的cuda参数。 国际计算与信息科学会议(ICCIS),第1154-1157页,2010年。 谷歌学者 数字图书馆 E.-J.Im、K.Yelick和R.Vuduc。 稀疏性:稀疏矩阵核的优化框架。 《国际高性能计算应用杂志》,第18:135-18:158页,2004年2月。 谷歌学者 数字图书馆 英特尔。 英特尔高级矢量扩展编程参考。 2009 http://software.intel.com/en-us/avx。 谷歌学者 A.Monakov、A.Lokhmotov和A.Avetisyan。 为gpu体系结构自动调整稀疏矩阵-向量乘法。 《高性能嵌入式体系结构和编译器》,第111-125页,2010年。 谷歌学者 数字图书馆 恩维迪亚。 Nvidia cuda,2007年。 http://nvidia.com/cuda。 谷歌学者 S.Thakkur和T.Huff。 互联网流媒体simd扩展。 Intel Technology Journal Q2,32(12):26-341999年12月。 谷歌学者 数字图书馆 Khronos OpenCL工作组。 OpenCL——异构系统并行编程的开放标准,2011年。 http://www.khronos.org/opencl。 谷歌学者 F.Vázquez、G.Ortega、J.Fernández和E.Garzón。 利用gpu改进稀疏矩阵向量乘积的性能。 在IEEE第十届国际计算机与信息技术会议(CIT)上,第1146-1151010页。 谷歌学者 数字图书馆 R.Vuduc、J.W.Demmel和K.A.Yelick。 Oski:一个自动调整的稀疏矩阵内核库。 《2005年科学与发展委员会会议录》,《物理学杂志:会议系列》,2005年6月。 谷歌学者 R.W.Vuduc公司。 稀疏矩阵内核的自动性能调整。 美国加州大学伯克利分校博士论文,2004年1月。 谷歌学者 数字图书馆 S.Williams、L.Oliker、R.Vuduc、J.Shalf、K.Yelick和J.Demmel。 新兴多核平台上稀疏矩阵-向量乘法的优化。 《ACM/IEEE超级计算会议论文集》,第38:1-38:12页,美国纽约,2007年。 谷歌学者 数字图书馆 S.W.Williams、A.Waterman和D.A.Patterson。 Roofline:浮点程序和多核体系结构的一种有见地的可视化性能模型。 技术报告UCB/EECS-2008--134,加州大学伯克利分校EECS系,2008年10月。 谷歌学者 S.优素福。 稀疏线性系统的迭代方法。 工业和应用数学学会,2003年。 谷歌学者 数字图书馆
索引术语
clSpMV:GPU上的跨平台OpenCL-SpMV框架
建议
yaSpMV:GPU上的另一个SpMV框架 2014年PPoPP SpMV是一种关键的线性代数算法,在许多重要的应用领域得到了广泛的应用。 因此,已多次尝试优化GPU上的SpMV,以利用其巨大的计算吞吐量。 虽然之前的工作。。。 CSR5:一种高效的跨平台稀疏矩阵向量乘法存储格式 ICS’15:第29届ACM超级计算国际会议记录 稀疏矩阵向量乘法(SpMV)是许多应用程序的基本构造块。 在本文中,我们提出了CSR5(Compressed Sparse Row 5,压缩稀疏行5),这是一种新的存储格式,可在各种平台上提供高吞吐量的SpMV,包括CPU、。。。