跳到主要内容
10.1145/2304576.2304624acm会议文章/章节视图摘要出版物页面集成电路会议记录会议集合
研究论文

clSpMV:GPU上的跨平台OpenCL-SpMV框架

作者信息和声明
出版:2012年6月25日出版历史

摘要

稀疏矩阵向量乘法(SpMV)核是线性代数中的一个关键计算。大多数迭代方法由带有BLAS1更新的SpMV操作组成。因此,研究人员对稀疏线性代数中的SpMV核进行了广泛的优化。OpenCL是一种编程语言,它可以跨多种异构平台标准化并行编程,随着OpenCL的出现,我们能够在许多不同的平台上优化SpMV内核。在本文中,我们提出了一种新的稀疏矩阵格式,即鸡尾酒格式,以利用许多不同稀疏矩阵格式的优势。基于鸡尾酒会格式,我们开发了能够在运行时分析各种稀疏矩阵的clSpMV框架,并推荐了给定稀疏矩阵在不同平台上的最佳表示。尽管与专用于特定平台的解决方案相比,可跨不同平台移植的解决方案通常性能较低,但我们的实验结果表明,clSpMV可以在Nvidia和AMD平台上找到输入稀疏矩阵的最佳表示,与[3]中提议的混合稀疏格式的供应商优化CUDA实现相比,性能提高了83%,与[3]的所有稀疏格式的CUDA实现相比较,性能提高63.6%。

工具书类

  1. AMD公司。ATI流计算用户指南,2008年。谷歌学者谷歌学者
  2. AMD公司。AMD加速并行处理OpenCL编程指南,2011年。http://developer.amd.com/zones/OpenCLZone。谷歌学者谷歌学者数字图书馆数字图书馆
  3. N.Bell和M.Garland。在面向吞吐量的处理器上实现稀疏矩阵-向量乘法。《高性能计算网络、存储和分析会议记录》,第18:1--18:11页,美国纽约,2009年。谷歌学者谷歌学者数字图书馆数字图书馆
  4. R.Bordawekar和M.M.Baskaran。在gpu上优化稀疏矩阵-矢量乘法。在2008年第九届SIAM科学计算并行处理会议上。谷歌学者谷歌学者
  5. A.Buluc、S.Williams、L.Oliker和J.Demmel。稀疏矩阵向量乘法的减少带宽多线程算法。在IEEE国际并行和分布式处理研讨会(IPDPS)上,第721-733页,2011年5月。谷歌学者谷歌学者数字图书馆数字图书馆
  6. J.W.Choi、A.Singh和R.W.Vuduc。稀疏矩阵向量在gpu上乘法的模型驱动自动调谐。第15届ACM SIGPLAN并行编程原理与实践研讨会论文集,第115-126页,美国纽约,2010年。谷歌学者谷歌学者数字图书馆数字图书馆
  7. T.A.Davis和Y.Hu。佛罗里达大学稀疏矩阵收集。38(1), 2011. http://www.cise.ufl.edu/research/sparse/matrices。谷歌学者谷歌学者数字图书馆数字图书馆
  8. D.Grewe和A.Lokhmotov。从高级表示自动生成和调整用于稀疏矩阵-向量乘法的gpu代码。《图形处理单元通用处理第四次研讨会论文集》,第12:1-12:8页,美国纽约,2011年。谷歌学者谷歌学者数字图书馆数字图书馆
  9. R.G.Grimes、D.R.Kincaid和D.M.Young。Itpack 2.0用户指南。技术报告CNA-150,德克萨斯大学,德克萨斯州奥斯汀,美国,1979年8月。谷歌学者谷歌学者
  10. P.Guo和L.Wang。在gpus上自动调整稀疏矩阵向量乘法的cuda参数。国际计算与信息科学会议(ICCIS),第1154-1157页,2010年。谷歌学者谷歌学者数字图书馆数字图书馆
  11. E.-J.Im、K.Yelick和R.Vuduc。稀疏性:稀疏矩阵核的优化框架。《国际高性能计算应用杂志》,第18:135-18:158页,2004年2月。谷歌学者谷歌学者数字图书馆数字图书馆
  12. 英特尔。英特尔高级矢量扩展编程参考。2009http://software.intel.com/en-us/avx。谷歌学者谷歌学者
  13. A.Monakov、A.Lokhmotov和A.Avetisyan。为gpu体系结构自动调整稀疏矩阵-向量乘法。《高性能嵌入式体系结构和编译器》,第111-125页,2010年。谷歌学者谷歌学者数字图书馆数字图书馆
  14. 恩维迪亚。Nvidia cuda,2007年。http://nvidia.com/cuda。谷歌学者谷歌学者
  15. S.Thakkur和T.Huff。互联网流媒体simd扩展。Intel Technology Journal Q2,32(12):26-341999年12月。谷歌学者谷歌学者数字图书馆数字图书馆
  16. Khronos OpenCL工作组。OpenCL——异构系统并行编程的开放标准,2011年。http://www.khronos.org/opencl。谷歌学者谷歌学者
  17. F.Vázquez、G.Ortega、J.Fernández和E.Garzón。利用gpu改进稀疏矩阵向量乘积的性能。在IEEE第十届国际计算机与信息技术会议(CIT)上,第1146-1151010页。谷歌学者谷歌学者数字图书馆数字图书馆
  18. R.Vuduc、J.W.Demmel和K.A.Yelick。Oski:一个自动调整的稀疏矩阵内核库。《2005年科学与发展委员会会议录》,《物理学杂志:会议系列》,2005年6月。谷歌学者谷歌学者
  19. R.W.Vuduc公司。稀疏矩阵内核的自动性能调整。美国加州大学伯克利分校博士论文,2004年1月。谷歌学者谷歌学者数字图书馆数字图书馆
  20. S.Williams、L.Oliker、R.Vuduc、J.Shalf、K.Yelick和J.Demmel。新兴多核平台上稀疏矩阵-向量乘法的优化。《ACM/IEEE超级计算会议论文集》,第38:1-38:12页,美国纽约,2007年。谷歌学者谷歌学者数字图书馆数字图书馆
  21. S.W.Williams、A.Waterman和D.A.Patterson。Roofline:浮点程序和多核体系结构的一种有见地的可视化性能模型。技术报告UCB/EECS-2008--134,加州大学伯克利分校EECS系,2008年10月。谷歌学者谷歌学者
  22. S.优素福。稀疏线性系统的迭代方法。工业和应用数学学会,2003年。谷歌学者谷歌学者数字图书馆数字图书馆

索引术语

  1. clSpMV:GPU上的跨平台OpenCL-SpMV框架

        建议

        评论

        登录选项

        请检查您是否可以通过登录凭据或您的机构访问此文章以获得完全访问权限。

        登录

        完全访问权限

        • 发布于

          封面图片ACM会议
          ICS’12:第26届ACM超级计算国际会议记录
          2012年6月
          400页
          十亿英镑:9781450313162
          内政部:10.1145/2304576

          版权所有©2012 ACM

          如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。向请求权限[电子邮件保护]

          出版商

          计算机协会

          美国纽约州纽约市

          出版历史

          • 出版:2012年6月25日

          权限

          请求有关此文章的权限。

          请求权限

          检查更新

          限定符

          • 研究论文

          验收费率

          总体验收率584属于2,055提交文件,28%

        PDF格式

        以PDF文件查看或下载。

        PDF格式

        电子阅读器

        使用eReader联机查看。

        电子阅读器