研究论文

clSpMV:GPU上的跨平台OpenCL-SpMV框架

作者：
苏伯乐

加利福尼亚大学伯克利分校，伯克利，加利福尼亚州，美国

加利福尼亚大学伯克利分校，伯克利，加利福尼亚州，美国
查看个人资料

,
库尔特·科伊策

加利福尼亚大学伯克利分校，伯克利，加利福尼亚州，美国

加利福尼亚大学伯克利分校，伯克利，加利福尼亚州，美国
查看个人资料

作者信息和声明

ICS’12：第26届ACM超级计算国际会议记录2012年6月第353–364页https://doi.org/10.1145/2304576.2304624

出版：2012年6月25日出版历史

ICS’12：第26届ACM超级计算国际会议论文集

第353–364页

摘要

稀疏矩阵向量乘法（SpMV）核是线性代数中的一个关键计算。大多数迭代方法由带有BLAS1更新的SpMV操作组成。因此，研究人员对稀疏线性代数中的SpMV核进行了广泛的优化。OpenCL是一种编程语言，它可以跨多种异构平台标准化并行编程，随着OpenCL的出现，我们能够在许多不同的平台上优化SpMV内核。在本文中，我们提出了一种新的稀疏矩阵格式，即鸡尾酒格式，以利用许多不同稀疏矩阵格式的优势。基于鸡尾酒会格式，我们开发了能够在运行时分析各种稀疏矩阵的clSpMV框架，并推荐了给定稀疏矩阵在不同平台上的最佳表示。尽管与专用于特定平台的解决方案相比，可跨不同平台移植的解决方案通常性能较低，但我们的实验结果表明，clSpMV可以在Nvidia和AMD平台上找到输入稀疏矩阵的最佳表示，与[3]中提议的混合稀疏格式的供应商优化CUDA实现相比，性能提高了83%，与[3]的所有稀疏格式的CUDA实现相比较，性能提高63.6%。

工具书类

AMD公司。ATI流计算用户指南，2008年。谷歌学者
AMD公司。AMD加速并行处理OpenCL编程指南，2011年。http://developer.amd.com/zones/OpenCLZone。谷歌学者数字图书馆
N.Bell和M.Garland。在面向吞吐量的处理器上实现稀疏矩阵-向量乘法。《高性能计算网络、存储和分析会议记录》，第18:1--18:11页，美国纽约，2009年。谷歌学者数字图书馆
R.Bordawekar和M.M.Baskaran。在gpu上优化稀疏矩阵-矢量乘法。在2008年第九届SIAM科学计算并行处理会议上。谷歌学者
A.Buluc、S.Williams、L.Oliker和J.Demmel。稀疏矩阵向量乘法的减少带宽多线程算法。在IEEE国际并行和分布式处理研讨会（IPDPS）上，第721-733页，2011年5月。谷歌学者数字图书馆
J.W.Choi、A.Singh和R.W.Vuduc。稀疏矩阵向量在gpu上乘法的模型驱动自动调谐。第15届ACM SIGPLAN并行编程原理与实践研讨会论文集，第115-126页，美国纽约，2010年。谷歌学者数字图书馆
T.A.Davis和Y.Hu。佛罗里达大学稀疏矩阵收集。38(1), 2011. http://www.cise.ufl.edu/research/sparse/matrices。谷歌学者数字图书馆
D.Grewe和A.Lokhmotov。从高级表示自动生成和调整用于稀疏矩阵-向量乘法的gpu代码。《图形处理单元通用处理第四次研讨会论文集》，第12:1-12:8页，美国纽约，2011年。谷歌学者数字图书馆
R.G.Grimes、D.R.Kincaid和D.M.Young。Itpack 2.0用户指南。技术报告CNA-150，德克萨斯大学，德克萨斯州奥斯汀，美国，1979年8月。谷歌学者
P.Guo和L.Wang。在gpus上自动调整稀疏矩阵向量乘法的cuda参数。国际计算与信息科学会议（ICCIS），第1154-1157页，2010年。谷歌学者数字图书馆
E.-J.Im、K.Yelick和R.Vuduc。稀疏性：稀疏矩阵核的优化框架。《国际高性能计算应用杂志》，第18:135-18:158页，2004年2月。谷歌学者数字图书馆
英特尔。英特尔高级矢量扩展编程参考。2009http://software.intel.com/en-us/avx。谷歌学者
A.Monakov、A.Lokhmotov和A.Avetisyan。为gpu体系结构自动调整稀疏矩阵-向量乘法。《高性能嵌入式体系结构和编译器》，第111-125页，2010年。谷歌学者数字图书馆
恩维迪亚。Nvidia cuda，2007年。http://nvidia.com/cuda。谷歌学者
S.Thakkur和T.Huff。互联网流媒体simd扩展。Intel Technology Journal Q2，32（12）：26-341999年12月。谷歌学者数字图书馆
Khronos OpenCL工作组。OpenCL——异构系统并行编程的开放标准，2011年。http://www.khronos.org/opencl。谷歌学者
F.Vázquez、G.Ortega、J.Fernández和E.Garzón。利用gpu改进稀疏矩阵向量乘积的性能。在IEEE第十届国际计算机与信息技术会议（CIT）上，第1146-1151010页。谷歌学者数字图书馆
R.Vuduc、J.W.Demmel和K.A.Yelick。Oski：一个自动调整的稀疏矩阵内核库。《2005年科学与发展委员会会议录》，《物理学杂志：会议系列》，2005年6月。谷歌学者
R.W.Vuduc公司。稀疏矩阵内核的自动性能调整。美国加州大学伯克利分校博士论文，2004年1月。谷歌学者数字图书馆
S.Williams、L.Oliker、R.Vuduc、J.Shalf、K.Yelick和J.Demmel。新兴多核平台上稀疏矩阵-向量乘法的优化。《ACM/IEEE超级计算会议论文集》，第38:1-38:12页，美国纽约，2007年。谷歌学者数字图书馆
S.W.Williams、A.Waterman和D.A.Patterson。Roofline：浮点程序和多核体系结构的一种有见地的可视化性能模型。技术报告UCB/EECS-2008--134，加州大学伯克利分校EECS系，2008年10月。谷歌学者
S.优素福。稀疏线性系统的迭代方法。工业和应用数学学会，2003年。谷歌学者数字图书馆

索引术语

clSpMV:GPU上的跨平台OpenCL-SpMV框架

建议

yaSpMV：GPU上的另一个SpMV框架
2014年PPoPP

SpMV是一种关键的线性代数算法，在许多重要的应用领域得到了广泛的应用。因此，已多次尝试优化GPU上的SpMV，以利用其巨大的计算吞吐量。虽然之前的工作。。。
阅读更多信息
CSR5：一种高效的跨平台稀疏矩阵向量乘法存储格式
ICS’15：第29届ACM超级计算国际会议记录

稀疏矩阵向量乘法（SpMV）是许多应用程序的基本构造块。在本文中，我们提出了CSR5（Compressed Sparse Row 5，压缩稀疏行5），这是一种新的存储格式，可在各种平台上提供高吞吐量的SpMV，包括CPU、。。。
阅读更多信息
基于多核架构的跨平台SpMV框架

稀疏矩阵向量乘法（SpMV）是工程和科学计算中的关键运算。尽管之前的工作在多核架构、负载不平衡和高内存带宽的优化方面取得了显著进展。。。
阅读更多信息

登录选项

请检查您是否可以通过登录凭据或您的机构访问此文章以获得完全访问权限。

完全访问权限

获取此出版物

发布于
ICS’12：第26届ACM超级计算国际会议记录
2012年6月
400页
十亿英镑：9781450313162
内政部：10.1145/2304576
总主席：
乌特帕尔·班纳吉
美国加州大学欧文分校
,
凯尔·加利凡
美国佛罗里达州立大学
,
课程主席：
吉安弗兰科·比拉尔迪
意大利帕多瓦大学
,
Manolis G.H.Katevenis公司
FORTH和希腊克里特大学
版权所有©2012 ACM
如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定许可和/或付费。向请求权限[电子邮件保护]
赞助商
合作中
出版商
计算机协会
美国纽约州纽约市
出版历史
- 出版：2012年6月25日
权限
请求有关此文章的权限。
请求权限

检查更新
作者标记
通用分组
开放运算语言
向量乘法
自动调谐器
clSpMV公司
鸡尾酒形式
稀疏矩阵格式
限定符
- 研究论文
会议

验收费率
总体验收率584属于2,055提交文件，28%
资金来源
其他指标
查看文章指标

文章指标
- 100
  引文总数
  查看引文
- 528
  总下载次数
- 下载次数（过去12个月）27
- 下载量（最近6周）2
其他指标
查看作者指标
引用人
查看全部

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用eReader联机查看。

电子阅读器

clSpMV:GPU上的跨平台OpenCL-SpMV框架

ICS’12：第26届ACM超级计算国际会议论文集

摘要

工具书类

引用人

索引术语

建议

yaSpMV：GPU上的另一个SpMV框架

CSR5：一种高效的跨平台稀疏矩阵向量乘法存储格式

基于多核架构的跨平台SpMV框架

评论